高可用集群搭建

高可用集群搭建 以下所有操作均在测试环境中执行 环境准备 于『VMWare』中安装『CentOS-6.8-x86_64』。注:尽量安装最新版VM,旧版会因一些操作导致虚拟机卡死,这将对我们接下来的操作产生严重影响 安装过程没什么可说的,唯一一点就是在创建磁盘分区的时候尽量选择『Create Cust

WordCount(单词统计)详解

Hadoop集群(二)——WordCount(单词统计)详解 MapReduce理论简介 MapReduce编程模型 『MapReduce』是一种可用于数据处理的编程模型。它的任务过程分为两个处理阶段: map 阶段和 reduce 阶段。每阶段都以 键-值对 作为输入和输出,其类型由我们按需选择。

TF-IDF算法原理与实现

TF-IDF算法原理与实现 原理 『TF-IDF』是一种用于资讯检索与资讯探勘的常用加权技术。 主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 『TF-IDF』实际上是:『TF』(词频) * 『IDF』(逆向文