分类：大数据

HBase 分布式安装

HBase 分布式搭建 Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务。主要用来存储非结构化和半

大数据

WordCount（单词统计）源码解析

Hadoop集群（三）——WordCount（单词统计）源码解析 WordCount源码解析特别数据类型介绍『Hadoop』本身提供了一套可优化网络序列化传输的基本类型，而不直接使用『Java』内嵌的类型。这些类型都在『org.apache.hadoop.io』包中。 Hadoop Java D

大数据

高可用集群搭建

高可用集群搭建以下所有操作均在测试环境中执行环境准备于『VMWare』中安装『CentOS-6.8-x86_64』。注：尽量安装最新版VM，旧版会因一些操作导致虚拟机卡死，这将对我们接下来的操作产生严重影响安装过程没什么可说的，唯一一点就是在创建磁盘分区的时候尽量选择『Create Cust

大数据

WordCount（单词统计）详解

Hadoop集群（二）——WordCount（单词统计）详解 MapReduce理论简介 MapReduce编程模型『MapReduce』是一种可用于数据处理的编程模型。它的任务过程分为两个处理阶段： map 阶段和 reduce 阶段。每阶段都以键-值对作为输入和输出，其类型由我们按需选择。

大数据

TF-IDF算法原理与实现

TF-IDF算法原理与实现原理『TF-IDF』是一种用于资讯检索与资讯探勘的常用加权技术。主要思想是：如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。『TF-IDF』实际上是：『TF』（词频） * 『IDF』（逆向文

大数据