首页
图库
日记
链接
关于
已删除用户
该用户已被删除。
累计撰写
39
篇文章
累计收获
0
个点赞
累计收到
0
条评论
导航
首页
图库
日记
链接
关于
目录
分类
大数据
HBase 分布式安装
HBase 分布式搭建 Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务。主要用来存储非结构化和半
2020-12-02 23:47
5
0
0
24.5℃
大数据
WordCount(单词统计)源码解析
Hadoop集群(三)——WordCount(单词统计)源码解析 WordCount源码解析 特别数据类型介绍 『Hadoop』本身提供了一套可优化网络序列化传输的基本类型,而不直接使用『Java』内嵌的类型。这些类型都在『org.apache.hadoop.io』包中。 Hadoop Java D
2020-12-02 02:26
9
0
0
24.9℃
大数据
高可用集群搭建
高可用集群搭建 以下所有操作均在测试环境中执行 环境准备 于『VMWare』中安装『CentOS-6.8-x86_64』。注:尽量安装最新版VM,旧版会因一些操作导致虚拟机卡死,这将对我们接下来的操作产生严重影响 安装过程没什么可说的,唯一一点就是在创建磁盘分区的时候尽量选择『Create Cust
2020-12-02 02:25
4
0
0
24.4℃
大数据
WordCount(单词统计)详解
Hadoop集群(二)——WordCount(单词统计)详解 MapReduce理论简介 MapReduce编程模型 『MapReduce』是一种可用于数据处理的编程模型。它的任务过程分为两个处理阶段: map 阶段和 reduce 阶段。每阶段都以 键-值对 作为输入和输出,其类型由我们按需选择。
2020-12-02 02:15
6
0
0
24.6℃
大数据
TF-IDF算法原理与实现
TF-IDF算法原理与实现 原理 『TF-IDF』是一种用于资讯检索与资讯探勘的常用加权技术。 主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 『TF-IDF』实际上是:『TF』(词频) * 『IDF』(逆向文
2020-12-02 02:13
6
0
0
24.6℃
大数据
上一页
下一页
1
2
弹