Hadoop(四)TF-IDF 算法原理与实现

如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

Hadoop(三)WordCount(单词统计)源码解析

WordCount源码解析特别数据类型介绍『Hadoop』本身提供了一套可优化网络序列化传输的基本类型,而不直接使用『Java』内嵌的类型。

Hadoop(二)WordCount(单词统计)详解

MapReduce理论简介MapReduce编程模型『MapReduce』是一种可用于数据处理的编程模型。它的任务过程分为两个处理阶段: map 阶段和 reduce 阶段。

Hadoop(一)高可用集群搭建

2.x 版本中,HDFS 架构解决了单点故障问题,同时借助共享存储系统来进行元数据的同步。通过一系列捆绑功能改善了系统的可扩展性和系统可用性,这些捆绑功能代表了 YARN 引入后 Hadoop 体系结构的提升。
Your browser is out of date!

Update your browser to view this website correctly. Update my browser now

×