Hadoop(十三)Spark Standalone 集群搭建

Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在 2009 年由加州大学伯克利分校的 AMPLab 开发,并于 2010 年成为 Apache 的开源项目之一。

Hadoop(十二)Flume 安装

Apache Flume 是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume 可以对数据的简单处理,并写到各种数据接收方。

Hadoop(十一)Kafka 安装

Apache Kafka 最早是由 LinkedIn 开源出来的分布式消息系统,现在是 Apache 旗下的一个子项目,并且已经成为开源领域应用最广泛的消息系统之一。

Hadoop(十)Storm 安装

Storm 安装Apache Storm 是自由开源的分布式实时计算系统,擅长处理海量数据,适用于数据实时处理而非批处理。

Hadoop(八)ClouderaManager 部署

拥有集群自动化安装、中心化管理、集群监控、报警功能,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。

Hadoop(七)HBase 分布式安装

Hadoop Database是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。

Hadoop(六)Hive 优化及高可用

Hive 优化及高可用核心思想:把 Hive SQL 当作 MapReduce 程序去优化。

Hadoop(五)Hive 多节点搭建

Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行。

Hadoop(四)TF-IDF 算法原理与实现

如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

Hadoop(三)WordCount(单词统计)源码解析

WordCount源码解析特别数据类型介绍『Hadoop』本身提供了一套可优化网络序列化传输的基本类型,而不直接使用『Java』内嵌的类型。
Your browser is out of date!

Update your browser to view this website correctly. Update my browser now

×