大数据

这个专栏记录了学习大数据的经历。需要学习的知识真的太多了,在如今信息爆炸的时代,我们需要将一些分散、相对独立的知识概念或观点加以整合,使之形成具有一定联系的知识系统。

温故而知新。

Hadoop(十三)Spark Standalone 集群搭建

Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在 2009 年由加州大学伯克利分校的 AMPLab 开发,并于 2010 年成为 Apache 的开源项目之一。

Hadoop(十二)Flume 安装

Apache Flume 是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume 可以对数据的简单处理,并写到各种数据接收方。

Hadoop(十一)Kafka 安装

Apache Kafka 最早是由 LinkedIn 开源出来的分布式消息系统,现在是 Apache 旗下的一个子项目,并且已经成为开源领域应用最广泛的消息系统之一。

Hadoop(十)Storm 安装

Storm 安装Apache Storm 是自由开源的分布式实时计算系统,擅长处理海量数据,适用于数据实时处理而非批处理。

Hadoop(九)Elasticsearch 安装

Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎。

Hadoop(八)ClouderaManager 部署

拥有集群自动化安装、中心化管理、集群监控、报警功能,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。

Hadoop(七)HBase 分布式安装

Hadoop Database是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。

Hadoop(六)Hive 优化及高可用

Hive 优化及高可用核心思想:把 Hive SQL 当作 MapReduce 程序去优化。

Hadoop(五)Hive 多节点搭建

Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行。
Your browser is out of date!

Update your browser to view this website correctly. Update my browser now

×