大数据


大数据目录 前言 创建这个专栏是为了记录一下自己学习大数据的经历,需要学习的知识真的太多了,温故而知新。 为什么会选择大数据呢?我们知道:Hadoop 大数据框架基于 Java 语言开发;Spark 流式计算框架是基于 Scala 语言,而 Scala 则是基于 Java 语言。这样在理解大数据储存

Spark Standalone 集群搭建


Spark Standalone 集群搭建 Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在 2009 年由加州大学伯克利分校的 AMPLab 开发,并于 2010 年成为 Apache 的开源项目之一,与 Hadoop 和 Storm 等其他大数据技术相比,S

Flume 安装


Flume 安装 Apache Flume 是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume 可以对数据的简单处理,并写到各种数据接收方。 特点 Flume 的数据流由事件(Event)贯穿始终。事件是 Flume 的基本数据单位,它携带日

Kafka 安装


Kafka 安装 Apache Kafka 最早是由 LinkedIn 开源出来的分布式消息系统,现在是 Apache 旗下的一个子项目,并且已经成为开源领域应用最广泛的消息系统之一。 Kafka 和传统的消息系统不同在于: Kafka 是一个分布式系统,易于向外扩展。 它同时为发布和订阅提供高吞吐

Storm 安装


Storm 安装 Apache Storm 是自由开源的分布式实时计算系统,擅长处理海量数据,适用于数据实时处理而非批处理。 进程常驻内存 数据不经过磁盘,在内存中处理 概念 Nimbus:集群主节点(Master),负责资源分配和任务调度。我们提交任务和截止任务都是在 Nimbus上操作的。一个

Elasticsearch 安装


Elasticsearch 安装 Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎。 概念 功能 分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。 实时分析的分布式搜索引擎。 可以扩展到上百台服务

ClouderaManager 部署


Cloudera Manager 部署 『Cloudera Manager』是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 概念 功能 管理:对集群进行管理,如添加、删除

Hive多节点搭建


hive多节点搭建 环境准备 基于 Hadoop集群 继续搭建多节点『Hive』。 确保四台虚拟机互通。 Hive架构 | caroly01 | caroly02 | caroly03 | caroly04 | | ————— | ——– | ——– | ——– | | MySQL元数据服务 | 单

Hive 优化


Hive 优化及高可用 核心思想:把 Hive SQL 当作 MapReduce 程序去优化。 以下 SQL 不会转为 MapReduce 来执行: select 仅查询本表字段。 where仅对本表字段做条件过滤。 Hive 优化 # 对简单的 不需要聚合的 类似 select <col> fro

Hive 高可用


Hive 高可用 Hive 高可用 环境如下: | - | caroly01 | caroly02 | caroly03 | caroly04 | | ———– | ——– | ——– | ——– | ——– | | Zookeeper | | √ | √ | √ | | Hiveserver2 |