分类：大数据

大数据

大数据目录前言创建这个专栏是为了记录一下自己学习大数据的经历，需要学习的知识真的太多了，温故而知新。为什么会选择大数据呢？我们知道：Hadoop 大数据框架基于 Java 语言开发；Spark 流式计算框架是基于 Scala 语言，而 Scala 则是基于 Java 语言。这样在理解大数据储存

大数据

Spark Standalone 集群搭建

Spark Standalone 集群搭建 Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在 2009 年由加州大学伯克利分校的 AMPLab 开发，并于 2010 年成为 Apache 的开源项目之一，与 Hadoop 和 Storm 等其他大数据技术相比，S

大数据

Flume 安装

Flume 安装 Apache Flume 是一个分布式、可靠、高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume 可以对数据的简单处理，并写到各种数据接收方。特点 Flume 的数据流由事件（Event）贯穿始终。事件是 Flume 的基本数据单位，它携带日

大数据

Kafka 安装

Kafka 安装 Apache Kafka 最早是由 LinkedIn 开源出来的分布式消息系统，现在是 Apache 旗下的一个子项目，并且已经成为开源领域应用最广泛的消息系统之一。 Kafka 和传统的消息系统不同在于： Kafka 是一个分布式系统，易于向外扩展。它同时为发布和订阅提供高吞吐

大数据

Storm 安装

Storm 安装 Apache Storm 是自由开源的分布式实时计算系统，擅长处理海量数据，适用于数据实时处理而非批处理。进程常驻内存数据不经过磁盘，在内存中处理概念 Nimbus：集群主节点（Master），负责资源分配和任务调度。我们提交任务和截止任务都是在 Nimbus上操作的。一个

大数据

Elasticsearch 安装

Elasticsearch 安装 Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎，一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎。概念功能分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索。实时分析的分布式搜索引擎。可以扩展到上百台服务

大数据

ClouderaManager 部署

Cloudera Manager 部署『Cloudera Manager』是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具（软件）,使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。概念功能管理：对集群进行管理，如添加、删除

大数据 Linux

Hive多节点搭建

hive多节点搭建环境准备基于 Hadoop集群继续搭建多节点『Hive』。确保四台虚拟机互通。 Hive架构 | caroly01 | caroly02 | caroly03 | caroly04 | | ————— | ——– | ——– | ——– | | MySQL元数据服务 | 单

大数据

Hive 优化

Hive 优化及高可用核心思想：把 Hive SQL 当作 MapReduce 程序去优化。以下 SQL 不会转为 MapReduce 来执行： select 仅查询本表字段。 where仅对本表字段做条件过滤。 Hive 优化 # 对简单的不需要聚合的类似 select <col> fro

大数据

Hive 高可用

Hive 高可用 Hive 高可用环境如下： | - | caroly01 | caroly02 | caroly03 | caroly04 | | ———– | ——– | ——– | ——– | ——– | | Zookeeper | | √ | √ | √ | | Hiveserver2 |

大数据