大数据

前言

创建这个专栏是为了记录一下自己学习大数据的经历,需要学习的知识真的太多了,温故而知新。

为什么会选择大数据呢?我们知道:Hadoop 大数据框架基于 Java 语言开发;Spark 流式计算框架是基于 Scala 语言,而 Scala 则是基于 Java 语言。这样在理解大数据储存和计算思想和编写程序进行实现时,会有一定优势。相比于机器学习人工智能,大数据非常适合过渡。

大数据门槛比 Java 高一点,除了对数据库操作外,还需要学习大数据生态的东西,比如 Hadoop 生态、Spark 生态、Flink 生态等。

有意向的同窗,可以留言或发邮获取资料学习。


目录

Hadoop(一)高可用集群搭建

本文详细展示了从 0 到 1 搭建高可用集群 Hadoop 的步骤方法,包括环境准备、Hadoop 配置、Zookeeper 配置、Hadoop MapReduce V2 等内容。文末还有启动 / 关闭集群的命令以及启动集群后的单词统计用例。

Hadoop(二)WordCount(单词统计)详解

本文详细写了单词统计(WordCount)详解,包括 MapReduce 编程模型、处理过程、打包运行 WordCount 程序、WordCount 处理过程、SQL 处理统计操作等内容。

Hadoop(三)WordCount(单词统计)源码解析

本文着重分析单词统计的源码,从流程分析、源码分析入手,详细分析 Mapper 和 Reducer 代码及其实现流程。

Hadoop(四)TF-IDF 算法原理与实现

本文描述 TF-IDF 算法的原理与实现,叙述算法公式含义,佐以代码进行分析。

Hadoop(五)Hive 多节点搭建

本文详细展示了搭建 Hive 多节点的过程,在 Hadoop(一)高可用集群搭建 的基础上搭建,包括单节点模式、多节点模式。文章后面对搭建好的环境进行测试使用,阐述内外表区别,对单分区和双分区进行演示,并开启动态分区和分桶。

Hadoop(六)Hive 优化及高可用

本文主要描述 Hive 的优化及高可用。从 Hive 的排序、Hive Join、Map-Side 聚合、合并小文件、控制 Hive 中 Map 以及 Reduce 的数量等方面进行优化。配置 Hive 的高可用并通过代码进行测试。开启压缩及描述文件存储。

Hadoop(七)HBase 分布式安装

本文主要描述 HBase 的分布式安装,同样也是在 Hadoop(五)Hive 多节点搭建 的基础上搭建,包括单节点安装以及分布式安装。通过 hbase shell 指令对搭建好的环境进行验证测试。

Hadoop(八)ClouderaManager 部署

本文主要描述 ClouderaManager 的部署,分析 ClouderaManager 的功能、架构。文章后面详细记录从系统环境准备到 CM 的安装的过程,安装好后可以通过 CM 来安装我们需要的集群服务。

Hadoop(九)Elasticsearch 安装

本文从功能和基本概念等方面对 Elasticsearch 进行剖析,对比 ES 与关系型数据库。基于 Hadoop(八)ClouderaManager 部署 进行 ES 的安装。

Hadoop(十)Storm 安装

本文通过对专业名词进行解析来剖析 Storm,主要描述 Storm 的安装过程,在 Hadoop(七)HBase 分布式安装 的基础上搭建,包括单机模式以及全分布式。

Hadoop(十一)Kafka 安装

本文描述 Kafka 的拓扑结构以及名词解析,对 Producer 发布消息、Broker 保存消息、 Consumer 消费消息以及常用 API 进行详细描述。文章最后记录安装 Kafka 的全过程,在 Hadoop(十)Storm 安装 的基础上搭建。

Hadoop(十二)Flume 安装

本文从 Flume 的特点和名词概念等方面剖析,阐述 Flume NG 的体系结构。在 Hadoop(十一)Kafka 安装 的基础上进行 Flume 的安装。

Hadoop(十三)Spark Standalone 集群搭建

本文分析 Spark 的流程图及特点,在 Hadoop(十二)Flume 安装 的基础上安装 Spark。描述基于 Standalone 和 Yarn 任务提交、基于 Standalone client 和 cluster 任务提交、基于 Yarn-client 模式任务提交、基于 Yarn-cluster 模式任务提交等四种模式的指令、过程及特点。

更新时间:2021-04-29 17:36:23

本文由 caroly 创作,如果您觉得本文不错,请随意赞赏
采用 知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载 / 出处外,均为本站原创或翻译,转载前请务必署名
原文链接:https://caroly.fun/archives/大数据
最后更新:2021-04-29 17:36:23

评论

Your browser is out of date!

Update your browser to view this website correctly. Update my browser now

×