大数据分析学习笔记1——Hadoop生态系统概述

opp • 2022-11-13 • 随笔 • 阅读 26

大数据分析学习笔记1——Hadoop生态系统概述 Hadoop生态系统概述

HDFS
Hadoop的最底层分布式文件系统）
面向批处理
Hadoop的核心之一
作用：海量分布式文件存储

YARN
YARN（资源调度和管理框架）
提供资源调度和管理服务
Hadoop2.0以后出现

为什么YARN会出现？
同时用几种技术时，会出现互相竞争cpu的问题

YARN可以进行统一调度分配给计算框架，最大程度的利用资源，底层数据的无缝共享

MapReduce
MapReduce（分布式计算框架）
Hadoop两大核心之一
思想：分而治之
大的任务进行拆分，拆分成很多的子任务，把每个子任务分发到不同的主机上并行执行。
只有满足分而治之才能使用MapReduce处理

Hive
Hive（数据仓库）
不存储数据，数据存储在HDFS中
本质上是编程接口，将sql语句转成相关的MapReduce程序对底层（HDFS）的数据进行查询分析。

Pig
Pig（数据流处理）
和Hive组合使用数据清洗

Mahout
Mahout（数据挖掘库）
算法库
实现常用数据挖掘算法分类聚类回归等

Ambari
Ambari （安装、部署、配置和管理工具）

Zookeeper
Zookeeper（分布式协作服务）
分布性协调一致性服务

Hbase
Hbase（分布式数据库）
实时性计算

Flume
Flume（日志收集）
日志采集分析

Sqoop
Sqoop（数据库ETL）
完成Hadoop系统组件之间的互通分布式数据和关系型数据库之间的转换

欢迎分享，转载请注明来源：内存溢出

原文地址: https://www.outofmemory.cn/zaji/4965808.html

分布式数据分而治之调度框架

打赏

微信扫一扫

支付宝扫一扫

opp 一级用户组

Win10下Linux子系统Ubuntu18.04安装配置（详细过程）

上一篇 2022-11-13

pycharm连接ssh服务器，通过anaconda运行深度学习代码

下一篇 2022-11-13

发表评论

登录后才能评论

评论列表（0条）