Spark与MapReduce（Hive）对比分析

code • 2022-4-26 • java • 阅读 77

目录

Spark比MapReduce计算速度快的原因

Spark on Hive和Hive on Spark

Spark on Hive

Hive on Spark

Spark比MapReduce计算速度快的原因

Spark与MapReduce都是当今主流的离线分布式大数据计算框架，在实际工作中应用广泛。众所周知，spark的数据处理速度要比MapReduce快很多倍，那具体原因是什么呢？相信大家在面试过程中经常会被问到类似的问题。今天就来给大家好好分析一下具体的原因。

MR基于HDFS，所有的中间结果都需要落到HDFS中，需要频繁地进行文件的IO *** 作，且中间结果使用效率低；而Spark基于内存，通过DAG有向无环图来切分任务的执行先后顺序。尽量将中间结果存储在内存中，可以减少shuffle次数和频繁的IO。
MR是基于进程，当启动数据处理任务时就需要向集群申请资源，task完成后就会销毁；而Spark是基于线程的，当Spark进程获取到资源后，进程会一直存在，后续的task启动是基于线程的，无需再申请资源
MR只支持Map和Reduce两种算子，对于复杂计算过程效率低下；而Spark支transformation 和action两大不同类型的算子，复杂计算效率高。
MR默认要根据Key进行排序，所以必须等map输出所有数据后才能启动reduce *** 作；而Spark默认是不排序的，因此ShuffleMapTask每写入一点数据，ResultTask就可以拉取一点数据，然后在本地执行定义的聚合函数和算子进行计算。

Spark on Hive和Hive on Spark

首先两者都是用Spark做数据计算。

Spark on Hive

是通过Spark SQL使用hive语句， *** 作hive，底层运行还是Spark RDD

就是通过Spark SQL加载hive的配置文件，获取到Hive的元数据信息
Spark SQL获取到hive的元数据信息之后就可以拿到hive的所有表的数据
接下来就可以通过Spark SQL来 *** 作hive表中的数据

Hive on Spark

就是将hive的默认计算引擎（MR/Tez），替换为Spark

欢迎分享，转载请注明来源：内存溢出

原文地址: http://www.outofmemory.cn/langs/722411.html

大数据数据仓库

打赏

微信扫一扫

支付宝扫一扫

code 管理员组

RabbitMQ入门（二）——学习五种队列

上一篇 2022-04-26

郑州中创|双碳政策下，数据中心“内卷”加剧

下一篇 2022-04-26

发表评论

登录后才能评论

评论列表（0条）