Spark 从零开始

Spark 从零开始,第1张

Spark 从零开始 什么是spark? 相关应用场景


特性
1.快速性
如果在内存中运行MapRaduce,要比Hadoop快100倍
如果在磁盘中运行,要比Hadoop快10倍
Spark使用先进的有向无环图执行引擎来支持非循环的数据流在内存中计算

2.易用性
Spark提供超过80个高阶算子,这些算子使其很容易构建并行应用
这些算子支持多种语言 按照切合度排序为 Scala, Python, R

3.通用性
Spark有一个强大的堆库,包括SQL and Dataframes, MLlib for machine learning, GraphX, and Spark Streaming

4.跨平台性
Spark可以运行在Hadoop, Mesos, standalone, or in the cloud
可以访问不同的数据源包括HDFS, Cassandra, Hbase, and S3.

Spark核心RDD

最基础RDD 词频统计

a.txt

RDD创建方式
  1. 集合

  2. 文件

Spark支持的两种RDD *** 作





Action算子


欢迎分享,转载请注明来源:内存溢出

原文地址: https://www.outofmemory.cn/zaji/5635116.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存