随着互联网的发展,大数据已经成为了新一代的“网红”,各行各业几乎都和大数据产生着关系。Spark是大数据中重要的框架之一,下面为大家分享如何快速入门spark。
创新互联建站专注于卫东网站建设服务及定制,我们拥有丰富的企业做网站经验。 热诚为您提供卫东营销型网站建设,卫东网站制作、卫东网页设计、卫东网站官网定制、微信小程序服务,打造卫东网络公司原创品牌,更为您提供卫东网站排名全网营销落地服务。Apache Spark是在大数据工业界里用的最多的基于内存的技术框架,尤其是RDD的特性以及应用,对帮助理解Spark和任务提交的流程以及缓存机制。
通过以上教程可以让大家掌握Spark的环境搭建,任务调度流程,以及RDD代码的应用。
课程目录:
第1章 Spark知识讲解
01_为什么学习Spark
02_Spark和MapReduce的对比.mp4
03_Spark框架体系
04_Spark下载
05.Spark运行模式介绍
06.Spark集群安装
07.Spark程序执行流程
08.Spark相关名词解释
09_SparkShellLocal
10_SparkShellCluster
11_Spark2.2和Spark1.6Shell对比
第2章 Maven和IDEA
12_Maven和IDEA下载
13_Maven安装
14_IDEA安装
15_IDEA中配置Maven
16_Scala环境安装和IDEA中配置Scala插件
17_IDEA创建Spark工程
18_Spark开发WordCount程序
19_Spark程序打包
20_Spark集群运行打包程序
第3章 RDD知识讲解
21_RDD概念
22_RDD执行流程
23_RDD属性
24_RDD弹性
25_RDD的两种创建
26_RDD编程API
第4章 Transformation算法
27_Transformation算法
28_Action算法
29_Map
30_filter
31_flatMap
32_sample
33 union
34 intersection
35 distinct
36 join
37_leftOuterJoin
38_rightOuterJoin
39_cartesian
40_groupBy
41_mapPartition
42_mapPartitionWithIndex
43_sortby
44_sortbykey
45_repartition
46_coalesce
47_partitionBy
48_repartitionAndSortWithinPartitions
49_reduce
50_reduceByKey
51_aggregateByKey
52_combineByKey
第5章 Action算法
53_collect
54_count
55_top
56_take
57_takeOrdered
58_first
59_saveAsTextFile
60_foreach
61_其他算子之countByKey
62_其他算子之countByValue
63_其他算子之filterByRange
64_其他算子之flatMapValues
65_其他算子之foreachPartition
66_其他算子之keyBy
67_其他算子之keys和values
68_其他算子之collectAsMap
69_RDD函数传递
70_RDD的依赖关系
71_RDD任务划分
72_Lineage血统
73_RDD缓存(持久化)
另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。