该项目从SparkCore, SparkSQL, SparkML以及SparkStreaming这4个方面介绍了Spark, 补充了Scala以及Java的常用语法, 并对LeetCode中经典算法进行了总结
目前提供以下模块:
Java模块
leetcode
binarytree
: 二叉树经典算法recursion
: 递归经典算法stackqueue
: 栈队列经典算法
lesson
collection
: 容器thread
: 线程
spark
dataframe
: DataFrame的创建及使用udf
: UDF的创建及使用
case
: 测试代码
Scala模块
-
lesson
actor
: 通讯模型base
: 基础语法collection
: 容器implicit
: 隐式转换trait
: 特质
-
spark
core
action
: action算子transfomation
: transfomation算子persist
: 持久化算子
ml
feature
: 特征提取pipeline
: 管道流
sql
dataframe
: DataFrame的创建及使用udf
: UDF的创建及使用window
: 开窗函数的创建及使用
streaming
: 读取,保存以及窗口相关操作
-
case
: 测试代码- ``
lesson
: 介绍了容器,线程等常用语法spark
: 针对SparkSQL中的UDF, DataFrame语法进行了描述core
actions
: 提供了actions算子的使用方法trainfromations
: 提供了transformations算子的使用方法persist
: 提供了persist算子的使用方法examples
: 提供了累加器,广播变量以及WordCount等实现方法
sql
DataSetAndDataFrame
: 提供了DataFrame和DataSet的使用方法UDFandUDAF
: 提供了UDF和UDAF的使用方法windows
: 提供了基于Hive和MySQL的开窗函数方法
streaming
: 提供了spark streaming中一些算子的使用方法
-
如果要给该项目贡献代码,可以先将代码克隆到本地
$ git clone [email protected]:HuangNing616/SparkNote.git