基于spark的纽约2013出租费用数据分析与建模
项目流程
- 数据读取、清洗与关联
- 数据探索分析可视化
- 数据预处理与特征工程
- 建模、超参数调优、预测与模型存储
- 模型评估
整个项目会用到很多的spark SQL操作,在大家工业界的实际项目中,除掉spark mllib中默认给到的特征工程模块,我们也会经常用spark SQL来进行特征工程(完成各种统计信息计算与变换)。
数据读取、清洗与关联
1 | #数据注册成视图 |
数据探索分析可视化
1 | #使用SQL做数据分析 |
数据预处理与特征工程
1 | #数据变换与特征工程(类别性可以进行数值序号编码转换OneHotEncoder) |
建模、超参数调优、预测与模型存储
1 | #GBT Regression |
模型评估以及保存加载
1 | #from pyspark.ml import PipelineModel |
基于spark的航班延误数据分析与建模
数据读取、清洗与关联
1 | #数据注册成视图 |
数据探索分析可视化
1 | #单维度和多维度分析 |
数据预处理与特征工程
1 | #过滤非空值 |
建模、超参数调优、预测与模型存储
1 | #RL建模并使用ROC进行评估 |
模型评估以及保存加载
1 | from pyspark.ml import PipelineModel |
###