1大数据采集处理方法1
1.1爬虫程序设计方案1
1.2爬虫程序实现方法5
1.3数据清洗20
2大数据存储方法27
2.1分布式文件系统存储大数据27
2.1.1HDFS体系结构27
2.1.2HDFS数据存储方式28
2.1.3HDFS读写方式28
2.2分布式数据库存储大数据32
2.2.1Hbase体系结构32
2.2.2配置Hbase33
2.2.3Hbase表操作38
2.2.4访问Hbase数据资源44
3大数据计算方法50
3.1分布式计算平台构建方法50
3.2分布式计算框架构建方法60
3.3分布式计算程序设计方法63
4大数据分析模型构建方法78
4.1准备训练数据78
4.2机器学习路径和算法设计方法82
4.3数据可视化辅助建模方法88
4.4构建大数据分析模型91
5大数据分析模型检验方法108
5.1回归诊断108
5.2交叉验证113
6大数据分析模型优化方法117
6.1Feature Scaling优化法117
6.2逐步回归优化法118
6.3PCA主成分分析优化方法120
6.4神经网络优化大数据分析模型127
参考文献151