本书从大数据分析的原理、技术和应用的角度,围绕着大数据分析的基础知识、大数据分析平台的核心原理、大数据分析的关键技术、大数据分析的应用四个方面进行讲述,使学生能掌握大数据分析的基本原理和核心技术,同时通过大数据分析在上市公司信用风险预测研究中的应用案例使学生熟悉大数据分析的原理和技术的实际应用,并能搭建大数据分析平台分析大规模数据集。其中,大数据分析的基础知识包括:大数据产生的背景、大数据的概念、特点、价值、大数据带来的思维变革;大数据分析平台的核心原理包括:两种常用开源大数据分析平台――Hadoop和Spark的起源、发展及应用现状,理解两种平台各自的体系架构、基本运行机制及适用范围,掌握其安装部署过程及基本使用方法,为大数据分析的应用打下基础;大数据分析的关键技术包括:Hadoop分布式文件系统、MapReduce并行编程模型、Hadoop 2.0的资源管理调度框架――YARN、大数据的获取和预处理、大数据的聚类和分类算法。