本书关注大数据分析师所需掌握的最重要的基础能力。首先,本书阐述了大数据分析师的职业特点。其次,根据数据分析经常涉及的技术要求,按顺序介绍了什么是数据库,如何使用数据库,大数据环境下的分布式数据库Hadoop、阿里云MaxCompute,以及相对应的数据库查询语言SQL、MapReduce、Hive、Pig等基本的编程技术。为了提高数据分析工作的质量与效率,本书还详细介绍了数据项目质量控制的理论和实践,其中涉及了数据预处理、数据脱敏和脏数据处理的技能知识,同时介绍了在数据项目中SQL编程的优秀实践方法。作为一本介绍数据分析的入门书籍,本书详细介绍了数据分析中常见的方法(如EDA),包括指标计算的一些常见形式。在企业环境中,数据分析常常以项目的形式出现,本书也向读者介绍了数据分析项目是如何承接、分解和实施的。最后,本书还向读者介绍了常用的数据挖掘技术,如决策树、聚类分析和关联分析,让读者对算法在数据分析中的应用有直观的了解。本书可作为阿里云大数据分析师ACP认证培训的教材,也可作为高校大数据相关专业的学生教材,还可供希望从事大数据分析工作的读者阅读参考。