本书是大数据技术普及系列读物之一,主要涉及大数据采集、分布式文件存储和非关系型数据管理等内容。全书共6章,每章一个专题,按照大数据运用流程,从网页和日志文件两种常用的大数据采集方法入手,介绍了分布式文件存储、NoSQL数据库基础理论和4种NoSQL数据库技术。针对特定技术选择了一款最典型的产品进行诠释,先后对Python语言中的Requests和BeautifulSoup包,Hadoop生态中的Flume、HDFS和HBase,以及Redis、MongoDB和Neo4j等产品进行了介绍。在每章结构上,按照要做什么(需求背景)、是什么(产品功能和特性)、为什么(体系结构/数据模型)和怎么做(基本操作)?4个方面递进展开,内容相对独立,方便读者根据自身需要选择章节进行阅读。 全书内容相对浅显,具有较强的可读性,适合对大数据技术感兴趣,希望从技术和产品层面对大数据采集、存储和管理进行初步学习的读者阅读。