注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络数据库敏捷数据科学:用Hadoop创建数据分析应用

敏捷数据科学:用Hadoop创建数据分析应用

敏捷数据科学:用Hadoop创建数据分析应用

定 价:¥49.00

作 者: (美)Russell Jurney 著; 冯文中,朱洪波 译
出版社: 电子工业出版社
丛编项:
标 签: 暂缺

购买这本书可以去


ISBN: 9787121236198 出版时间: 2014-07-01 包装: 平装
开本: 16开 页数: 184 字数:  

内容简介

  《敏捷数据科学:用Hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据- 价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在Hadoop 上构建数据分析应用;用Python、Apache Pig D3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。

作者简介

  Russell Jurney,在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个web应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在Ning和LinkedIn开始构建可扩展的数据分析应用。他现在和妻子Kate以及两只爱犬住在加利福尼亚州帕西菲卡市的海边。

图书目录

前言xi
第1部分起步
第1章理论
敏捷大数据
BigWords定义
敏捷大数据团队
认识机遇和问题
敏捷大数据流程
代码检查和结对编程
敏捷的场所:开发的效率
协作空间
私人空间
个人空间
用大幅打印件明确表达想法
第2章数据
电子邮件
处理原始数据
原始的电子邮件
viii|目录
结构化与半结构化数据
SQL
NoSQL
序列化
从演变的模式中抽取和展示特征
数据流水线
数据透视
社交网络
时间序列
自然语言
概率
小结
第3章敏捷开发工具
可扩展性=简洁
敏捷大数据处理
设置运行Python的虚拟环境
使用Avro对事件进行序列化
在Python中使用Avro
收集数据
使用Pig处理数据
安装Pig
使用MongoDB发布数据
安装MongoDB
安装MongoDB的Java驱动程序
安装mongo-hadoop
用Pig向MongoDB推送数据
使用ElasticSearch搜索数据
安装
使用Wonderdog整合ElasticSearch和Pig
对工作流程的反思
轻量级的Web应用
Python和Flask
目录|ix
展示数据
安装Bootstrap
启用Bootstrap
使用d3js和nvd3js可视化数据
小结
第4章在云端
引言
GitHub
dotCloud
dotCloudEcho服务
Python工作者服务
AmazonWebServices
SimpleStorageService
ElasticMapReduce
MongoDB即服务
辅助工具(Instrumentation)
GoogleAnalytics
MortarData
第2部分登上金字塔
第5章收集和展示数据
整合软件栈
收集并序列化收件箱
处理和发布邮件数据
在浏览器中显示邮件
用Flask和pymongo处理邮件数据
使用Jinja2渲染HTML5页面
敏捷检查点
生成电子邮件清单
用MongoDB显示邮件
对数据展示的分析
x|目录
搜索邮件
使用Pig,ElasticSearch和Wonderdog构建索引
在网页中搜索邮件数据
结论
第6章使用图表可视化数据
优秀的图表
抽取实体:邮件地址
抽取邮件
对时间进行可视化
结论
第7章利用报表探索数据
为数据添加联系
用TF-IDF从邮件中提取关键字
小结
第8章预测
预测电子邮件的回复率
个性化
小结
第9章驱动行动
好邮件的属性
使用朴素贝叶斯方法进行更好的预测
P(Reply|From∩To)
P(Reply|Token)
实时预测
记录事件日志
小结
索引

本目录推荐