丛书前言
译者序
前言
第1章 大数据集成的挑战和机遇1
1.1 传统数据集成2
1.1.1 航班示例:数据源2
1.1.2 航班示例:数据集成7
1.1.3 数据集成:体系结构和三个主要步骤10
1.2 大数据集成:挑战12
1.2.1 “V”维度13
1.2.2 案例研究:深网数据量15
1.2.3 案例研究:抽取的领域数据18
1.2.4 案例研究:深网数据的质量22
1.2.5 案例研究:浅网结构化数据25
1.2.6 案例研究:抽取的知识三元组28
1.3 大数据集成:机遇30
1.3.1 数据冗余性31
1.3.2 长数据32
1.3.3 大数据平台33
1.4 章节安排33
第2章 模式对齐34
2.1 传统模式对齐:快速导览35
2.1.1 中间模式35
2.1.2 属性匹配36
2.1.3 模式映射37
2.1.4 查询问答38
2.2 应对多样性和高速性的挑战39
2.2.1 概率模式对齐39
2.2.2 按需集成用户反馈52
2.3 应对多样性和海量性的挑战54
2.3.1 集成深网数据55
2.3.2 集成Web表格59
第3章 记录链接68
3.1 传统记录链接:快速导览69
3.1.1 两两匹配71
3.1.2 聚类72
3.1.3 分块74
3.2 应对海量性挑战76
3.2.1 使用MapReduce并行分块77
3.2.2 meta-blocking:修剪两两匹配83
3.3 应对高速性挑战88
3.4 应对多样性挑战95
3.5 应对真实性挑战100
3.5.1 时态记录链接100
3.5.2 具有唯一性约束的记录链接107
第4章 大数据集成:数据融合113
4.1 传统数据融合:快速导览114
4.2 应对真实性挑战116
4.2.1 数据源的准确度117
4.2.2 值为真的概率118
4.2.3 数据源之间的复制关系121
4.2.4 端到端的解决方案128
4.2.5 扩展性和适应性131
4.3 应对海量性挑战134
4.3.1 基于MapReduce框架做离线融合135
4.3.2 在线数据融合136
4.4 应对高速性挑战142
4.5 应对多样性挑战146
第5章 大数据集成:出现的新问题149
5.1 众包的角色149
5.1.1 利用传递关系150
5.1.2 众包端到端的工作流155
5.1.3 未来的工作158
5.2 数据源选择158
5.2.1 静态数据源160
5.2.2 动态数据源162
5.2.3 未来的工作166
5.3 数据源分析166
5.3.1 Bellman系统167
5.3.2 概述数据源170
5.3.3 未来的工作174
第6章 结论175
参考文献177
索引184