目 录
前言
第1章 数据导论 1
1.1 什么是数据 2
1.2 数据分类与存储 5
1.2.1 变量类型 6
1.2.2 分类数据的数字编码 7
1.2.3 数据存储 8
1.3 数据调查 10
1.4 分类数据的组织 14
1.5 数据收集与因果关系识别 18
1.5.1 逸事 19
1.5.2 观察性研究 20
1.5.3 对照实验 22
1.5.4 样本量 22
1.5.5 随机分配 22
1.5.6 盲法 23
1.5.7 安慰剂 24
1.5.8 结论推广 25
1.5.9 新闻中的统计 26
数据项目:下载和上传数据 28
本章回顾 30
练习 32
练习指导 46
第2章 图形可视化变异 48
2.1 数值数据变异的可视化 49
2.1.1 点图 51
2.1.2 直方图 51
2.1.3 茎叶图 54
2.2 数值分布重要特征汇总 55
2.2.1 形状 56
2.2.2 中心 60
2.2.3 变异性 62
2.2.4 分布的描述 64
2.3 分类变量变异的可视化 64
2.3.1 条形图 65
2.3.2 饼图 67
2.4 分类分布的汇总 68
2.4.1 众数 68
2.4.2 变异性 69
2.4.3 分类变量分布的描述 70
2.5 解释图表 72
2.5.1 误导性图表 72
2.5.2 统计图形的未来 73
数据项目:提出问题 75
本章回顾 76
练习 78
练习指导 96
技术提示 97
第3章 中心和变异的数值汇总统计量 103
3.1 对称分布的汇总统计量 104
3.1.1 均值:中心的平衡点度量 104
3.1.2 标准差:变异性的度量 109
3.2 经验法则与z分数:异常现象的度量 114
3.2.1 经验法则 114
3.2.2 z分数:与均值距离的度量 117
3.3 偏态分布的汇总统计量 119
3.3.1 中位数:中心的另一种度量 120
3.3.2 四分位距:变异性的度量 122
3.3.3 全距:变异性的另一种度量 126
3.4 度量中心的方法比较 126
3.4.1 分布图的形状 126
3.4.2 异常值的影响 128
3.4.3 多峰分布的中心与离散程度 129
3.4.4 不同分布的比较 130
3.5 箱线图 131
3.5.1 潜在异常值分析 134
3.5.2 水平箱线图与竖直箱线图 135
3.5.3 基于箱线图比较分布 135
3.5.4 使用箱线图的注意事项 136
3.5.5 五数概括法 136
数据项目:统计调查周期 139
本章回顾 140
练习 142
练习指导 165
技术提示 166
第4章 回归分析:探究变量的相关性 172
4.1 变异性的可视化:散点图 173
4.1.1 趋势 173
4.1.2 强度 175
4.1.3 形状 175
4.1.4 变量相关性 176
4.1.5 关于回归的统计问题 177
4.2 相关性的强度度量 178
4.2.1 相关系数可视化 178
4.2.2 相关系数:基于情境 180
4.2.3 相关性与因果关系 181
4.2.4 相关系数的计算 182
4.2.5 相关系数的意义 184
4.3 对线性趋势建模 187
4.3.1 回归线 187
4.3.2 解释回归线 192
4.4 线性模型的评估 199
4.4.1 建模误区 199
4.4.2 决定系数r2:拟合优度的度量 203
数据项目:数据迁移 206
本章回顾 209
练习 210
练习指导 237
技术提示 238
第5章 概率:用模型解释随机性 243
5.1 什么是随机性 244
5.2 理论概率的计算 248
5.2.1 理论概率的性质 248
5.2.2 等可能结果的理论概率 249
5.2.3 积事件与和事件 252
5.2.4 和事件 253
5.2.5 互斥事件 255
5.3 分类变量的相关性 257
5.3.1 条件概率 258
5.3.2 独立事件与相关事件 261
5.3.3 判断事件是否独立 263
5.3.4 独立事件序列与相关事件序列 264
5.4 经验概率与模拟概率的计算 269
5.4.1 模拟的设计 270
5.4.2 模拟的步骤 271
5.4.3 大数定律 272
5.4.4 大数定律的内涵 275
数据项目:构造数据子集 276
本章回顾 277
练习 279
练习指导 302
技术提示 303
第6章 随机事件概率模型:正态模型
与二项模型 306
6.1 随机实验模型:概率分布 307
6.1.1 离散概率分布:表格或图表 308
6.1.2 离散概率分布:公式 309
6.1.3 连续概率:概率密度曲线下方的
面积 311
6.1.4 计算连续值结果的概率 311
6.2 正态模型 312
6.2.1 正态分布可视化 313
6.2.2 计算正态概率 315
6.2.3 用软件计算概率 316
6.2.4 不用统计软件:用经验法则 318
6.2.5 不用统计软件:标准正态 320
6.2.6 根据正态分布的分位数计算
度量值 323
6.2.7 正态模型的适用性 326
6.3 二项模型 326
6.3.1 二项分布可视化 329
6.3.2 计算二项概率 330
6.3.3 计算(稍微)复杂的概率 332
6.3.4 二项分布的形状:中心与离散
程度 335
6.3.5 抽样调查:二项模型的应用 337
数据项目:生成随机数 339
本章回顾 341
练习 343
练习指导 363
技术提示 364
第7章 调查抽样与推断 371
7.1 通过调查了解世界 372
7.1.1 调查术语 372
7.1.2 调查偏差 375
7.1.3 简单随机抽样 377
7.2 度量调查质量 380
7.2.1 模拟与估计量 381
7.2.2 偏差与标准误差的计算 387
7.2.3 现实生活:我们只有一次机会 388
7.3 样本比例的中心极限定理 389
7.3.1 中心极限定理的适用条件 389
7.3.2 中心极限定理适用条件的检验 391
7.3.3 中心极限定理的应用 391
7.4 估计总体比例的置信区间 395
7.4.1 设置置信水平 396
7.4.2 设置误差范围 397
7.4.3 现实检验:在p未知的情况下计算
置信区间 399
7.4.4 解释置信区间 400
7.4.5 研究筹备:计算所需的样本量 403
7.5 基于置信水平比较总体比例 404
7.5.1 有什么区别 404
7.5.2 两个总体比例的置信区间 406
7.5.3 检查适用条件 407
7.5.4 解释两个比例之差的置信区间 409
7.5.5 随机分配与随机抽样 410
数据项目:编码类别 412
本章回顾 414
练习 416
练习指导 434
技术提示 436
第8章 总体比例的假设检验 440
8.1 假设检验的基本要素 441
8.1.1 核心要素:一对假设 442
8.1.2 另一个要素:犯错 445
8.1.3 增加一个要素:检验统计量 446
8.1.4 最后一个必不可少的要素:意想
不到的结果 448
8.1.5 假设检验与数据周期:提出问题 450
8.2 假设检验的四步法 450
8.2.1 步骤详解 451
8.2.2 四步法 455
8.3 假设检验:详细说明 459
8.3.1 检验统计量的值:极端情况 459
8.3.2 z统计量抽样分布:条件不满足的
解决方案 461
8.3.3 平衡两类错误 461
8.3.4 统计显著性与实际意义 463
8.3.5 不要改变假设 463
8.3.6 假设检验的逻辑 464
8.3.7 置信区间与假设检验 465
8.4 比较两个总体的比例 467
8.4.1 更改要素:假设 467
8.4.2 更改要素:检验统计量 468
8.4.3 更改要素:检查条件 470
数据项目:日期数据 475
本章回顾 477
练习 480
练习指导 499
技术提示 501
第9章 推断总体均值 505
9.1 随机样本的样本均值 506
9.1.1 样本均值的准度与精度 506
9.1.2 模拟的结果 509
9.2 样本均值的中心极限定理 510
9.2.1 样本均值分布的可视化 512
9.2.2 中心极限定理的应用 514
9.2.3 分布的类型 514
9.2.4 t分布 516
9.3 总体均值的置信区间估计 518
9.4 均值假设检验 528
9.5 两个总体均值的比较 534
9.5.1 利用置信区间估计均值之差
(独立样本) 536
9.5.2 两个均值之差的置信区间 537
9.5.3 两个均值的假设检验 540
9.5.4 两个均值的置信区间:相关样本 545
9.5.5 两个均值的假设检验:相关样本 547
9.6 均值分析方法总览 550
9.6.1 不接受原假设 550
9.6.2 置信区间和假设检验 551
9.6.3 选择假设检验还是置信区间 552
数据项目:堆栈数据 554
本章回顾 555
练习 558
练习指导 579
技术提示 581
第10章 分类变量研究与科研文献
阅读 589
10.1 分类变量的假设检验:基本要素 590
10.1.1 数据 591
10.1.2 理论频数 592
10.1.3 卡方统计量 595
10.1.4 计算卡方统计量的p值 597
10.2 分类变量之间的相关性:卡方检验 599
10.2.1 独立性检验与同质性检验 601
10.2.2 随机抽样与随机分配 604
10.2.3 比例检验 605
10.3 阅读学术文献 608
10.3.1 阅读摘要 610
10.3.2 注意事项 613
数据项目:小处着眼 617
本章回顾 618
练习 622
练习指导 638
技术提示 640
附录 645
附录A 表 645
附录B 奇数号练习答案 654