群体遗传学是研究群体的遗传结构及其变化规律的学科,试图了解等位基因和基因型的频率如何以及为什么会随着时间的推移在群体内和群体之间发生变化。其研究对象是生物群体,这里的群体是指孟德尔氏群体。它是由同一物种组成的较大的有性繁殖群体。群体内的个体间是随机交配的,遵循孟德尔遗传规律。医学研究群体遗传是要探讨遗传病的发病频率、遗传方式及其基因频率和变化的规律,从而了解遗传病在群体中的发生和散布的规律,为预防、监测和治疗遗传病提供重要的信息和措施。它是生物学的一个分支,对进化变化是如何发生的提供了深刻和清晰的理解。如今,在不断寻求了解复杂疾病易感性的遗传变异基础的过程中,群体遗传学显得尤为重要。许多影响连锁基因的等位基因频率和等位基因之间关联的因素首次在果蝇和其他模式生物中得到了表征,但同样的原理几乎适用于所有的生物。高通量测序技术已使获取几乎所有生物的大规模遗传数据集成为可能,从而需要用于处理这些数据的计算工具和功能集。虽然通常会很好地描述用于将原始数据处理为SNP的生物信息学工作流程,但分析和解释所得SNP数据集的路径可能不太清楚。理解这门学科需要具备一定的数学和统计学知识。R语言及其库实现了多种统计和图形技术,包括线性和非线性建模,经典统计测试,时间序列分析、分类、聚类等。R功能很容易扩展,并且R社区以其在软件包方面的积极贡献而著称。在书中,读者将学习可测试进化中性理论的经典种群遗传统计学,然后通过动手实践,编写自己的R代码,以对真实的样本SNP数据集进行分析。只要有可能,在书中我们针对统计学知识和R语言的实现就尽可能地详细解释,或者至少说明反映不同概念的方程式的依据。重点放在编程基础和算法设计上:这些技能超出了在课堂上学习的特定计算范围。在书中,建议每个读者都要完成一个独立的项目。