全基因组关联分析

维基百科,自由的百科全书
跳转至: 导航搜索

全基因组关联分析Genome-wide association study)是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的SNPs。

研究历史[编辑]

应用前景[编辑]

GWAS为人们打开了一扇通往研究复杂疾病的大门,将在患者全基因组范围内检测出的SNP位点与对照组进行比较,找出所有的变异等位基因频率,从而避免了像候选基因策略一样需要预先假设致病基因。同时,GWAS研究让我们找到了许多从前未曾发现的基因以及染色体区域,为复杂疾病的发病机制提供了更多的线索。

统计分析原理[编辑]

基于无关个体的关联分析[编辑]

  • 病例对照研究设计:主要用来研究质量性状,即是否患病。
  • 基于随机人群的关联分析:主要用来研究数量性状。

基于家系的关联研究[编辑]

在研究基于家系的样本时,采用传递不平衡检验(TDT)[10]分析遗传标记与疾病数量表型和质量表型的关联可以排除人群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同样本量的病例对照研究有效。

FBAT是运用十分广泛的基于家系的统计分析工具,能够分析质量性状及数量性状、调整混杂因素、分析基因-环境相互作用、分析单倍型、调整多重比较等。

单体型分析研究的必要性[11][编辑]

  1. 多位点单体型分析能够发现单体型-疾病表型之间的关联,这种关联要明显强于单个位点-疾病表型之间的关联。
  2. 单体型分析能够发现非TagSNPs与疾病之间的因果关系。

研究设计表型选择[编辑]

  1. 选择遗传度较高的疾病或者表型进行检测能够提升遗传学关联研究的把握度[12]
  2. 由于有时病症很难测量或是多种病症混杂在一起造成疾病状态的分辨困难,研究疾病相关的数量表型要优于研究疾病状态。
  3. 由于测量数量表型的难易程度和该表型的遗传度相关,通过控制测量误差、噪音和总体变异能够加强数量表型变异与遗传因素的比例关系,因此一般选择测量简单准确并且遗传度相对较高的数量表型。

研究设计类型[编辑]

单个阶段研究[编辑]

单个阶段研究即在有了足够大的病例和对照样本数量后,一次性地对其所有选中的SNP进行基因分型,然后分析每个SNP与基本的关联,计算其关联强度和OR值。由于样本数量需求量大,单阶段研究基因分型一般耗资巨大。

两个或多个阶段研究[编辑]

采用小样本数量进行第一阶段的全基因组范围SNP基因分型,统计分析过后一般能够筛选少量阳性SNPs,之后的第二阶段再在更大数量的样本中对这些阳性SNPs进行基因分型,最后整合两个阶段的结果进行分析。研究证明DNA pool和微阵列试剂盒均能够降低基因分型的工作量,能够进行低成本高效益的SNP筛选。

多重假设检验调整[编辑]

研究的重复[编辑]

由于GWAS研究的各种研究设计方法以及遗传统计方法无法从根本上消除人群混杂、多重比较造成的假阳性,我们需要通过重复研究来保证遗传标记与疾病间的真关联[13]

  1. 通过增大样本数量来提高检验效率,增加与疾病相关联的SNPs的概率。
  2. 在两个人群中分别对样本中所有的SNP进行基因分型,之后再交换重复测量对方得到的阳性SNPs。这样做首先保证了低假阴性率,随后在较大样本中重复阳性结果又最大程度地避免了假阳性的产生。

存在的问题[编辑]

  1. 人群混杂(Population Stratification)是在大样本研究中导致假阳性、假阴性结果出现的重要原因之一[14]。使用分层分数法(Stratification-score approach)控制人群分层、运用统计分析手段控制人群混杂的影响、采用基于家系的关联研究均能够避免人群混杂对关联结果分析的影响。
  2. 解释基因-变异-环境因素之间的相互作用关系需要使用GWAS对更多微效的与疾病关联的基因变异进行研究。
  3. 数据共享是使用GWAS得到遗传标记与疾病确切关联的必要手段,尽管难度很大,但是在研究复杂疾病的遗传变异中能够发挥重要的作用。

参考文献[编辑]

  1. ^ Klein RJ, Zeiss C, Chew EY,ect. Complement factor H polymorphism in age-related macular degeneration. Science, 2005, 308(5720): 385−389.
  2. ^ Samani NJ, Erdmann J, Hall AS, ect. Genomewide associationanalysis of coronary artery disease. N Engl J Med, 2007,357(5): 443−453.
  3. ^ 3.0 3.1 Herbert A, Gerry NP, McQueen MB, ect. A common geneticvariant is associated with adult and childhood obesity.Science, 2006, 312(5771): 279−283.
  4. ^ 4.0 4.1 Rosskopf D, Bornhorst A, Rimmbach C, ect. Comment on “A common genetic variant is associatedwith adult and childhood obesity”. Science, 2007,315(5809): 187: author reply 187.
  5. ^ 5.0 5.1 Frayling TM, Timpson NJ, Weedon MN, ect. A common variant in the FTO gene is associated with body mass index and predisposes to childhood and adult obesity. Science, 2007,316(5826): 889−894.
  6. ^ Saxena R, Voight BF, Lyssenko V, ect. Genome-wide association analysis identifies loci for type 2 diabetes and triglyceride levels. Science, 2007, 316(5829): 1331−1336.
  7. ^ Ubeda M, Rukstalis JM, Habener JF. Inhibition of cyclindependent kinase 5 activity protects pancreatic beta cells from glucotoxicity. J Biol Chem, 2006, 281(39): 28858−28864.
  8. ^ Foley AC, Mercola M. Heart induction by Wnt antagonists depends on the homeodomain transcription factor Hex. Genes Dev, 2005, 19(3): 387−396.
  9. ^ Samani NJ, Erdmann J, Hall AS, Hengstenberg C,ect. Genomewide association analysis of coronary artery disease. N Engl J Med, 2007, 357(5): 443−453.
  10. ^ Spielman RS, McGinnis RE, Ewens WJ. Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM). Am J Hum Genet, 1993, 52(3): 506−516.
  11. ^ Newton-Cheh C, Hirschhorn JN. Genetic association studies of complex traits: design and analysis issues. Mutat Res, 2005, 573(1-2): 54−69.
  12. ^ Sham PC, Cherny SS, Purcell S, Hewitt JK. Power of linkage versus association analysis of quantitative traits, by use of variance-components models, for sibship data. Am J Hum Genet, 2000, 66(5): 1616−1630.
  13. ^ Chanock SJ, Manolio T, Boehnke M, ect. Replicating genotype-phenotype associations. Nature, 2007, 447(7145): 655−660.
  14. ^ YAN Wei-Li, GU Dong-Feng. Issues on association studies on complex disease. Acta Genetica Sinica, 2004, 31(5): 533−537.