利用二代测序进行基因组高同源区段序列分析的挑战及应对
在基因组遗传学研究中,高同源区段是一个普遍存在的问题,尤其在人基因组的P450基因家族、HLA基因座位以及植物、鱼类和两栖类中的大量序列中。这些区段的出现源于物种进化过程中的基因组复制事件或染色体加倍。在进行序列分析或基因分型时,由于高同源序列的干扰,获得高质量数据是一个极具挑战性的课题。
高同源区段可以分为三个类型:直系同源序列变异(OSVs)、同源多倍体序列变异(HSVs)和旁系同源序列变异(PSVs)。OSVs存在于不同物种之间的同源区段,HSVs出现在同个亚基因组或不同祖先来源的亚基因组的成对染色体间,而PSVs则是二倍体基因组或多倍体亚基因组内同源区段的核苷酸变异。
进行序列分析或SNP基因分型的主要挑战在于区分这些不同类型的变异,以获得真正的SNP信息。剔除这些同源变异的成功率受到基因组内重复程度、繁殖方式和二倍体祖先间的亲缘关系远近的影响。
目前的解决方案包括特异性扩增目标区间/SNP位点侧翼序列和生物信息学手段。特异性扩增目标区间的方法包括跨过高同源区段在特异区设计引物、等位基因特异性PCR的应用(如三引物法、竞争性等位基因特异性PCR)。生物信息学手段则利用大规模建库测序后的数据,通过比对和过滤去除同源区段的干扰,例如利用相关模式物种信息构建unigene集,或者通过等位基因频率剔除同源干扰。
全基因组重测序、简化基因组测序、转录组测序等技术利用生物信息学手段发现全基因组序列变异信息,并通过剔除PSV、HSV的干扰,获得高质量的SNP基因分型。然而,对于一些高同源区段的已知SNP分型,芯片探针杂交的特异性可能不足,影响结果准确性。
为解决高同源区段序列分析和已知SNP分型的挑战,翼和生物开发了多重长PCR技术和多重长片段巢式PCR技术。这些技术通过长PCR的特异引物将目标区段分选出来,结合巢式PCR及LDR和建库测序,实现了高通量的序列分析和SNP基因分型。
综上所述,高同源区段的序列分析和SNP分型是一个复杂但可解决的难题。通过发展新的技术和方法,如多重长PCR和多重长片段巢式PCR,可以有效应对这一挑战,推动基因组遗传学研究的深入发展。
版权声明:本文由哟品培原创或收集发布,如需转载请注明出处。