新闻中心

人类参考基因组GRCh37 VS GRCh38

1.png

目前,广泛使用的参考基因组版本是GRCh37和GRCh38。2009年,the Genome Reference Consortium (GRC)发布了第19版人类基因组GRCh37,也常被称为hg19。GRCh37被广泛应用于数据分析。2013年,GRC发布了GRCh38。但由于注释工具、数据库的不健全及升级基因组工作繁杂,时至今日,GRCh37仍被相当程度地使用。


根据GRC的官方文件,GRCh38是最精确的人类基因组。GRCh38基于金标准Sanger测序组装,读长约为1000bp,精确度是高通量测序的10倍。与GRCh37相比,GRCh38替换了8000个等位基因位点,校正了数个组装错误的基因组区域,补全了gap,添加了着丝粒序列,在178个区域组装了261条alternate loci,丰富了基因组的多样性。


已发表的论文认为GRCh38是GRCh37的重大升级,可提供更精确的生物信息学和基因组学分析。我们设计了实验量化基于GRCh38和GRCh37的数据分析差异。

实  验  结  果



表1 GRCh37、GRCh38基因组之间的比较

2.jpg

不算线粒体DNA,GRCh37 和GRCh38分别有3,095,677,412和3,088,269,832个核苷酸。最常用的线粒体基因组是1999年剑桥发布的rCRS,因此两者线粒体基因组是一样的。在基因组fasta文件中,‘N’表示gap或者未注释区域,GRCh37共有234,350,281个‘N’,而GRCh38中有150,630,719个,减少了83,719,562个,占比35.7%。从表1中可看出,每条染色体上的‘N’数量都有减少。


有文献研究表明GC含量影响Illumina测序深度及测序均一性,这与后续的CNV检测密切相关。GC位点的总数从GRCh37的1,170,371,008增加到GRCh38的1,200,551,672,共计增加了30,180,664个核苷酸。


外显子可以编码氨基酸,是人类基因组最重要的组成部分。从Ensembl (GRCh37 v37.75, GRCh38 v38.82)下载最新的Gene Feature Format (GTF)文件统计外显子区域。


外显子区域由GRCh37的75,231,228个核苷酸增加到GRCh38的95,505,476个,约有26.9%的增幅。从全基因组水平看,外显子占比由2.43%增至3.09%。外显子区域扩大的主要原因有3个:i.在GRCh38中,外显子的总数从327,058个增加到457,748个;ii.每个基因的外显子数从13个增加到19个;iii.每个外显子核苷酸的中位数从140增加到146。


表2  SNV类别

3.jpg
4.jpg

图1 GRCH37与GRCH38之间的映射率比较

我们分别用GRCh38和GRCh37分析了30个WES样本,然后从染色体统计、比对、SNV、InDel、CNV和SV等多个维度比较了分析结果差异。


比对是高通量测序数据分析中非常重要的一步。总有部分reads无法比对至参考基因组,有论文指出改进基因组可以提高比对率。从图1可看出,30个WES样本的比对率都得到了提高,提高均值为0.0017%。外显子区域的比对率明显提高,约为3.22%,主要原因是外显子区域扩大,相应地内含子的比对率降低了2.70%。


5.jpg

图2  GRCh37与GRCh38的SNV、InDel比对结果

使用GRCh37时,检测到4,656,461个SNV,GRCh38时只有4,617,859个。这表明,改进后的GRCh38产生更少的假阳性SNVs。非同义变异是我们关注的重点,虽SNV总数变少,但GRCh38比GRCh37多了22,622个非同义变异,主要原因是外显子区域增加。使用LiftOver 转化参考基因基因组坐标后显示,两种基因组中93%SNV和88%InDel是一致的,且质量值和覆盖度并无差异。


GRCh37检测到3,702个CNV,GRCh38检测到3,732个CNV。其中,88.4%CNV是一致的。两种基因组都检测到了更多的重复片段。使用GRCh37,我们检测到了371,558个结构变异,GRCh38检测到了271,825个结构变异。83%的结构变异同时在两个基因组中检测到。结构变异检测难度大,就有较高的假阳性率。分析结果显示,与GRCh37相比,GRCh38中结构变异数少得多(少26.8%)。虽然我们没有金标准来计算真阳性率和真阴性率,但变异数量减少预示着假阳性率降低。


实  验  结  论



重组人类基因组是一项费时又费力的任务,截止2018,人类基因组已经发布了20个版本。GRCh38中一个重要的技术进步是葡萄胎的应用。葡萄胎没有从卵子获得染色体,精子的染色体发生了复制,因此没有等位基因变异,可用于获得基因组上高度同源区域的reads。GRCh38并不是完美的人类基因组,其主要缺陷在着丝粒的区域。该区域包括数百万个碱基,序列高度重复。GRCh37着丝粒区域以gap形式存在,GRCh38建立模型推测的,虽不准确,但还是向前迈进了一大步。


人类基因组仅代表在基因组位点上的1个等位基因位点。参考等位基因是根据一个小群体的基因组确定的,可能并不是主要等位基因(人群频率>50%)。在某些情况下,检测的目标人种没有参考等位基因存在。目前的检测软件,如GATK,Platypus都允许一个位置存在多种等位基因。


基于GRCh37和GRCh38的WES样本数据分析显示,我们明确了GRCh38可以得到更准确的分析结果。GRCh38具有更好的比对效果,对后续CNV及结构变异的检测都具有正面影响


综上所述,GRCh38是人类基因组从GRCh37迈出的一大步,基因组准确度的提升对于高通量测序数据分析具有明显的积极意义。


参考文献:

Guo Y, Dai Y, Yu H, et al. Improvements and impacts of GRCh38 human reference on high throughput sequencing data analysis[J]. Genomics, 2017, 109(2): 83-90.