学术资源

《Nature》出击!人类片段重复中的突变和基因转换增加



        5月10日,人类泛基因组参考联盟(Human Pangenome Reference Consortium)发表了首个人类泛基因组草图。该文献为成果之一,由华盛顿大学医学院基因组科学系等多家研究机构的研究者共同撰写。研究内容是关于人类片段重复中单核苷酸变异(SNV)和基因转换(gene conversion)的模式及其可能的影响。

        片段重复(SD*)在人类基因组中分布广泛且复杂,占据着整个基因组的3%至5%。片段重复的成因至今仍不完全清楚,但是已经有研究揭示了它们在人类基因组演化和变异中扮演了非常重要的角色。

*SD:segmental duplication是指序列高度相似(>90%)、且长度超过1 kb的DNA片段。

 

        首先研究人员组装了102个(覆盖高度相似SD区域的)人类单倍型的高同源1:1明确对齐(图1a),并比较了片段重复和独特序列(unique sequence)之间的SNV频率和模式。结果显示,片段重复相对于独特序列,每10kbp中SNV数量平均升高了60%SNV间平均距离更近19.4%(图1 b-d),这种升高程度比之前的研究中所报道的更高(图1)。

 

image.png 

图1.SD中单核苷酸变异增加

        a、分析非洲和非非洲基因组中SD(红色)和独特(灰色)区域的人类基因组部分;显示每个组装单倍型与T2T-CHM13 v1.1的1:1同源块对齐的兆碱对数。数据显示为每个单倍型的单个点,来自单个个体,并以平滑的小提琴图表示人群分布;

        b、经验累积分布;显示按独特(灰色)、SD(红色)和X染色体(chrX;绿色)分层的同源区域中10 kbp窗口中SNV的数量。虚线表示单个单倍型,粗线表示所有数据的平均趋势;

        c、分布在非洲(上)和非非洲(下)样本中SD(红色)和独特(灰色)空间中平均距离到下一个最近的SNV的距离分布。虚线垂直绘制在每个分布的平均值处;

        d、按超种群分层的SD(红色)和独特(灰色)空间中每个10 kbp窗口中的平均SNV数,每个小提琴下面显示平均值。非非洲列表示本研究中所有非非洲人口的数据聚合;

        e、比较SD(上,红色)和独特(下,灰色)区域中每10bp的SNV密度,比较了单核苷酸变异的已知(例如,HLA)和新热点的相对密度。

 

为了探究这种变异增加,研究人员提出了三种可能原因:

        - SD具有增加SNV的独特突变机制;

        - SD具有比基因组独特序列部分更深的平均共同祖先;

        - 序列组成差异(例如GC丰富度)使SD更容易受到特定类别的突变影响。

 

 

PART ➀

        对于情况1,研究人员发开发了一种识别IGC*区域方法(图2a),发现平均每个单倍型有1,193个IGC事件,7.5Mbp SD序列受到影响{高置信度调用4.3Mbp}(图2 b、c),至少一个人类单倍型中,分析的SD序列的33.8%受到推测IGC的影响。

        *IGC: intergenic conversion 是指在基因组中发生的基因间重组事件,也称为基因间重组。


image.png 

图2.候选IGC事件

        a、检测IGC的方法。从1:1同源比对中组装的人类单倍型查询序列在100 bp的增量下被分成1kbp窗口,并独立于其侧翼序列信息使用minimap2 v2.24重新对齐到T2T-CHM13 v1.1,以确定每个窗口的单个最佳对齐位置。将这些对齐与其原始同源比对位置进行比较,如果它们不重叠,则认为它们是候选IGC窗口。当窗口在供体和受体序列中均重叠时,将候选IGC窗口合并为更大的区间并重新对齐。然后使用CIGAR字符串来识别“供体”位点的匹配和不匹配碱基数,并将其与通过同源比对确定的“受体”位点的匹配和不匹配碱基数进行比较,以计算支持SNV的数量;

        b、每个单倍型预测受IGC影响的SD量(以兆碱对表示),作为支持IGC调用的最小SNV数的函数。虚线表示单个单倍型,实线表示平均值;

        c.在HPRC单倍型中观察到的候选IGC的兆碱对数的经验累积分布,作为定义IGC调用集使用的最小潜在P值阈值的函数(有关IGC P值计算方法,请参见方法)。虚线表示单个单倍型,实线表示平均值;

        d、IGC长度与支持SNV数之间的相关性;

        e、染色体内事件预测IGC受体和供体位点之间距离的分布。

 

 

 

        研究人员开发了IGC供体和受体的全基因组图:在所有至少覆盖20个组装单倍型的SD中,确定了498个受体和454个供体IGC热点,这些热点具有至少20个不同的IGC事件(图3)。

 

image.png 

图3.IGC热点

        aIGC受体(顶部,蓝色)和供体(底部,橙色)位点在“SD基因组”中的密度。SD基因组包括所有主要SD区域(> 50 kbp),减去介于其间的独特序列;

        b分析了24个人类单倍型的染色体15上的所有染色体内IGC事件;

                蓝色(顶部)绘制的弧线在左侧具有受体位点,在右侧具有供体位点。

                橙色(底部)绘制的弧线相反。

                蛋白编码基因在核型图上方绘制为垂直黑线,与人类疾病相关的大型重复(蓝色)和删除(红色)事件绘制为仅在核型图上方的水平线;

        c在15号染色体上,在17和31 Mbp之间放大了30个最高置信度(最低P值)IGC事件。

                每个事件左侧的数字显示其长度(kbp),右侧的数字显示其SNV数量。

                具有IGC事件的基因以红色突出显示,并与Prader-Willi综合征的断点区域相关联。

 

        这些事件与1,179个编码蛋白质的基因相交,其中799个基因至少有一个编码外显子受到IGC的影响。研究人员评估了这799个基因的功能丧失不耐受性概率(pLI)(图4a)。确定了38个pLI大于0.5的基因,包括与疾病(F8、HBG1和C4B)和人类进化(NOTCH2TCAF)相关的基因。在高pLI得分的基因中,有12个是至少50个IGC事件的受体位点,包括CB4NOTCH2OPNL1W——一个红绿色盲症位点(图4b-e)。我们确定了一部分418个不冗余的IGC事件预测将基因体的全部复制到基因组中的“新位置”(图4f、g)。

 

image.png 

图4.受IGC影响的编码蛋白质基因

        a推测IGC事件与编码蛋白质基因外显子相交的数量,作为基因pLI的函数。在799个基因中,314个(39.3%)没有pLI分数,显示在标有“无pLI数据”的列中;

        b、c基因外显子作为IGC事件的受体(b)或供体(c)的次数 ;

        d、e在补体因子C4A和C4B(d)以及与色盲相关的视蛋白中间和长波长敏感基因(OPN1MW和OPN1LW位点 ,e)的IGC事件。显示了预测的供体(橙色)和受体(蓝色)片段的长度(事件左侧的数字)和平均支持SNV的数量(事件右侧的数字)。每个配置支持的人类单倍型数量由右侧的直方图表示;

        f、gIGC事件重新定位FCGR(f)和TRIM(g)位点的整个基因模型。

 

 

PART ➁

        对于情况2,研究人员使用TMRCA*表明与独特序列相比,SD区域在演化上略微更古老(图5左),并且可能是由于IGC造成(图5右)

*TMRCA:Top-most recent common ancestor 共同祖先的最近公共祖先时间,是指一组人或物种在演化过程中,最近的公共祖先在多少年之前存在的时间点。

image.png 

图5.独特区域(上图)和SD区域(下图)的TMRCA分布(左)与排除受IGC影响的序列后(右)

        测量基于独特区域的非重叠的10千碱基对窗口(n=9,247独立窗口)和SD区域的非重叠的10千碱基对窗口(n=4,316独立窗口)。IGC序列被标记为三角形。方框表示1/4和3/4分位数之间的范围,中间线表示中位数。须表示数据中位于距离第一和第三四分位数1.5倍四分位距之内的最小和最大值。p值由单侧Wilcoxon秩和检验计算得出。

 

PART ➂

        对于情况3,SD中的SNV显示出不同的突变谱:在SD中的SNV中,研究人员观察到显着过剩的颠换(1.78:2.06),GC组成也比独特序列高(43%:40.8%),SD序列中所有含有GC三联体的富集水平都有所增加(图6a),特定三联体上下文的富集水平与基因组独特区域中相同三联体序列的可变性相关(图6b),SD区域(PC1)与独特区域之间存在明显的区别(图6c)。在所有三联体上,将胞嘧啶转换为鸟嘌呤或反向的转换增加了27.1%,而与独特DNA相比,CpG相关突变的频率降低了7.6%(图6d)。并认为这些不同的突变特性有助于维持SD DNA的整体较高GC含量,可能是由于同源序列之间的GC偏向转换驱动(图6)。

image.png 

图6.片段重复中SNV的序列组成和突变谱

        aSD区域与基因组中独特区域相比,GC含量较高的三联体组成比例增加(按GC含量着色);

        bSD区域中某些三联体组成物的富集与基因组中独特区域中该三联体组成物的可变性之间存在相关性。可变性定义为改变三联体的所有SNV总和除以基因组中该三联体的总数。SD区域的富集比率超过独特区域的比率在每个三联体序列旁边的文本中指示。文本(左上角)显示了Pearson相关系数的值和未经多重比较调整的双侧t检验的P值;

        cSD区域(圆圈)与独特区域(三角形)中三联体变异谱的主成分分析,针对黑猩猩基因组装,按样本的大陆超级种群着色。AFR,非洲;AMR,美洲;EAS,东亚;EUR,欧洲;SAS,南亚;

        dSD和独特序列之间三联体突变频率的对数[倍数]变化。y轴表示三联体上的5'碱基;x轴的第一级显示了中心碱基已更改,x轴的第二级显示了3'碱基:热图显示了对数[倍数]变化。例如,左上角显示了SD与独特序列中TAA>TCA突变频率的对数[倍数]变化。

 

        经过验证,三个假设都在一定层度上SD区域SNV增加造成了影响,为了模拟这种综合影响,研究人员开发了一个多元线性回归模型使用拷贝数、SD标识、独特IGC事件数量、GC含量和TMRCA来预测10kbp窗口中观察到的SNV数量

 

        片段重复是人类基因组演化过程中一个非常活跃的区域。由于片段重复中的基因转换和SNV产生的频率和模式与其他DNA片段不同,它们被认为是可能导致人类进化、适应和多样性的一个重要机制。

同时,这项研究的研究结果还对理解片段重复中的基因转换和SNV产生的模式和机制,以及进一步研究人类基因组演化和人类疾病的相关性具有重要意义