学术资源

STRipy:提高STR异常扩增致病分型的图形应用程序


图片


短串联重复

        STR: 短串联重复序列(short tandem repeats,STR)也称微卫星 DNA(microsatellite DNA), 通常是基因组中由1~6个碱基单元组成的一段DNA重复序列。人类基因组DNA中平均每6~10kb就有一个STR位点,不同人体基因组卫星DNA重复单位的数目是可变的,因此,形成了极其复杂的等位基因片段长度多态性。

        现有的研究已经充分证明,STR在基因组上的变化与人类遗传疾病之间有着密切的关系。迄今为止,超过 40 种基因的 STR 扩增已被证明会导致遗传性疾病,其中大多数表现出原发性神经或神经肌肉异常。


图片


        然而,由于读长限制,短读 NGS 平台无法对大的和/或复杂的重复扩增进行基因分型。本文介绍了一种新的分析软件-STRipy,该开源软件可针对 HTS(high-throughput sequencing) 数据中所有已知的致病性 STR进行分析。


STRipy

        STRipy的一大特点是标准扩展两种模式

当使用“标准”分析时

        仅有STR区域和侧翼2kb区域内的配对reads提交给ExpansionHunter,用于基因分型。


当使用“扩展”分析

        除与STR基因座相邻的区域中提取reads,STRipy还将这些重复reads的比对位置用于识别其它完全重复reads组成致病性重复序列(非靶区L1)。

非靶区L2是那些与非靶向区域L1配对的reads。

该“扩展”分析的最终分析准备文件包括从参考STR基因座周围区域的读取以及从L1和L2非靶区发现的reads。将这些非靶区reads提供给ExpansionHunter,用于基因分型。


STRipy提供了一个STR数据库。

        STRipy将ExpansionHunter嵌入后端,并使用数据库将定义的基因座数量从29个增加到55个。STRipy现已包含当前已知的所有致病基因座。

此外,该软件还整合了审查工具REViewer(如图一)来可视化与每个单倍型对齐的reads,同时可视化STR基因座中的变体。

        STRipy添加了扩展功能,以实现比测序片段长度更长的等位基因的基因分型。输入文件类型包括BAM(二进制比对图)或CRAM(压缩和参考定向比对图)格式的全基因组、全外显子组或靶向测序比对文件,只要靶向STR基因座上有支持的数据覆盖,即可进行基因分型。


图片

图一、REViewer可视化结果,红色区域:重复数目在致病性的范围;绿色:重复数目正常


STRipy结果展示

图片


如上图,展示的是一个结果的例子。

        红色旗子:重复数目达到致病性范围;

        黄色旗子:重复数目在前突变;

        绿色:正常范围;

        灰色:重复数目范围未知;

        重复数目旁边的蓝点:这个重复数目在人群频率中发生的概率是低频,值得关注。


        最后,将STRipy应用于一组全基因组测序(WGS)样本验证其有效性,该批次样本先前用于验证STRetch基因分型工具,其中九个样本动态突变类型为致病性,一个样本动态突变类型为前突变。

        如下图所示,首先以“标准”模式分析了10个样本(表1),分析结果显示,其中7个样本存在异常的致病性扩增(其中5个样本的估计等位基因长度与PCR测量的长度相同),1个样本为前突变。

        对于以“标准”模式分析重复扩增次数小于PCR显示次数的样本,软件会提示并建议使用“扩展”分析。当使用“扩展”分析时,除5号样本外,所有受影响个体的重复扩增数目均达到致病阈值。


图片


参考文献

[1] Halman Andreas,Dolzhenko Egor,Oshlack Alicia,STRipy: A graphical application for enhanced genotyping of pathogenic short tandem repeats in sequencing data.[J] .Hum Mutat, 2022, 43: 859-868.