T2T完美基因组测序
T2T(Telomere-to-telomere)基因组:是指组装的无gap的端粒到端粒的基因组(在rDNA区域、性染色体、着丝粒中可能允许少量gaps);具有非常高的Q值(准确性)和BUSCO值(完整性);在原始数据与组装之间具有最小的结构性错误。
应用方向
- 获得完美基因组,抢占研究领域参考级别基因组,为同行研究提供参考。
- 近着丝粒基因研究,为着丝粒区域的遗传信息(结构、功能)等研究提供数据支持。
- 为农艺性状亦或疾病研究提供新的见解。
- 发现未知的重复序列和基因组“暗黑区域”,为医学研究提供新的思路。
测序策略选择
60X HiFi + 100X Ultra-long ONT(N50 > 100K)+ 50X 二代 + 100X Hic
- 60X HiFi数据使用Hifiasm进行组装,得到HiFi contig,较常规组装(30X)深度更高,可得到完整性、连续性更高的contig骨架基因组,同时还可为单体型-T2T提供深度支持,进行单体型-T2T组装;
- 100X Ultra-long ONT(N50 > 100K)数据使用Nextdenovo进行组装,并使用50X Illumina数据进行纠错,得到ONT contig,使用Ultra-long ONT组装目的是得到片段超长的contig基因组;
- 100X Hic数据经Hicup质控,对Hifi contig及ONT contig两版基因组进行Allhic挂载得到基因组染色体版本;
- 以HiFi 染色体级别基因组作为Reference,将Ultra-long ONT染色体级别基因组与其进行相互Merge,最终得到T2T级别基因组。
T2T基因组质量评估
T2T基因组组装完成后,需要进行以下评估内容:
- 基因组评估:包含BUSCO评估(>95%)、序列一致性评估(>98%)、QV评估(>45)等。
- 与该物种发表最佳版本基因组进行共线性评估:Mummer。
- 着丝粒、端粒鉴定:对着丝粒、端粒进行预测,若研究较成熟物种(序列已知),将其与基因组直接比对查验。例如:人类端粒(TTAGGG)、拟南芥端粒(TTTAGGG)。
- 着丝粒也可使用Chip-seq、FISH等实验进行验证。
- 填补Gap区域可使用PCR实验进行验证。
适用物种推荐
动物:哺乳动物、淡水鱼类(详细评估)、海洋动物(先评估)。
植物:3G以内常规物种,如芝麻、玉米、大豆、棉花等。
特殊物种:部分异源多倍体物种(棉花、油菜等)。
常见问题
基因组的组装难易程度主要由哪些方面影响?
①基因组大小。基因组越大,对应的重复序列往往越丰富,导致拼接的难度越高;②杂合度与重复序列比例。相同大小的基因组下,杂合度和重复比例越高,基因组组装的连续性和完整性会越低(高杂合的基因组往往无法合并姊妹染色体,导致组装的结果偏大,杂合位点容易拼接断裂使得连续性降低,而重复序列在组装中会被折叠,使组装中出现缺口、错误,导致组装的结果偏小)。因此通常会需要适当增加测序深度以覆盖这些复杂的区域。③基因组的倍性和倍型。难易程度由易至难分别为:二倍体>异源多倍体>同源多倍体。
如何知道物种基因组大小?
①已发表过基因组的可通过NCBI网站查询:https://www.ncbi.nlm.nih.gov/②未发表基因组的通过流式网站查询:植物–https://cvalues.science.kew.org/ ;动物:http://www.genomesize.com/③进行流式、survey(调研图)进行分析
基因组Survey是什么?可否不进行?
①基因组Survey以二代测序技术为基础,基于小片段文库进行低深度测序,通过K-mer分析,快速获得基因组大小、杂合度、重复序列比例等基本信息的研究方法。为制定该物种的全基因组de novo测序策略提供有效依据。②基因组survey的二代数据具有纠错和评估的重要作用,除非是已知基因组大小的单倍体等背景较为清晰的物种情况下,通过HiFi模式组装,并且不需要做二代数据评估,可以考虑不进行,否则建议为必须进行。
为什么三代测序样品要与二代survey测序样品来自同一个个体?
①不同个体间会存在一定差异,若选材差异大可能会影响到三代测序策略的制定②二代数据需为Nanopore/Pacbio CLR模式基因组进行纠错,避免因个体间序列差异影响纠错效果③二代数据需回比组装完成的基因组来评估该基因组组装的完整性,避免因个体间序列差异降低比对率。
为什么要进行全基因组测序?
基因组表示的是一个物种内全部的遗传信息,没有参考基因组使得关键基因无法被挖掘,调控机理难以被解析,成为科研的掣肘。而早期构建的参考基因组质量往往较差,导致①组装不完整,可能遗失相当多的基因片段,想要的基因因为未被组装到而被错失。②连续性较差,短片段较多,且不利于研究由较长片段形成的与功能相关的基因。③拼接准确性有偏差,较短的片段在拼接时易因序列重复导致排序错误,从而影响后续相关研究的顺利进行。甚者,所研究品种与已发表参考不同使得研究受到阻碍①相同的种下不同的品种/品系/变种比对率低,可用数据少;②雌雄性别差异,公布只有单个性别,找不到性别相关区域。
是否必须等Survey分析完之后才能启动三代测序?
针对已知倍型倍性、已明确基因组大小(通过流式等方式)或已经发表过同品种、近缘种材料的项目,可以同时启动survey与三代测序,节约时间成本,使项目更快的推进。
若物种背景尚不完全明晰,需要先完成survey,再开展三代测序组装。基于该物种基因组的大小、杂合及重复序列比例来制定合适的三代测序深度与数据量。
哪些参数可以评估构建的基因组?
①基因组大小及连续性(N50):基因组组装大小与调研图一致、N50值越高越好。(通常contigN50值≥1Mb即可满足绝大多数分析需求)②二代回比率:将二代高通量测序得到的短序列与组装得到的基因组比对,通过统计比对率,可评估组装基因组的完整性。③Busco/Cegma等数据库评估:在组装得到的基因组上查找软件数据库中的保守基因,通过找到的保守基因比例,评估基因组上基因组装的完整性。④LAI评估,鉴定完整LTR-RTs占比。
基因组做完之后可以开展什么研究?
基因组完成后可以进行比较基因组学分析,与近缘物种进行宏观进化研究,其内容主要包括:(1) 基因家族聚类,分析特有、共有基因和基因家族;(2) 基因家族扩张收缩分析;(3) 系统发育树的构建;(4) 物种分化时间推算;(5)LTR形成时间估算(一般为植物基因组的分析项);(6)全基因组复制事件(一般为植物基因组的分析项);(7)选择压力分析;(8)共线性分析。具体可见涨知识啦!比较基因组学研究那些事