基因组Survey
基因组Survey
为什么要做基因组Survey
高杂合的基因组往往无法合并姊妹染色体,导致组装的结果偏大,而重复序列在组装中会被折叠,使组装中出现缺口、错误,导致组装的结果偏小。不同的生物体的基因组之间杂合率和重复序列含量差异巨大,因此在进行基因组测序前往往需要对基因组的特征进行调研,以确定测序方案,周期等。目前常用的调研手段有三种:
- 用流式细胞仪测定细胞核内的DNA总量
- 用核型分析方法,识别染色体数量、倍性
- 用调研图,通过二代测序,估算基因组大小、杂合度、重复序列比例、GC含量等。
- 100X Ultra-long ONT(N50 > 100K)数据使用Nextdenovo进行组装,并使用50X Illumina数据进行纠错,得到ONT contig,使用Ultra-long ONT组装目的是得到片段超长的contig基因组;
- 100X Hic数据经Hicup质控,对Hifi contig及ONT contig两版基因组进行Allhic挂载得到基因组染色体版本;
- 以HiFi 染色体级别基因组作为Reference,将Ultra-long ONT染色体级别基因组与其进行相互Merge,最终得到T2T级别基因组。
常见问题
基因组的组装难易程度主要由哪些方面影响?
①基因组大小。基因组越大,对应的重复序列往往越丰富,导致拼接的难度越高;②杂合度与重复序列比例。相同大小的基因组下,杂合度和重复比例越高,基因组组装的连续性和完整性会越低(高杂合的基因组往往无法合并姊妹染色体,导致组装的结果偏大,杂合位点容易拼接断裂使得连续性降低,而重复序列在组装中会被折叠,使组装中出现缺口、错误,导致组装的结果偏小)。因此通常会需要适当增加测序深度以覆盖这些复杂的区域。③基因组的倍性和倍型。难易程度由易至难分别为:二倍体>异源多倍体>同源多倍体。
如何知道物种基因组大小?
①已发表过基因组的可通过NCBI网站查询:https://www.ncbi.nlm.nih.gov/②未发表基因组的通过流式网站查询:植物–https://cvalues.science.kew.org/ ;动物:http://www.genomesize.com/③进行流式、survey(调研图)进行分析
基因组Survey是什么?可否不进行?
①基因组Survey以二代测序技术为基础,基于小片段文库进行低深度测序,通过K-mer分析,快速获得基因组大小、杂合度、重复序列比例等基本信息的研究方法。为制定该物种的全基因组de novo测序策略提供有效依据。②基因组survey的二代数据具有纠错和评估的重要作用,除非是已知基因组大小的单倍体等背景较为清晰的物种情况下,通过HiFi模式组装,并且不需要做二代数据评估,可以考虑不进行,否则建议为必须进行。
为什么三代测序样品要与二代survey测序样品来自同一个个体?
①不同个体间会存在一定差异,若选材差异大可能会影响到三代测序策略的制定②二代数据需为Nanopore/Pacbio CLR模式基因组进行纠错,避免因个体间序列差异影响纠错效果③二代数据需回比组装完成的基因组来评估该基因组组装的完整性,避免因个体间序列差异降低比对率。
为什么要进行全基因组测序?
基因组表示的是一个物种内全部的遗传信息,没有参考基因组使得关键基因无法被挖掘,调控机理难以被解析,成为科研的掣肘。而早期构建的参考基因组质量往往较差,导致①组装不完整,可能遗失相当多的基因片段,想要的基因因为未被组装到而被错失。②连续性较差,短片段较多,且不利于研究由较长片段形成的与功能相关的基因。③拼接准确性有偏差,较短的片段在拼接时易因序列重复导致排序错误,从而影响后续相关研究的顺利进行。甚者,所研究品种与已发表参考不同使得研究受到阻碍①相同的种下不同的品种/品系/变种比对率低,可用数据少;②雌雄性别差异,公布只有单个性别,找不到性别相关区域。
是否必须等Survey分析完之后才能启动三代测序?
针对已知倍型倍性、已明确基因组大小(通过流式等方式)或已经发表过同品种、近缘种材料的项目,可以同时启动survey与三代测序,节约时间成本,使项目更快的推进。
若物种背景尚不完全明晰,需要先完成survey,再开展三代测序组装。基于该物种基因组的大小、杂合及重复序列比例来制定合适的三代测序深度与数据量。
哪些参数可以评估构建的基因组?
①基因组大小及连续性(N50):基因组组装大小与调研图一致、N50值越高越好。(通常contigN50值≥1Mb即可满足绝大多数分析需求)②二代回比率:将二代高通量测序得到的短序列与组装得到的基因组比对,通过统计比对率,可评估组装基因组的完整性。③Busco/Cegma等数据库评估:在组装得到的基因组上查找软件数据库中的保守基因,通过找到的保守基因比例,评估基因组上基因组装的完整性。④LAI评估,鉴定完整LTR-RTs占比。
基因组做完之后可以开展什么研究?
基因组完成后可以进行比较基因组学分析,与近缘物种进行宏观进化研究,其内容主要包括:(1) 基因家族聚类,分析特有、共有基因和基因家族;(2) 基因家族扩张收缩分析;(3) 系统发育树的构建;(4) 物种分化时间推算;(5)LTR形成时间估算(一般为植物基因组的分析项);(6)全基因组复制事件(一般为植物基因组的分析项);(7)选择压力分析;(8)共线性分析。具体可见涨知识啦!比较基因组学研究那些事