全基因组de novo测序
应用方向
分析内容
数据产出以及数据质控 | |
基因组组装 | 1. 组装 2. 组装评估 |
基因组注释 | 1. Repeat注释 2. 基因预测 3. 基因功能注释 4. ncRNA注释 |
进化分析 | 1. 基因家族鉴定 2. 特有/共有基因分析 3. 进化树构建 4. 物种分化时间计算 5. 基因家族收缩&扩张分析 6. 直系同源基因鉴定 7. 正向选择基因分析 8. 全基因组复制事件预测(部分物种) 9 大片段复制事件预测(需要构建染色体) |
个性化分析 | 根据项目和物种特点设计个性化分析方案 |
常见问题
基因组的组装难易程度主要由哪些方面影响?
①基因组大小。基因组越大,对应的重复序列往往越丰富,导致拼接的难度越高;②杂合度与重复序列比例。相同大小的基因组下,杂合度和重复比例越高,基因组组装的连续性和完整性会越低(高杂合的基因组往往无法合并姊妹染色体,导致组装的结果偏大,杂合位点容易拼接断裂使得连续性降低,而重复序列在组装中会被折叠,使组装中出现缺口、错误,导致组装的结果偏小)。因此通常会需要适当增加测序深度以覆盖这些复杂的区域。③基因组的倍性和倍型。难易程度由易至难分别为:二倍体>异源多倍体>同源多倍体。
如何知道物种基因组大小?
①已发表过基因组的可通过NCBI网站查询:https://www.ncbi.nlm.nih.gov/②未发表基因组的通过流式网站查询:植物–https://cvalues.science.kew.org/ ;动物:http://www.genomesize.com/③进行流式、survey(调研图)进行分析
基因组de novo的组装结果好坏如何判断?
一般用contig N50和scaffold N50 来衡量连续性,N50是指把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小。BUSCO(Benchmarking Universal Single-Copy Orthologs)在基因含量层面来评估其基因组完整性。序列一致性评估旨在利用高质量的二代测序数据来评估三代测序数据组装结果在单碱基水平上的准确性。
PacBio/Nanopore测序优势是什么?
对动植物基因组进行测序及拼接组装(纯三代组装),较好地解决了传统测序组装技术中高杂合度、高度重复区域、异常GC含量区域等诸多组装难题,极大提升了基因组的组装指标,是过去二代测序策略的10-20倍以上。
为什么要进行全基因组测序?
基因组表示的是一个物种内全部的遗传信息,没有参考基因组使得关键基因无法被挖掘,调控机理难以被解析,成为科研的掣肘。而早期构建的参考基因组质量往往较差,导致①组装不完整,可能遗失相当多的基因片段,想要的基因因为未被组装到而被错失。②连续性较差,短片段较多,且不利于研究由较长片段形成的与功能相关的基因。③拼接准确性有偏差,较短的片段在拼接时易因序列重复导致排序错误,从而影响后续相关研究的顺利进行。甚者,所研究品种与已发表参考不同使得研究受到阻碍①相同的种下不同的品种/品系/变种比对率低,可用数据少;②雌雄性别差异,公布只有单个性别,找不到性别相关区域。
是否必须等Survey分析完之后才能启动三代测序?
针对已知倍型倍性、已明确基因组大小(通过流式等方式)或已经发表过同品种、近缘种材料的项目,可以同时启动survey与三代测序,节约时间成本,使项目更快的推进。
若物种背景尚不完全明晰,需要先完成survey,再开展三代测序组装。基于该物种基因组的大小、杂合及重复序列比例来制定合适的三代测序深度与数据量。
哪些参数可以评估构建的基因组?
①基因组大小及连续性(N50):基因组组装大小与调研图一致、N50值越高越好。(通常contigN50值≥1Mb即可满足绝大多数分析需求)②二代回比率:将二代高通量测序得到的短序列与组装得到的基因组比对,通过统计比对率,可评估组装基因组的完整性。③Busco/Cegma等数据库评估:在组装得到的基因组上查找软件数据库中的保守基因,通过找到的保守基因比例,评估基因组上基因组装的完整性。④LAI评估,鉴定完整LTR-RTs占比。
基因组做完之后可以开展什么研究?
基因组完成后可以进行比较基因组学分析,与近缘物种进行宏观进化研究,其内容主要包括:(1) 基因家族聚类,分析特有、共有基因和基因家族;(2) 基因家族扩张收缩分析;(3) 系统发育树的构建;(4) 物种分化时间推算;(5)LTR形成时间估算(一般为植物基因组的分析项);(6)全基因组复制事件(一般为植物基因组的分析项);(7)选择压力分析;(8)共线性分析。具体可见涨知识啦!比较基因组学研究那些事