Page 95 - 《广西植物》2025年第3期
P. 95
3 期 陈丽琼等: 维管植物质体基因组多样性及其获取与应用研究进展 4 7 5
先采用从头组装的策略ꎬ以避免信息遗漏ꎬ并且无 性 最 佳 的 是 GetOrganelleꎮ 从 总 体 上 看ꎬ
需质体基因组的先验知识ꎮ 若从头组装失败ꎬ可 GetOrganelle 可作为质体基因组从头组装程序的首
考虑以下 3 种方法获得质体基因组ꎬ即使用有参 选ꎬ其次是 NOVOPlasty 和 Fast ̄Plastꎮ 此 外ꎬ个 别
组装ꎬ或从头组装中引入近缘参考序列ꎬ或利用 类群如杜鹃花科(Ericaceae)和灯心草属( Juncus)ꎬ
LASTZ 等软件基于参考序列进行手动拼接ꎬ但手 由于其质体基因组含有大于 k ̄mer 值的长重复区
动拼接比较依赖丰富的先验经验ꎮ 常用的有参组 域ꎬ二代测序的短片段不足以连接重复片段及其
装程序 有 ORTHOSKIM( Pouchon et al.ꎬ 2022) 和 侧翼区域ꎬ因此导致包含数百个 scaffolds 或 contigs
chloroExtractor (Ankenbrand et al.ꎬ 2018)ꎻ常用的 的结果文 件 无 法 获 得 完 整 的 质 体 基 因 组 ( Mo et
从 头 组 装 程 序 有 GetOrganelle ( Jin JJ et al.ꎬ al.ꎬ 2022ꎻ Zhou et al.ꎬ 2022)ꎮ 对于此类复杂类群
2020)、 NOVOPlasty ( Dierckxsens et al.ꎬ 2017 )、 推荐优先使用 ORTHOSKIM 软件( Pouchon et al.ꎬ
SOAPdenovo 2 ( Luo et al.ꎬ 2012 )、 Fast ̄Plast 2022)ꎬ或对其不确定的区域可以通过参考序列或
(https: / / github.com / mrmckain)、CLC 基因组学工 可视化每个 scaffold 或 contig 的深度进行拼接ꎬ但
作平台(http: / / www.clcbio.com / )(表 2)ꎮ 这很依赖现有的参考序列和测序深度ꎬ并且该结
Dierckxsens 等 ( 2017) 以 拟 南 芥 ( Arabidopsis 果无法直接用于质体基因组结构分析ꎮ 由于三代
thaliana)和水稻(Oryza sativa)测序数据进行测试ꎬ 测序的 长 序 列 有 可 能 跨 越 长 重 复 序 列ꎬ Zhou 等
结果表明仅 NOVOPlasty 组装出完整的质体基因 (2022) 通过利用二代测序和三代测序的混合数
组ꎬ耗时和资源占用明显优于其他程序ꎮ Jin JJ 等 据ꎬ成功获得灯心草属的质体全基因组数据ꎬ表明
(2020)选取了 50 个植物样本对不同软件进行组 二代测序和三代测序的混合数据有助于解决含有
装效果测试ꎬ结果表明 GetOrganelle 的质体组装成 长片段的重复序列组装ꎮ 常用软件包括 Organelle
环率远高于 NOVOPlastyꎮ Freudenthal 等(2020) 以 _PBA (Soorni et al.ꎬ 2017)、Hifiasm (Cheng et al.ꎬ
拟南芥为原始数据定量 / 定性评述了 7 种常用细 2022)和 ptGAUL ( Zhouꎬ 2023)ꎮ 因此ꎬ在质体基
胞器基因组组装程序ꎬ结果发现用户在安装和运 因组组装过程中ꎬ应优先从头测序ꎬ若不能获得其
行分析方面体验最佳的是 chloroExtractorꎬ资源损 完整的质体基因组ꎬ需针对类群质体基因组特征
耗最小的是 NOVOPlastyꎬ组装结果成功率和准确 选取适合的组装策略(表 2)ꎮ
表 2 质体基因组组装策略对比表
Table 2 Comparison of major plastome assembling strategies
组装策略
ORTHOSKIM chloroExtractor GetOrganelle NOVOPlasty SOAPdenovo2 Fast ̄Plast CLC 基因组学工作平台
Assembling strategies
是否需要参考基因组 需要 需要 不需要 不需要 不需要 不需要 不需要
Reference genome requirement Yes Yes No No No No No
省时ꎬ但受 省时ꎬ但受 较为省时ꎬ 省时且不受 费事且受 费事且受 费事且受
耗时程度 线程影响 线程影响 不太受线程影响 线程影响 线程影响 线程影响 线程影响
Computation time Short (affected Short (affected Medium (slightly Short (without Long (affected Long (affected Long (affected
by threads) by threads) affected by threads) affected by threads) by threads) by threads) by threads)
CPU 和内存占用量
中等 中等 低 低 高 高 不占用本地内存
Memory and
Medium Medium Low Low High High No
CPU usage
需要编程 需要一定的 需要一定的 需要一定的 需要编程
用户安装和运行的友好程度 基础 编程基础 友好 编程基础 编程基础 基础 友好且界面可视化
Qualitative installation High High
Low Medium Medium Medium Low
组装成功率和准确性 高 中等 高 中等 低 中等 低
Quantitative assembling High Medium High Medium Low Medium Low
组装复杂质体基因组结构的 适合 不适合 可行 不适合 不适合 不适合 不适合
类群
High Low Medium Low Low Low Low
Assembling complex structures

