Page 95 - 《广西植物》2025年第3期
P. 95

3 期                陈丽琼等: 维管植物质体基因组多样性及其获取与应用研究进展                                            4 7 5

            先采用从头组装的策略ꎬ以避免信息遗漏ꎬ并且无                             性 最 佳 的 是 GetOrganelleꎮ 从 总 体 上 看ꎬ
            需质体基因组的先验知识ꎮ 若从头组装失败ꎬ可                             GetOrganelle 可作为质体基因组从头组装程序的首
            考虑以下 3 种方法获得质体基因组ꎬ即使用有参                            选ꎬ其次是 NOVOPlasty 和 Fast ̄Plastꎮ 此 外ꎬ个 别
            组装ꎬ或从头组装中引入近缘参考序列ꎬ或利用                              类群如杜鹃花科(Ericaceae)和灯心草属( Juncus)ꎬ
            LASTZ 等软件基于参考序列进行手动拼接ꎬ但手                           由于其质体基因组含有大于 k ̄mer 值的长重复区
            动拼接比较依赖丰富的先验经验ꎮ 常用的有参组                             域ꎬ二代测序的短片段不足以连接重复片段及其
            装程序 有 ORTHOSKIM( Pouchon et al.ꎬ 2022) 和           侧翼区域ꎬ因此导致包含数百个 scaffolds 或 contigs
            chloroExtractor (Ankenbrand et al.ꎬ 2018)ꎻ常用的      的结果文 件 无 法 获 得 完 整 的 质 体 基 因 组 ( Mo et

            从 头 组 装 程 序 有 GetOrganelle ( Jin JJ et al.ꎬ        al.ꎬ 2022ꎻ Zhou et al.ꎬ 2022)ꎮ 对于此类复杂类群
            2020)、 NOVOPlasty ( Dierckxsens et al.ꎬ 2017 )、    推荐优先使用 ORTHOSKIM 软件( Pouchon et al.ꎬ
            SOAPdenovo 2 ( Luo et al.ꎬ 2012 )、 Fast ̄Plast      2022)ꎬ或对其不确定的区域可以通过参考序列或
            (https: / / github.com / mrmckain)、CLC 基因组学工       可视化每个 scaffold 或 contig 的深度进行拼接ꎬ但

            作平台(http: / / www.clcbio.com / )(表 2)ꎮ             这很依赖现有的参考序列和测序深度ꎬ并且该结
                 Dierckxsens 等 ( 2017) 以 拟 南 芥 ( Arabidopsis   果无法直接用于质体基因组结构分析ꎮ 由于三代
            thaliana)和水稻(Oryza sativa)测序数据进行测试ꎬ                测序的 长 序 列 有 可 能 跨 越 长 重 复 序 列ꎬ Zhou 等
            结果表明仅 NOVOPlasty 组装出完整的质体基因                        (2022) 通过利用二代测序和三代测序的混合数
            组ꎬ耗时和资源占用明显优于其他程序ꎮ Jin JJ 等                        据ꎬ成功获得灯心草属的质体全基因组数据ꎬ表明
            (2020)选取了 50 个植物样本对不同软件进行组                         二代测序和三代测序的混合数据有助于解决含有
            装效果测试ꎬ结果表明 GetOrganelle 的质体组装成                     长片段的重复序列组装ꎮ 常用软件包括 Organelle
            环率远高于 NOVOPlastyꎮ Freudenthal 等(2020) 以            _PBA (Soorni et al.ꎬ 2017)、Hifiasm (Cheng et al.ꎬ
            拟南芥为原始数据定量 / 定性评述了 7 种常用细                          2022)和 ptGAUL ( Zhouꎬ 2023)ꎮ 因此ꎬ在质体基
            胞器基因组组装程序ꎬ结果发现用户在安装和运                              因组组装过程中ꎬ应优先从头测序ꎬ若不能获得其
            行分析方面体验最佳的是 chloroExtractorꎬ资源损                    完整的质体基因组ꎬ需针对类群质体基因组特征
            耗最小的是 NOVOPlastyꎬ组装结果成功率和准确                        选取适合的组装策略(表 2)ꎮ


                                             表 2  质体基因组组装策略对比表
                                    Table 2  Comparison of major plastome assembling strategies
             组装策略
                                    ORTHOSKIM  chloroExtractor  GetOrganelle  NOVOPlasty  SOAPdenovo2  Fast ̄Plast                                    CLC 基因组学工作平台
             Assembling strategies
             是否需要参考基因组                 需要         需要            不需要           不需要        不需要         不需要                                                  不需要
             Reference genome requirement  Yes     Yes           No            No          No         No                                                    No
                                     省时ꎬ但受      省时ꎬ但受          较为省时ꎬ        省时且不受       费事且受        费事且受                                                  费事且受
             耗时程度                    线程影响        线程影响        不太受线程影响         线程影响       线程影响        线程影响                                                  线程影响
             Computation time       Short (affected  Short (affected  Medium (slightly  Short (without  Long (affected  Long (affected                  Long (affected
                                     by threads)  by threads)  affected by threads) affected by threads) by threads)  by threads)                        by threads)
             CPU 和内存占用量
                                       中等         中等             低              低          高          高                                                不占用本地内存
             Memory and
                                      Medium     Medium          Low           Low        High        High                                                  No
             CPU usage
                                     需要编程       需要一定的                       需要一定的       需要一定的       需要编程
             用户安装和运行的友好程度              基础        编程基础            友好          编程基础       编程基础         基础                                               友好且界面可视化
             Qualitative installation                            High                                                                                      High
                                       Low       Medium                       Medium     Medium       Low
             组装成功率和准确性                  高         中等             高             中等          低         中等                                                     低
             Quantitative assembling   High      Medium          High         Medium      Low        Medium                                                 Low

             组装复杂质体基因组结构的              适合         不适合            可行           不适合        不适合         不适合                                                  不适合
             类群
                                       High        Low          Medium         Low        Low         Low                                                   Low
             Assembling complex structures
   90   91   92   93   94   95   96   97   98   99   100