Page 102 - 《广西植物》2025年第12期
P. 102

2 2 4 4                                广  西  植  物                                         45 卷
            鲜叶片ꎬ经硅胶干燥处理后进行 DNA 提取、测序                           码序 列 ( protein coding sequenceꎬ CDS) 2 个 数 据
            和数据组装ꎻ(2)从 NCBI 的 SRA 数据库( https: / /              集ꎬ并采用最大似然法(maximum likelihoodꎬML)和
            www. ncbi. nlm. nih. gov ) 和 国 家 生 物 信 息 中 心       贝叶斯推断( Bayesian inferenceꎬBI) 进行系统发育
            (https: / / www.cncb.ac. cn / ) 下载已发表的测序原          重建ꎮ 为消除重复序列干扰ꎬWGM 数据集仅保留
            始数据和组装ꎻ(3) 从 NCBI 的 GenBank 数据库和                   1 个 IR 区ꎬCDS 数据集的所有基因只有 1 个拷贝ꎮ
            国家生物信息中心获取已发表的完整质体基因组                              WGM 数 据 集 使 用 MAFFT 7. 49 ( Katoh et al.ꎬ
            序列ꎮ 本研究共整合 Malvatheca 分支 135 个完整                   2002)进行多序列比对( 参数设置默认)ꎮ 比对结
            质体基因组(其中 77 个为本研究新组装) 和 8 个                        果使 用 软 件 trimAl 1. 4 ( Capella ̄Gutiérrez et al.ꎬ

            部分 组 装 基 因 组 [ 均 至 少 包 含 大 单 拷 贝 ( large           2009)进行矩阵缺失数据修剪( 参数:-gt 0.4ꎬ即剔
            single copyꎬLSC) 区、小单拷贝( small single copyꎬ        除空位缺失覆盖率≥60%的位点)ꎬ修剪后矩阵在
            SSC)区及反向重复( IR) 区]ꎬ涵盖该分支 8 个族                      Geneious 中进行可视化校验和人工校正ꎮ 注释的
            38 属 142 种( 含轻木 2 份)ꎮ Malvatheca 分支的族              CDS 使 用 GetOrganelle 软 件 包 中 的 Python 脚 本

            和属 的 划 分 和 名 称 主 要 参 照 Baum 等 ( 2004)、             “get _ annotated _ regions _ from _ gb. py ” ( https: / /
            Stevens ( 2001 ) 及 多 识 植 物 ( https: / / duocet.    github. com / Kinggerm / PersonalUtilities) 进 行 提 取
            ibiodiversity.net)ꎬ凭证信息详见补 充 材 料 附 表 1             CDSꎬ各基因单独使用 MAFFT 比对后ꎬ经 trimAl 修
            (Lei et al.ꎬ 2025)ꎮ                                剪后并用“ concatenate_fasta. py” 将其串联成超级
                 新采集 DNA 材料采用改良的 CTAB 法( 十六                    矩阵ꎮ
            烷基三甲基溴化铵) 提取高质量总 DNA( Doyle &                          最 大 似 然 树 构 建 使 用 RAxML 8.2.10
            Doyleꎬ 1987)ꎮ 利用超声波破碎仪将 DNA 片段化                    (Stamatakisꎬ 2014)ꎬ模 型 选 择 GTRGAMMA 并 执
            350 bp 左右ꎬ经末端修复、接头连接和标签索引后                         行 1 000 次自展迭代以评估各个分枝节点支持率
            构建文库(双端测序ꎬ读长为 150 bp)ꎮ DNA 提取                      (bootstrapꎬBS)ꎮ 贝叶斯推论使用 MrBayes 3. 2. 7
            和文库构建在中国科学院昆明植物研究所中国西                              ( Ronquist et al.ꎬ 2012 )ꎬ 最 佳 替 代 模 型 由
            南野生生物种质资源库完成ꎬ测序工作由天津诺                              jModelTest 2.1.3(Darriba et al.ꎬ 2012) 基于贝叶斯
            禾致源公司( NovaSeq 6000 平台) 完成ꎬ每个样本                    信息 准 则 ( Bayesian information criterionꎬ BIC) 确
            平均获得 4 ~ 5 Gb 原始数据ꎮ                                定ꎮ 设置 4 条马尔科夫链蒙特卡洛(Markov Chain
            1.2 质体基因组数据组装与注释                                   Monte Carloꎬ MCMC) 分 别 运 行 1 000 万 代ꎬ 每
                 新测样品数据和 NCBI ̄SRA 的测序数据利用                      1 000代采样一次ꎬ舍弃前 25%样本后生成 50%多
            GetOrganelle 软件包(Jin et al.ꎬ 2020) 进行 de novo      数规 则 一 致 性 树 并 计 算 每 个 节 点 的 后 验 概 率
            组 装ꎮ 使 用 Bandage 0. 8. 1 软 件 ( Wick et al.ꎬ        (posterior probabilityꎬ PP )ꎮ 系 统 发 育 树 使 用
            2015)可视化检查输出结果的成环完整性ꎻ对未自                           FigTree 1. 4. 3 ( http: / / tree. bio. ed. ac. uk / software /
            动成环的序列进行手动移除异质性 Contigsꎬ然后                         figtree / )进行可视化ꎬ并采用 tvBOT 在线工具( Xie
            得到完成的质体基因组或质体基因序列ꎮ 质体基                             et al.ꎬ 2023)进行拓扑结构优化与图形渲染ꎮ
            因组注释在 GeSeq 平台( Tillich et al.ꎬ 2017) 上完           1.4 质体基因组特征和比较分析

            成ꎬ 以 Abelmoschus rhodopetalus F. Muell. ( NC _         使 用 REPuter ( Kurtz et al.ꎬ 2001 ) 检 测
            053354) 为 参 考 基 因 组ꎬ 注 释 结 果 进 一 步 利 用             Malvatheca 分支物种的质体基因组中 4 类散在重
            Geneious Prime 2023.2.1(Kearse et al.ꎬ 2012)结合     复序列( dispersed repeat sequenceꎬ DRS)ꎬ包括正

            开放阅读框( open reading frames) 进行手动校正ꎬ                向(forward)、反向(inverted)、互补( complement) 和
            并统计基因组及各结构区域( LSC / SSC / IR) 的大                   回 文 ( palindromic ) 重 复 类 型ꎮ 参 数 设 置 为

            小、GC 含量及基因数量等基本参数ꎮ                                 Minimum Repeat Size = 30、 Hamming Distance = 3、
            1.3 质体基因组系统发育分析                                    Maximum Computed Repeats = 5 000ꎬ即设定最小重

                 质体基因组系统发育分析包括了 Malvatheca                     复长度为 30 bpꎬ允许最大碱基差异数量为 3 个ꎬ
            分支 143 个样本和 5 个其他亚科的物种ꎬ分别构建                        最大 重 复 计 算 数 量 为 5 000 个ꎮ 简 单 重 复 序 列
            质体全基因组( whole genomeꎬ WGM) 和蛋白质编                   (simple sequence repeatꎬSSR) 用 MISA ̄web 2.1 在
   97   98   99   100   101   102   103   104   105   106   107