Page 102 - 《广西植物》2025年第12期
P. 102
2 2 4 4 广 西 植 物 45 卷
鲜叶片ꎬ经硅胶干燥处理后进行 DNA 提取、测序 码序 列 ( protein coding sequenceꎬ CDS) 2 个 数 据
和数据组装ꎻ(2)从 NCBI 的 SRA 数据库( https: / / 集ꎬ并采用最大似然法(maximum likelihoodꎬML)和
www. ncbi. nlm. nih. gov ) 和 国 家 生 物 信 息 中 心 贝叶斯推断( Bayesian inferenceꎬBI) 进行系统发育
(https: / / www.cncb.ac. cn / ) 下载已发表的测序原 重建ꎮ 为消除重复序列干扰ꎬWGM 数据集仅保留
始数据和组装ꎻ(3) 从 NCBI 的 GenBank 数据库和 1 个 IR 区ꎬCDS 数据集的所有基因只有 1 个拷贝ꎮ
国家生物信息中心获取已发表的完整质体基因组 WGM 数 据 集 使 用 MAFFT 7. 49 ( Katoh et al.ꎬ
序列ꎮ 本研究共整合 Malvatheca 分支 135 个完整 2002)进行多序列比对( 参数设置默认)ꎮ 比对结
质体基因组(其中 77 个为本研究新组装) 和 8 个 果使 用 软 件 trimAl 1. 4 ( Capella ̄Gutiérrez et al.ꎬ
部分 组 装 基 因 组 [ 均 至 少 包 含 大 单 拷 贝 ( large 2009)进行矩阵缺失数据修剪( 参数:-gt 0.4ꎬ即剔
single copyꎬLSC) 区、小单拷贝( small single copyꎬ 除空位缺失覆盖率≥60%的位点)ꎬ修剪后矩阵在
SSC)区及反向重复( IR) 区]ꎬ涵盖该分支 8 个族 Geneious 中进行可视化校验和人工校正ꎮ 注释的
38 属 142 种( 含轻木 2 份)ꎮ Malvatheca 分支的族 CDS 使 用 GetOrganelle 软 件 包 中 的 Python 脚 本
和属 的 划 分 和 名 称 主 要 参 照 Baum 等 ( 2004)、 “get _ annotated _ regions _ from _ gb. py ” ( https: / /
Stevens ( 2001 ) 及 多 识 植 物 ( https: / / duocet. github. com / Kinggerm / PersonalUtilities) 进 行 提 取
ibiodiversity.net)ꎬ凭证信息详见补 充 材 料 附 表 1 CDSꎬ各基因单独使用 MAFFT 比对后ꎬ经 trimAl 修
(Lei et al.ꎬ 2025)ꎮ 剪后并用“ concatenate_fasta. py” 将其串联成超级
新采集 DNA 材料采用改良的 CTAB 法( 十六 矩阵ꎮ
烷基三甲基溴化铵) 提取高质量总 DNA( Doyle & 最 大 似 然 树 构 建 使 用 RAxML 8.2.10
Doyleꎬ 1987)ꎮ 利用超声波破碎仪将 DNA 片段化 (Stamatakisꎬ 2014)ꎬ模 型 选 择 GTRGAMMA 并 执
350 bp 左右ꎬ经末端修复、接头连接和标签索引后 行 1 000 次自展迭代以评估各个分枝节点支持率
构建文库(双端测序ꎬ读长为 150 bp)ꎮ DNA 提取 (bootstrapꎬBS)ꎮ 贝叶斯推论使用 MrBayes 3. 2. 7
和文库构建在中国科学院昆明植物研究所中国西 ( Ronquist et al.ꎬ 2012 )ꎬ 最 佳 替 代 模 型 由
南野生生物种质资源库完成ꎬ测序工作由天津诺 jModelTest 2.1.3(Darriba et al.ꎬ 2012) 基于贝叶斯
禾致源公司( NovaSeq 6000 平台) 完成ꎬ每个样本 信息 准 则 ( Bayesian information criterionꎬ BIC) 确
平均获得 4 ~ 5 Gb 原始数据ꎮ 定ꎮ 设置 4 条马尔科夫链蒙特卡洛(Markov Chain
1.2 质体基因组数据组装与注释 Monte Carloꎬ MCMC) 分 别 运 行 1 000 万 代ꎬ 每
新测样品数据和 NCBI ̄SRA 的测序数据利用 1 000代采样一次ꎬ舍弃前 25%样本后生成 50%多
GetOrganelle 软件包(Jin et al.ꎬ 2020) 进行 de novo 数规 则 一 致 性 树 并 计 算 每 个 节 点 的 后 验 概 率
组 装ꎮ 使 用 Bandage 0. 8. 1 软 件 ( Wick et al.ꎬ (posterior probabilityꎬ PP )ꎮ 系 统 发 育 树 使 用
2015)可视化检查输出结果的成环完整性ꎻ对未自 FigTree 1. 4. 3 ( http: / / tree. bio. ed. ac. uk / software /
动成环的序列进行手动移除异质性 Contigsꎬ然后 figtree / )进行可视化ꎬ并采用 tvBOT 在线工具( Xie
得到完成的质体基因组或质体基因序列ꎮ 质体基 et al.ꎬ 2023)进行拓扑结构优化与图形渲染ꎮ
因组注释在 GeSeq 平台( Tillich et al.ꎬ 2017) 上完 1.4 质体基因组特征和比较分析
成ꎬ 以 Abelmoschus rhodopetalus F. Muell. ( NC _ 使 用 REPuter ( Kurtz et al.ꎬ 2001 ) 检 测
053354) 为 参 考 基 因 组ꎬ 注 释 结 果 进 一 步 利 用 Malvatheca 分支物种的质体基因组中 4 类散在重
Geneious Prime 2023.2.1(Kearse et al.ꎬ 2012)结合 复序列( dispersed repeat sequenceꎬ DRS)ꎬ包括正
开放阅读框( open reading frames) 进行手动校正ꎬ 向(forward)、反向(inverted)、互补( complement) 和
并统计基因组及各结构区域( LSC / SSC / IR) 的大 回 文 ( palindromic ) 重 复 类 型ꎮ 参 数 设 置 为
小、GC 含量及基因数量等基本参数ꎮ Minimum Repeat Size = 30、 Hamming Distance = 3、
1.3 质体基因组系统发育分析 Maximum Computed Repeats = 5 000ꎬ即设定最小重
质体基因组系统发育分析包括了 Malvatheca 复长度为 30 bpꎬ允许最大碱基差异数量为 3 个ꎬ
分支 143 个样本和 5 个其他亚科的物种ꎬ分别构建 最大 重 复 计 算 数 量 为 5 000 个ꎮ 简 单 重 复 序 列
质体全基因组( whole genomeꎬ WGM) 和蛋白质编 (simple sequence repeatꎬSSR) 用 MISA ̄web 2.1 在

