Page 126 - 《广西植物》2022年第10期
P. 126
1 7 4 4 广 西 植 物 42 卷
表 2 物种及 GenBank 登录号 合(CDS)矩阵、质体全基因组(WCG) 矩阵ꎬ矩阵文
Table 2 Species and GenBank accession numbers 件与原始序列均已上传到 figshare 网站(10.6084 /
物种 GenBank 登录号 m9. figshare. 14329949)ꎮ 采 用 MEGA X ( Sudhir et
al.ꎬ 2018)统计矩阵的长度、变异位点和简约信号位
Species GenBank accession number
Cressa cretica MF067398 点等信息ꎮ
田旋花 MW054627 使用 RAxML 构 建 最 大 似 然 树 ( maximum
Convolvulus arvensis
likelihoodꎬML)( Alexandrosꎬ 2014)ꎬ5 个矩阵都选
Ipomoea asarifolia MK086048
五爪金龙 KF242480 择 GTR+GAMMA+I 模型ꎬ估算最优的最大似然树
I. cairica
(best ̄scoring ML tree)ꎬ 并 设 置 1 000 次 bootstrap
I. carnea MK086049
I. goyazensis MK086051 replicates 估 算 分 支 的 支 持 率 ( bootstrap support
常春藤叶茑萝 KF242484 valuesꎬ BS)ꎮ 本研究中ꎬBS≤50 为不支持ꎬBS =
I. hederifolia
51 ~ 79 为弱支持ꎬBS≥80 为强支持ꎮ
牵牛 AP017304
I. nil 选取 WCG 和 CDS 矩 阵 构 建 贝 叶 斯 推 论 树
小心叶薯 KF242499 (Bayesian inferenceꎬ BI )ꎮ 基 于 PhyloSuite 软 件
I. obscura
I. pedicellaris KF242489 ( Zhang et al.ꎬ 2020 ) 中 的 ModelFinder 插 件
刺毛月光花 KF242492 ( Kalyaanamoorthy et al.ꎬ 2017 ) 按 照 BIC 准 则
I. setosa
(Bayesian information criterionꎬBIC) 选择最适碱基
I. trifida MH173262
Merremia quinquefolia KF242501 替换 模 型ꎮ 选 择 MrBayes 软 件 ( Huelsenbeck &
Operculina macrocarpa KF242502
Ronquistꎬ 2001 )ꎬ 通 过 在 线 CIPRES Science
Stictocardia macalusoi KF242503
Gateway (Miller et al.ꎬ 2010) 或超级计算机上进
Turbina corymbosa KF242504
行贝叶斯推论分析ꎬ设置 MCMC 运算为2 000 000
Cuscuta exaltata EU189132
代ꎬ每 100 代取样 1 棵系统发育树ꎮ 先舍弃前 25%
的抽样树ꎬ再构建 50%的多数原则一致树(majority
1.3 序列比对和系统发育分析 rule consensus of trees)ꎬ并计算每个节点的后验概率
用于矩阵构建的数据集共有五类:(1) 质体全 (posterior probabilityꎬ PP)ꎮ 对所获得的系统发育
基因组序列(WCGꎬ去除一个 IR 区)ꎻ(2) 大单拷贝 树均采用 Figtree v1.4.0 (http:/ / tree.bio.ed.ac.uk /
区(LSC)ꎻ(3) 小单拷贝区( SSC)ꎻ(4) 反向重复区 software / figtree / )可视化结果ꎮ 本研究中ꎬ PP = 0.
(IR)ꎻ(5)蛋白质编码基因(protein coding sequenceꎬ 51~0.94 为弱支持ꎬPP≥0.95 为强支持ꎮ
CDS)ꎮ 以烟草为参考序列ꎬ利用 MAUVE(Darling et 1.4 系统发育冲突检测
al.ꎬ 2004)检测各条序列共线性ꎬ非共线性的序列采 采 用 AU 检 验 ( approximately unbiased test)
用手 动 调 整 后 再 次 共 线 性 检 测ꎮ 使 用 Geneious ( Shimodairaꎬ 2002 ) 和 SH 检 验 ( Shimodaira ̄
(Kearse et al.ꎬ 2012)确定质体基因组四分体结构区 Hasegawa test) ( Hidetoshi & Masamiꎬ 1999)ꎬ以判
域(LSC、SSC、IRa 和 IRb) 边界ꎬ分别提取各分区序 断 WCG 数据集得到的最优树与其他数据集得到
列和蛋白质编码基因片段ꎬ得到用于构建数据矩阵 的最优树(包括 LSC 区的 ML 树、IR 区的 ML 树和
的基 础 序 列ꎮ WCG、 LSC、 SSC、 IR 区 的 数 据 使 用 SSC 区的 ML 树) 是否有统计学差异ꎮ SH 检验基
MAFFT Online(Katoh & Standleyꎬ 2013)基于默认参 于非参数自举法的比较方法ꎬ在拒绝零假设方面
数进行比对ꎬ获得比对矩阵ꎮ 79 个蛋白质基因采用 十分保守ꎬ与 AU 检测一样能够有效控制 I 型错
细菌蛋白编码的密码子模式进行比对ꎬ每个基因先 误ꎬ但 AU 检测比 SH 检测的偏差小ꎮ 两种系统发
分别使用 Geneious 中的 MAFFT 插件进行单基因多 育假 设 检 验 借 助 IQ ̄TREE 软 件 ( Trifinopoulos et
序列比对ꎬ再串联构建联合矩阵ꎮ 自动比对矩阵在 al.ꎬ 2016)ꎬ通过最大似然方法ꎬ使用 RELL 算法进
Geneious 中进行人工核查和校对ꎬ排除异质性非常 行 1 000 次重复取样ꎬ任何一种结果的 P 值小于
高的区域ꎬ最终得到 5 个质体基因组数据矩阵ꎬ包括 0.05ꎬ即为显著ꎬ表明该拓扑结构与 WCG 矩阵结
LSC 和 SSC 及 IR 3 个分区矩阵、蛋白质编码基因联 果为明显冲突ꎬ不支持此拓扑结构ꎮ