Page 52 - 《广西植物》2020年第1期
P. 52
4 8 广 西 植 物 40 卷
图 2 被子植物系统演化关系重建总流程
Fig. 2 Overall workflow of angiosperm phylogeny reconstruction
其中被子植物共包含 87 科 58 目(表 1)ꎮ (Yang & Smithꎬ 2014) 去除所有剩余的旁系同源
1.2 基于基因组序列的直系同源基因鉴定 枝ꎬ获得 one-to-one 同源基因家族( 即每个样品最
我们使用 Yang & Smith(2014)报道的方法ꎬ对 多一条序列)ꎬ只保留大于 20 个样品的基因家族ꎮ
43 个植物基因组的基因集进行同源基因聚类分 1.3 转录组及外类群数据处理
析ꎮ 首先ꎬ使用软件 BLASTN v2.6.0+ 对 43 个基因 我们对两个来自两个科( 无叶莲科 Petrosavia
集 CDS 序列进行 all-by-all blastꎬ每条序列取最佳 sakurai 和鸦跖草科 Cyanotis arachnoidea) 的 RNA -
的 1 000 条比对结果ꎬ去掉比对长度小于 1 / 3 总长 seq 数据从头拼接ꎮ 首先使用 Trimmomatic v0.38 软
的序列ꎬ修剪未比对上的末端序列ꎮ 然后ꎬ使用 件(Bolger et al.ꎬ 2014) 过滤原始 reads 数据( 参数
MCL 软 件 ( Vanꎬ 2000 ) 进 行 同 源 基 因 聚 类 HEADCROP:15 LEADING:20 TRAILING:20 SLID ̄
(inflation value = 1.4)ꎬ去除少于 20 个植物的基因 INGWINDOW:5:20 MINLEN:50 AVGQUAL:20)ꎬ再
家族ꎬ 剩 余 基 因 家 族 使 用 MAFFT v7. 310 软 件 使用 Trinity v2.6.6 软件(Grabherr et al.ꎬ 2011)拼接
(Katoh & Standleyꎬ 2013) 进行多序列比对( maxi ̄ (min contig length = 150 bp)ꎬ最后使用 TransDecoder
mum iterative refinement cycles = 1 000 )ꎬ 使 用 v5.5.0(https:/ / github.com/ TransDecoder/ TransDecoder/
PHYUTILITY v2.2.6 软件(Smith & Dunnꎬ 2008)修 releases/ tag/ TransDecoder-v5.5.0 )进行 CDS 和蛋白
剪缺 失 率 大 于 90% 的 位 点ꎬ 使 用 软 件 RAXML 质序列预测(参考数据库为 Swissprot 和 Pfam-A)ꎮ
v8.2.11(Stamatakisꎬ 2014)对修剪后的多序列比对 将得到的这两个物种的基因集、从 onekp 数据库下
数据估算系统进化树( model = GTRCAT)ꎮ 最后 载得到的 43 种被子植物的基因集和 1 个裸子植物
修剪掉进化树上的所有旁系同源基因枝ꎬ修剪枝 (Ginkgo biloba)的基因集ꎬ使用 HaMStR v13.2.6 软
长大于 0.6 的枝、比姐妹枝长十倍的末端枝ꎬ单源 件(Ebersberger et al.ꎬ 2009)合并到利用基因组数
且全部同样品的枝只保留一个ꎬ修剪枝长比预期 据得到的同源基因家族中ꎬ最终只保留大于 50 个
碱基替换率大 0.3 倍的内部枝ꎬ再使用 MO 方法 样品的基因家族ꎮ