Page 49 - 《广西植物》2020年第1期
P. 49
1 期 金鑫等: 基于 5 993 个核基因的被子植物系统发育关系研究 4 5
Abstract: Construction of phylogeny is important for classification and research of angiosperms. For a long timeꎬ angio ̄
sperm phylogeny has been analysed using plastid genesꎬ mitochondrial genes or a few conserved single-copy nuclear
genes. We collected nuclear gene sets of 88 species of angiosperm (contains 58 orders) from annotated genomes or tran ̄
scriptomes. By using a combined homology- and phylogeny tree-based approachꎬ we obtained a total of 5 993 one-to-
one ortholog groups (one sequence of each species for each ortholog group)ꎬ each of which was represented by at least
50 species. Thenꎬ a total of 20 species trees were reconstructed using methods with different combinations of reconstruc ̄
tion (concatenation-based and coalescence-based) and sequence type (nucleotide or amino acid) for gene data sets
with different gene occupancy values. Most of the resulting topologies support the relationships of the major clades of an ̄
giosperm as described in APG IVꎬ but present different deep relationships among major clades in eudicots phylogeny
such as the placement of Santalales and Caryophyllales as sisters to Rosids. We estimate the divergence times of the
major clades of angiosperm and conclude that the origin of angiosperm is about 237.78 million years ago(95% confidence
interval is 202.6-278.08)ꎬ which is in accordance with the previously accepted 225 million years to 240 million years
ago. This study provides an efficient strategy for building phylogenetic trees using thousands of genes with ultrafast calcu ̄
lation.
Key words: phylogenyꎬ angiospermsꎬ nuclear genesꎬ ortholog inferenceꎬ concatenationꎬ coalescenceꎬ divergence time
系统发育树的正确构建对植物分类及进化研 (magnoliids)、单子叶植物(monocots)、真双子叶植
究非常重要ꎮ 进化树构建的准确度主要受以下因 物(eudicots)、金栗兰科( Chloranthaceae) 和金鱼藻
素的影响ꎮ 其一ꎬ所使用的数据集的种类及大小ꎮ 科(Ceratophyllaceae)ꎮ 这五类的系统演化拓扑关系
不仅使用形态性状数据、质体基因、线粒体基因及 一直存在争论ꎬZeng et al.(2014)总结了已经发表的
核基 因 序 列 建 立 的 进 化 树 不 一 样 ( Endress & 五种主要的拓扑关系(图 1:A-E)ꎬ其中 A 是最主流
Doyleꎬ 2009ꎻ Soltis et al.ꎬ 2011ꎻ Ruhfel et al.ꎬ 的ꎬ也是 APG IV(The Angiosperm Phylogeny Groupꎬ
2014ꎻ Zeng et al.ꎬ 2014)ꎬ使用全长核酸序列或仅 2016)的拓扑结构ꎮ Soltie et al.(2011)使用 17 个基
使用基因密码子某个位点的核酸序列及氨基酸序 因串联( 包括质体基因、线粒体基因和核基因) 为
列所构 建 的 进 化 树 也 有 所 不 同 ( Wickett et al.ꎬ 640 种 植 物 构 建 的 系 统 发 育 进 化 树 和 Ruhfel et
2014)ꎻ其二ꎬ构建树的方法及模型ꎮ 方法有串联 al.(2014)使用 78 个质体基因串联为 360 种植物构
法(concatenation)和溯祖法( coalescence)ꎮ 串联法 建的进 化 树ꎬ 支 持 主 流 A 拓 扑 结 构ꎮ Wickett et
是将 所 有 基 因 串 联 作 为 一 个 整 体ꎬ 使 用 软 件 al.(2014)使用 674 个核基因串联为 92 种植物构建
RAxML(Stamatakisꎬ 2014) 或 iqtree( Nguyen et al.ꎬ 的进化树和 Zeng et al.(2014) 使用 59 个核基因串
2015)构建系统发育树ꎻ溯祖法是先对每个基因建 联为 61 种植物构建的进化树ꎬ支持 B 拓扑结构ꎮ 除
树ꎬ再使用软件 ASTRAL(Zhang et al.ꎬ 2017) 建立 此之外ꎬQiu et al.(2010)使用 4 个线粒体基因为 380
所有基因树的共有树(Wickett et al.ꎬ 2014)ꎮ 而构 种植物构建的进化树ꎬ支持 C 拓扑结构ꎻEndress &
建系统发育树使用的模型更是多种多样ꎬ如核酸 Doyle(2009) 使用形态性状构建的进化树ꎬ支持 D
模型 GTR、HKY、JC、F81、K2P、K3P、K81uf 等ꎬ蛋 拓扑结构ꎻZhang et al.(2012)使用 5 个核基因为 91
白质模型 LG、Poisson、cpREV、mtREV、Dayhoff、mt ̄ 种植物构建的进化树ꎬ支持 E 拓扑结构ꎮ
MAM、JTT、WAG 等(Nguyen et al.ꎬ 2015)ꎮ 去掉金栗兰科和金鱼藻科后ꎬ单子叶植物、木
被子植物是植物界最高等且种类最多的一类ꎬ 兰类植物、真双子叶植物之间的系统发育关系有
它们在地球上占据着绝对优势ꎮ 现在已报道被子植 三种:(真双子叶植物ꎬ单子叶植物)ꎬ木兰类植物ꎻ
物有 352 000 种(http:/ / www.theplantlist.org / )ꎬ属于 (真双子叶植物ꎬ木兰类植物)ꎬ单子叶植物ꎻ( 单子
416 科和 64 目ꎬ各目之间的演化关系一直是研究的 叶植物ꎬ木兰类植物)ꎬ真 双 子 叶 植 物ꎮ Lu et al.
热点和争论的焦点ꎮ 被子植物除了最基部的三个 (2018)使用 4 个质体基因和 1 个线粒体基因分析
目:无油樟目(Amborellales)、睡莲目(Amborellales) 了 5 864 种中国被子植物(几乎包括所有中国地区
和木兰藤目(Austrobaileyales)ꎬ又称 ANITA 组ꎬ其余 被子植物)的系统发育关系ꎬ其构建的进化树支持
的 ( 99. 95%) 可 以 分 为 五 类: 木 兰 类 植 物 拓扑结构[( 真双子叶植物ꎬ单子叶植物)ꎬ木兰类