Page 68 - 《广西植物》2022年第10期
P. 68
1 6 8 6 广 西 植 物 42 卷
被子植物的演化时间进行重新估计ꎮ 本文拟对三 要有三种方式ꎮ 方式一:先通过 OrthoMCL( Li et
种获取 Ks 分布的方式进行比较ꎬ明确哪种方式获 al.ꎬ 2003)等聚类软件获取旁系同源基因对ꎬ再计
得的 Ks 峰值更接近真实情况ꎻ对于 Ks 分布中常 算这些同源基因对的 Ks 值并绘制 Ks 分布图ꎮ 方
见的长尾现象ꎬ采用模拟仿真的方式ꎬ探究出现长 式二:先进行基因组共线性分析ꎬ再计算共线性基
尾现象的原因ꎻ区分共享多倍化和共享早期分化 因对 Ks 值并绘制 Ks 分布ꎮ 方式三:在方式二的
两种情况ꎬ创建基于全基因组数据的 Ks 分布矫正 基础上ꎬ提取共线性区块上 Ks 值的中位数并绘制
模型ꎬ对 44 个代表性被子植物基因组演化事件的 Ks 分布ꎮ 三种方式中ꎬ方式一由于没有共线性分
时间尺度进行重新估计ꎬ得到相对可靠的被子植 析ꎬ因此所获取的旁系同源基因对通常会有大量
物演化时间轴ꎮ 这有助于更深层地了解被子植物 串联重复基因从而影响 Ks 分布ꎮ 方式二和三都
多样性和系统发育以及被子植物基因组的进化 经过了共线性分析ꎬ当把共线性区块( 长度大于
模式ꎮ 5)上同源基因对的 Ks 值以点图的形式展示出来
时(图 1:A)ꎬ这里以水稻为例ꎬ可以看到大部分由
1 材料与方法 绿色的点组成的片段ꎬ如 8 号与 9 号染色体ꎬ这与
水稻近期的一次多倍化事件相符ꎮ Ks 点图中大部
1.1 基因组数据材料 分点的颜色相近ꎬ说明 Ks 值波动很小ꎮ 对共线性
收集 44 个高质量染色体水平的被子植物基因 区域的 Ks 值的中位数(方式三)、平均值和所有的
组(主要来自 NCBI 和 PHYTOZOME)ꎬ共包含 43 基因对(方式二)进行正态分布拟合(带宽为 0.01ꎬ
科 39 目(表 1)ꎮ homo 范围 0.3 ~ 1)(图 2:B)ꎬ可以看到方式二并没
1.2 方法 有产生明显的峰ꎬ而且 Ks 分布整体带有长长的尾
1.2.1 共线性分析 使用 WGDI v0.5.3( Sun et al.ꎬ 巴ꎮ 方式三和区块的平均值的 Ks 分布有明显峰
2021)软件进行共线性分析ꎮ 首先ꎬ使用 BLASTP 值ꎬ数据更为集中ꎮ 由于中位数是对总体中心很
来识别基因组内或基因组间的基因相似性ꎮ 随 好的估计ꎬ且稳健性更强ꎬ中位数的峰值颜色和 Ks
后ꎬ用 WGDI 软件的‘ ̄d’ 子程序绘制同源点阵图ꎬ 点图的颜色更为接近ꎬ因此区块的 Ks 值的中位数
并运行‘ ̄icl’子程序获得共线性基因ꎮ 更接近 Ks 真正的峰值ꎬ对方式三的 Ks 分布按照
1.2.2 Ks 分布 Ks 分布主要是通过 WGDI 软件完 正态分布拟合来提取 Ks 峰值(图 1:C)ꎮ
成的ꎮ 首先ꎬ使 用 WGDI 软 件 的 ‘  ̄ks’ 子 程 序 调 为了进一步解析长尾现象ꎬ模拟了 Ks 分布随
用 PAML( Yangꎬ 2007) 软 件 计 算 共 线 性 基 因 对 进化速率的演变过程ꎮ 假设最初的 Ks 分布服从
的 Ks 值ꎮ 通过‘  ̄bi’ 子程序整合共线性和 Ks 值 正态分布 X ~ N(μꎬσ )ꎬ其中期望 μ(峰值) 和标准
2
的结果ꎬ并使用 WGDI 软件的‘  ̄bk’ 子程序查看 差 σ 为常数ꎮ 分子钟理论认为由于基因的进化速
共线基因的 Ks 值的分布ꎬ结果以点图的形式展 率是相对恒定的ꎬ因此定义 v( v>1)ꎬ代表 Ks 值的
示( 图 1:A) ꎮ 根据物种内或种间已知的多倍化 时间累积系数ꎬ表示初始 Ks 值随时间演化不断累
或分歧事件ꎬ通过 WGDI 的‘  ̄c’ 子程序对共线性 积ꎬ模拟真实情况下的恒定进化速率ꎮ 然而ꎬ其他
片段进行过滤ꎬ只保留多倍化事件或分歧事件产 研究表明分子钟并非等速进行ꎬ同时假设 v 服从正
生的共线 性 片 段ꎮ 然 后ꎬ通 过 WGDI 的 ‘  ̄kp’ 子 态分布 X ~ N( μ ꎬσ )ꎬ对这两种假设分别进行了
2
v
v
v
程序获取 Ks 分 布 ( 图 1: B) ꎮ 最 后ꎬ 使 用 WGDI 数据仿真模拟ꎮ Ks 值随着时间的推移进行迭代ꎬ
中的“  ̄pf” 子程序对不同事件分别进行拟合并获 为 X′ꎬ迭代次数为 nꎮ
n
取 Ks 分布( 图 1:C) ꎮ 当 v 为常数值时ꎬX′ = X×v ꎻ
n
当 v 服从正态分布时ꎬX′ = X×X ꎮ
v
2 结果与分析 当假设 Ks 值的时间累积系数 v 为一个常数值
时ꎬ设置假设的 Ks 分布为 X ~ N(μꎬσ )ꎬ依据 Ks 分
2
2.1 Ks 分布和长尾现象解析 布数据特征ꎬ设定 μ = 0.2ꎬσ = 0.01ꎬv = 1.02ꎬn = 100ꎮ
Ks 分布常常用来判定物种历史上发生的多倍 每迭代 10 次ꎬ绘制 Ks 分布结果(图 2:A)ꎮ 随着进
化或物种分歧事件的依据ꎮ 目前获取 Ks 分布主 化事件的推移ꎬKs 峰值也逐渐变大ꎬ Ks 分布依旧完