Page 68 - 《广西植物》2022年第10期
P. 68

1 6 8 6                               广  西  植  物                                          42 卷
   被子植物的演化时间进行重新估计ꎮ 本文拟对三                            要有三种方式ꎮ 方式一:先通过 OrthoMCL( Li et
   种获取 Ks 分布的方式进行比较ꎬ明确哪种方式获                          al.ꎬ 2003)等聚类软件获取旁系同源基因对ꎬ再计
   得的 Ks 峰值更接近真实情况ꎻ对于 Ks 分布中常                        算这些同源基因对的 Ks 值并绘制 Ks 分布图ꎮ 方
   见的长尾现象ꎬ采用模拟仿真的方式ꎬ探究出现长                            式二:先进行基因组共线性分析ꎬ再计算共线性基
   尾现象的原因ꎻ区分共享多倍化和共享早期分化                             因对 Ks 值并绘制 Ks 分布ꎮ 方式三:在方式二的
   两种情况ꎬ创建基于全基因组数据的 Ks 分布矫正                          基础上ꎬ提取共线性区块上 Ks 值的中位数并绘制
   模型ꎬ对 44 个代表性被子植物基因组演化事件的                          Ks 分布ꎮ 三种方式中ꎬ方式一由于没有共线性分
   时间尺度进行重新估计ꎬ得到相对可靠的被子植                             析ꎬ因此所获取的旁系同源基因对通常会有大量
   物演化时间轴ꎮ 这有助于更深层地了解被子植物                            串联重复基因从而影响 Ks 分布ꎮ 方式二和三都
   多样性和系统发育以及被子植物基因组的进化                              经过了共线性分析ꎬ当把共线性区块( 长度大于
   模式ꎮ                                               5)上同源基因对的 Ks 值以点图的形式展示出来
                                                     时(图 1:A)ꎬ这里以水稻为例ꎬ可以看到大部分由
   1  材料与方法                                          绿色的点组成的片段ꎬ如 8 号与 9 号染色体ꎬ这与
                                                     水稻近期的一次多倍化事件相符ꎮ Ks 点图中大部
   1.1 基因组数据材料                                       分点的颜色相近ꎬ说明 Ks 值波动很小ꎮ 对共线性
       收集 44 个高质量染色体水平的被子植物基因                        区域的 Ks 值的中位数(方式三)、平均值和所有的

   组(主要来自 NCBI 和 PHYTOZOME)ꎬ共包含 43                   基因对(方式二)进行正态分布拟合(带宽为 0.01ꎬ
   科 39 目(表 1)ꎮ                                      homo 范围 0.3 ~ 1)(图 2:B)ꎬ可以看到方式二并没
   1.2 方法                                            有产生明显的峰ꎬ而且 Ks 分布整体带有长长的尾
   1.2.1 共线性分析  使用 WGDI v0.5.3( Sun et al.ꎬ          巴ꎮ 方式三和区块的平均值的 Ks 分布有明显峰
   2021)软件进行共线性分析ꎮ 首先ꎬ使用 BLASTP                      值ꎬ数据更为集中ꎮ 由于中位数是对总体中心很
   来识别基因组内或基因组间的基因相似性ꎮ 随                             好的估计ꎬ且稳健性更强ꎬ中位数的峰值颜色和 Ks
   后ꎬ用 WGDI 软件的‘ ̄d’ 子程序绘制同源点阵图ꎬ                      点图的颜色更为接近ꎬ因此区块的 Ks 值的中位数
   并运行‘ ̄icl’子程序获得共线性基因ꎮ                              更接近 Ks 真正的峰值ꎬ对方式三的 Ks 分布按照
   1.2.2 Ks 分布  Ks 分布主要是通过 WGDI 软件完                  正态分布拟合来提取 Ks 峰值(图 1:C)ꎮ
   成的ꎮ 首先ꎬ使 用 WGDI 软 件 的 ‘  ̄ks’ 子 程 序 调                  为了进一步解析长尾现象ꎬ模拟了 Ks 分布随
   用 PAML( Yangꎬ 2007) 软 件 计 算 共 线 性 基 因 对           进化速率的演变过程ꎮ 假设最初的 Ks 分布服从
   的 Ks 值ꎮ 通过‘  ̄bi’ 子程序整合共线性和 Ks 值                   正态分布 X ~ N(μꎬσ )ꎬ其中期望 μ(峰值) 和标准
                                                                        2
   的结果ꎬ并使用 WGDI 软件的‘  ̄bk’ 子程序查看                      差 σ 为常数ꎮ 分子钟理论认为由于基因的进化速
   共线基因的 Ks 值的分布ꎬ结果以点图的形式展                           率是相对恒定的ꎬ因此定义 v( v>1)ꎬ代表 Ks 值的
   示( 图 1:A) ꎮ 根据物种内或种间已知的多倍化                        时间累积系数ꎬ表示初始 Ks 值随时间演化不断累
   或分歧事件ꎬ通过 WGDI 的‘  ̄c’ 子程序对共线性                      积ꎬ模拟真实情况下的恒定进化速率ꎮ 然而ꎬ其他
   片段进行过滤ꎬ只保留多倍化事件或分歧事件产                             研究表明分子钟并非等速进行ꎬ同时假设 v 服从正
   生的共线 性 片 段ꎮ 然 后ꎬ通 过 WGDI 的 ‘  ̄kp’ 子               态分布 X ~ N( μ ꎬσ )ꎬ对这两种假设分别进行了
                                                                       2
                                                              v
                                                                       v
                                                                    v
   程序获取 Ks 分 布 ( 图 1: B) ꎮ 最 后ꎬ 使 用 WGDI             数据仿真模拟ꎮ Ks 值随着时间的推移进行迭代ꎬ
   中的“  ̄pf” 子程序对不同事件分别进行拟合并获                         为 X′ꎬ迭代次数为 nꎮ
                                                                                 n
   取 Ks 分布( 图 1:C) ꎮ                                     当 v 为常数值时ꎬX′ = X×v ꎻ
                                                                                      n
                                                         当 v 服从正态分布时ꎬX′ = X×X ꎮ
                                                                                      v
   2  结果与分析                                              当假设 Ks 值的时间累积系数 v 为一个常数值
                                                     时ꎬ设置假设的 Ks 分布为 X ~ N(μꎬσ )ꎬ依据 Ks 分
                                                                                      2
   2.1 Ks 分布和长尾现象解析                                  布数据特征ꎬ设定 μ = 0.2ꎬσ = 0.01ꎬv = 1.02ꎬn = 100ꎮ
       Ks 分布常常用来判定物种历史上发生的多倍                         每迭代 10 次ꎬ绘制 Ks 分布结果(图 2:A)ꎮ 随着进
   化或物种分歧事件的依据ꎮ 目前获取 Ks 分布主                          化事件的推移ꎬKs 峰值也逐渐变大ꎬ Ks 分布依旧完
   63   64   65   66   67   68   69   70   71   72   73