Page 147 - 《广西植物》2026年第5期
P. 147
5 期 许丽爱等: 濒危植物山豆根全长转录组测序与不同组织比较分析 8 7 9
( http:/ / pfam. sanger. ac. uk / )、 Swiss ̄Prot ( https:/ / 质量一致序列去冗余后ꎬ最终获得 21 703 条高质量
www. expasy. org / sprot/ ) 和 TrEMBL ( http:/ / www. 的 Isoforms(表 1)ꎮ 各序列主要分布于1 000~ 4 000
ebi.ac.uk / trembl/ index.html)数据库比对ꎬ得到数据 bpꎬ表明文库质量良好( 图 1)ꎮ 利用 TransDecoder
库注释信息ꎻ将 Unigene 对应的氨基酸序列使用 软件(https:/ / github.com/ TransDecoder / )对 Isoforms
HMMER( v3.1b2) 软件与 Pfam 数据库比对ꎬ得到 进行 CDS 预测ꎬ共得到 21 703 个 Unigenesꎬ用于后
蛋白质 结 构 域 的 注 释 结 果ꎻ 转 录 因 子 预 测 使 用 续分析ꎮ
iTAK( http: / / itak. feilab. net/ cgi ̄bin / itak / index. cgi)
软件ꎬ通过 hmmscan 比对的方式鉴定转录因子ꎻ采 表 1 山豆根全长转录组测序结果概览
用 MISA(Thiel et al.ꎬ 2003)对 Unigene 进行简单重 Table 1 Overview of full ̄length transcriptome
复序列(simple sequence repeatꎬSSR) 检测ꎬ鉴定不 sequencing results for Euchresta japonica
同类型的 SSRꎮ 总序列数目 平均长度 N50 长度
类型
1.7 二代转录组数据分析步骤 Type Total number of Average length N50 length
(bp)
(bp)
sequences
对各组织来源的合格 RNA 样品进行 Illumina
Subreads 14 800 380 2 465 2 796
平台的二代转录组测序ꎮ 为了准确评估各组织中
CCS 271 100 2 578 2 840
转录本的表达水平ꎬ以通过 PacBio SMRT 测序获
FLNC 243 663 2 490 2 762
得的高 质 量 全 长 转 录 本 作 为 参 考 序 列ꎮ 采 用
CTS 27 195 2 452 2 719
RSEM 软件包中的 bowtie2 比对工具( Li & Deweyꎬ
Isoforms 21 703 2 447 2 717
2011ꎻ Langmead & Salzbergꎬ 2012)ꎬ将经过严格质
控的二代测序 Clean Reads 与三代全长转录本序列
2.2 山豆根 Unigenes 的功能注释
进行精确比对ꎬ从而获得可靠的转录本定量数据ꎮ
为消除测序深度和基因长度对表达量计算的影 为获得山豆根 Unigenes 的功能注释信息ꎬ将
鉴定出的 Unigenes 与 7 个公共数据 库 进 行 比 对
响ꎬ选用 FPKM(Fragments Per Kilobase of transcript
per Million mapped reads)作为标准化指标ꎬ该指标 (图 2)ꎮ 在 21 703 个 Unigenes 中ꎬ共有 21 543 个
能准确反映每个转录本在不同组织中的相对表达 (99.26%)至少在一个数据库中得到注释ꎬ表明测
水平ꎮ 采用 DESeq2( Love et al.ꎬ 2014) 软件包对 序数据完整性高、质量可靠ꎮ 各数据库的注释数
样品组间进行差异表达分析ꎬ将表达量变化倍数 量分别为 NR 21 520 个(99.16%)、TrEMBL 21 511
| log Fold Change | ≥1 且 FDR< 0.05 的 Unigene 视 个 ( 99. 12%)、 GO 19 796 个 ( 91. 21%)、 Pfam
2
为 差 异 表 达 基 因 ( differentially expressed genesꎬ 19 563个(90.14%)、KEGG 18 455 个( 85.03%)、
DEGs)ꎬ并对 DEGs 进行 GO 功能注释和 KEGG 通 Swiss ̄Prot 18 262 个( 84.15%) 及 KOG 14 268 个
(65.74%)ꎬ反映注释结果在不同功能维度上的覆
路富集分析ꎮ
盖广度ꎮ 值得注意的是ꎬ有 12 011 个( 55. 34%)
2 结果与分析 Unigenes 在 7 个数据库中均得到注释( 图 2)ꎬ构成
了一个覆盖多个功能维度的核心注释基因集ꎬ为
2.1 山豆根全长转录组测序数据统计分析 功能研究提供了宝贵的数据基础ꎮ
为获得山豆根的全长转录组数据ꎬ本研究基 2.2.1 NR 数据库注释 对 21 520 个 Unigenes 的
于 PacBio SMRT 测 序 平 台ꎬ对 山 豆 根 的 主 根、 侧 NR 数据库注释分析表明ꎬ这些基因序列与 273 个
根、茎、叶、花和果实 6 个组织的混合样品进行三 物种存在不同程度的同源性ꎮ 山豆根的 Unigenes
代 全 长 转 录 组 测 序ꎮ 经 数 据 处 理ꎬ 共 获 得 与豆科植物序列相似性最高ꎬ其中与羽扇豆属的
14 800 380条 Subreadsꎬ总计 36.48 Gbꎬ平均长度 同 源 性 最 为 显 著ꎮ 狭 叶 羽 扇 豆 ( Lupinus
2 465 bpꎬN50 长度为 2 796 bpꎮ 通过筛选ꎬ得到 angustifolius) 和白羽扇豆 ( L. albus) 分别匹配到
271 100条环状一致性序列(CCS)ꎬ243 663 条全长 5 521个和 4 218 个 Unigenes(图 3)ꎬ显著高于其他
非嵌合(FLNC) 序列及 27 195 条一致性转录本序 物种ꎮ 此外ꎬ与红豆属相思子(Abrus precatorius)匹配
列(consensus transcript sequenceꎬ CTS)ꎻ进一步对高 到3 417个 Unigenesꎬ 与密花豆属密花豆 (Spatholobus

