Page 166 - 《广西植物》2023年第9期
P. 166
1 7 1 4 广 西 植 物 43 卷
2.2 编码区序列、lncRNA 和 SSR 分析 Pfam 分别预测到 3 028、2 848、5 132 和 6 406 条
通过编码区序列及对应氨基酸序列的预测ꎬ共 lncRNAꎬ2 035 条为共有序列(图 3:A)ꎮ 利用 MISA
获得 25 408 个 开 放 阅 读 框 ORF ( open reading 软件筛选 500 bp 以上的转录本ꎬ共获得14 892个
frame)ꎬ 其 中ꎬ 20 281 条 ORF 是 完 整 的ꎬ 占 比 SSR 位点ꎬ其中单碱基 SSR 有 5 124 个ꎬ数目最多ꎬ
79.57%ꎮ lncRNA 预测分析中ꎬCPC、CNCI、CPAT 和 其平均密度约为每 Mb 43.5 个(图 3:B)ꎮ
A. lncRNA 预测维恩图ꎻ B. SSR 密度分布ꎻ c. 混合 SSRꎻ c . 带有重合碱基的混合 SSRꎻ p1. 单碱基 SSRꎻ p2. 双碱基 SSRꎻ p3. 三
碱基 SSRꎻ p4. 四碱基 SSRꎻ p5. 五碱基 SSRꎻ p6. 六碱基 SSRꎮ
A. Venn diagram of predicted lncRNAꎻ B. Density distribution of SSRꎻ c. Compound SSRꎻ c . Compound SSR with overlapping basesꎻ p1. Mono ̄
nucleotide SSRꎻ p2. Di ̄nucleotide SSRꎻ p3. Tri ̄nucleotide SSRꎻ p4. Tetra ̄nucleotide SSRꎻ p5. Penta ̄nucleotide SSRꎻ p6. Hexa ̄nucleotide SSR.
图 3 枫香叶片变色期转录本的 lncRNA 预测和 SSR 分析
Fig. 3 lncRNA prediction and SSR analysis of transcripts in leaf discoloration stage of Liquidambar formosana
2.3 转录本功能注释
8 个数据库的功能注释结果显示( 表 1)ꎬ共注
释 24 857 条序列ꎬ占总转录本的 91.15%ꎮ 在 NR
注释的物种中ꎬ葡萄( Vitis vinifera) 占比 最 高ꎬ为
36.39%ꎬ其次是可可树(Theobroma cacaoꎬ7.09%)、
莲 ( Nelumbo nuciferaꎬ 6. 71%)、 麻 枫 树 ( Jatropha
curcasꎬ3.41%)等(图 4)ꎮ
图 4 NR 注释同源种分布统计
表 1 注释转录本的统计情况 Fig. 4 Statistics of NR annotation homologous
Table 1 Statistics of transcripts annotated species distribution
所注释数据库 转录本数量
Annotated database Number of transcripts
GO 注释的 17 535 个转录本中ꎬ包含生物过程
NR 24 726
GO 17 535 (49 314)、细胞组分(36 008)、分子功能(21 366)
COG 10 809 3 大类 51 个亚类ꎮ 其中ꎬ生物过程中代谢过程和
KEGG 10 666
细胞过程占比较高ꎬ分别为 69.4%和 59.1%ꎻ细胞
KOG 15 286
组分中细胞区域和细胞占比较高ꎬ分别为 47.1%
Pfam 20 455
和 46.8%ꎻ分子功能中催化活性和结合功能占比
Swiss ̄Prot 17 910
eggNOG 24 158
较高ꎬ分别为 53.3%和 47.8%(图 5)ꎮ
合计 Total 24 857
COG 注释中ꎬ 一般功能预测(20.11%)所占比