Page 164 - 《广西植物》2023年第9期
P. 164
1 7 1 2 广 西 植 物 43 卷
单分子实时测序技术进行枫香叶片变色期全长转 1.4 转录组完整性评估和结构分析
录组测序ꎬ获取高质量全长转录本进行分析和功能 使用 CD ̄HIT( Cluster Database at High Identity
注释ꎬ旨在为后续研究枫香叶片变色分子机制、色 with Tolerance)软件去除转录本中的冗余序列ꎬ获
素代谢合成途径和调控、相关功能基因的克隆以及 得非冗余转录本序列ꎻ利用 BUSCO( Benchmarking
叶色改良提供遗传基础ꎮ Universal Single ̄Copy Orthologs)对去冗余后的转录
本进行完整性评估ꎻ使用 TransDecoder 软件进行转
1 材料与方法 录本编 码 区 序 列 及 对 应 氨 基 酸 序 列 预 测ꎻ 利 用
CPC ( Coding Potential Calculator ) 分 析、 CNCI
1.1 实验材料 ( Coding ̄Non ̄Coding Index ) 分 析、 Pfam ( Protein
枫香叶片变色期材料采自广西壮族自治区百 Families)蛋白结构域分析、CPAT( Coding Potential
Assessment Tool)分析 4 种方法预测 lncRNAꎻ筛选
色市德保县红叶森林公园(23°21′19″ E、106°39′5″
N)ꎬ采用平均木法ꎬ选取 5 株生长健壮的枫香植 500 bp 以 上 的 转 录 本ꎬ利 用 MISA ( MIcroSAtellite
株ꎮ 在每株枫香树上选取东、南、西、北 4 个方向 identification tool ) 软 件 做 SSR ( simple sequence
repeat)分析ꎮ
的枝条做好标记ꎬ自 2018 年 9 月底开始ꎬ每 15 ~
1.5 转录本功能注释
20 d 采集样品 1 次ꎬ每次采样时在每株枫香的每
使 用 BLAST ( Basic Local Alignment Search
个枝条上采集 5 片完整叶片进行混合ꎬ共采集了 5
Tool)软件将得到的非冗余转录本序列与 NR(Non ̄
次样品ꎮ 各时期叶片颜色如图 1 所示ꎮ
1.2 RNA 提取和 cDNA 文库构建 Redundant Protein Sequence Database )、 Swiss ̄Prot
(Swiss ̄Prot Protein Sequence Database )、 GO ( Gene
采用 Trizol 试剂提取枫香各时期叶片样品的总
Ontology)、 COG ( Clusters of Orthologous Groups of
RNA(ribonucleic acid)ꎬ用 1.2%的琼脂糖凝胶电泳
Proteins)、 KOG ( Clusters of Orthologous Groups for
检测 RNA 降解和污染情况ꎮ 使用 NanoDrop 2000
Eukaryotic Complete Genomes)、 eggNOG ( Evolutionary
分光光度计测量 RNA 的纯度、浓度和吸收峰ꎮ 进一
Genealogy of Genes: Non ̄supervised Orthologous Groups
步用 Aligent Bioanalyzer 2100 检测 RNA 质量ꎮ RNA
Database)、Pfam、KEGG (Kyoto Encyclopedia of Genes
检测合格后ꎬ取各时期 28S / 18S>1ꎬ且 RIN>6.5 的
and Genomes)数据库进行比对ꎬ获得转录本的注释
TM
RNA 等 量 混 合ꎬ 使 用 SMARTer PCR cDNA
信 息 ( 邹 智 等ꎬ 2021 )ꎻ 利 用 iTAK ( Plant
Synthesis Kit 合成 mRNA ( messenger RNA) 的全长
Transcription Factor & Protein Kinase Identifier and
cDNA( complementary DNA)ꎬ通过 PCR( polymerase
Classifier)软件鉴定转录因子ꎮ
chain reaction)扩增放大全长 cDNA 进行末端修复ꎬ
并连接 SMRT 哑铃型接头进行核酸外切酶消化ꎬ获 2 结果与分析
得一个 1~6 kb 的文库ꎮ 在 Pacific Bioscience RS II
平台上进行 SMRT 测序(委托百迈客生物科技有限 2.1 枫香叶片变色期全长转录组文库构建
公司)ꎮ 使用 2 个 SMRT cell 进行全长转录组测序ꎬ获
1.3 测序数据的质量控制和序列聚类 得 41. 04 Gb 清洁数据ꎮ 从中提取到 731 849 条
将原始序列中长度小于 50 bp 的片段和准确 CCSꎬ约 计 1 178 416 098 bpꎮ CCS 平 均 长 度 为
性小于 0.90 的序列过滤ꎬ获取到过滤后的测序数 1 610 bp( 图 2:A)ꎬ测序平均深度 为 46 × ( 图 2:
据ꎮ 根据序列中的接头ꎬ将序列转换成环形一致 B)ꎮ 从 731 849 条 CCS 中鉴定出全长非嵌合序列
序列 CCS(circular con ̄sensus)ꎬ再根据 CCS 判断是 FLNC(full length reads non ̄chimeric)563 180 条ꎬ占
否有 3′引物、5′引物以及 PolyAꎬ将序列分成全长 比为 76. 95%ꎬ 其 长 度 分 布 如 图 2: C 所 示ꎮ 对
和非全长序列ꎮ 将来自同一转录本的全长序列聚 FLNC 进行聚类ꎬ获得 50 736 条一致序列ꎬ校正后ꎬ
类ꎬ相似的聚成一簇ꎬ每个簇得到一条一致序列ꎬ 共得到 50 282 条(99.11%)高质量一致序列ꎬ长度
校正后ꎬ获得用于后续分析的高质量序列( 丁玉梅 分布如图 2:D 所示ꎮ 对获得的高质量一致序列去
等ꎬ2020)ꎮ 冗余ꎬ得到 27 269 条全长转录本ꎮ