Page 164 - 《广西植物》2023年第9期
P. 164

1 7 1 2                                广  西  植  物                                         43 卷
            单分子实时测序技术进行枫香叶片变色期全长转                              1.4 转录组完整性评估和结构分析
            录组测序ꎬ获取高质量全长转录本进行分析和功能                                 使用 CD ̄HIT( Cluster Database at High Identity
            注释ꎬ旨在为后续研究枫香叶片变色分子机制、色                             with Tolerance)软件去除转录本中的冗余序列ꎬ获
            素代谢合成途径和调控、相关功能基因的克隆以及                             得非冗余转录本序列ꎻ利用 BUSCO( Benchmarking
            叶色改良提供遗传基础ꎮ                                        Universal Single ̄Copy Orthologs)对去冗余后的转录
                                                               本进行完整性评估ꎻ使用 TransDecoder 软件进行转
            1  材料与方法                                           录本编 码 区 序 列 及 对 应 氨 基 酸 序 列 预 测ꎻ 利 用

                                                               CPC ( Coding Potential Calculator ) 分 析、 CNCI
            1.1 实验材料                                           ( Coding ̄Non ̄Coding Index ) 分 析、 Pfam ( Protein
                 枫香叶片变色期材料采自广西壮族自治区百                           Families)蛋白结构域分析、CPAT( Coding Potential
                                                               Assessment Tool)分析 4 种方法预测 lncRNAꎻ筛选
            色市德保县红叶森林公园(23°21′19″ E、106°39′5″
            N)ꎬ采用平均木法ꎬ选取 5 株生长健壮的枫香植                           500 bp 以 上 的 转 录 本ꎬ利 用 MISA ( MIcroSAtellite
            株ꎮ 在每株枫香树上选取东、南、西、北 4 个方向                          identification tool ) 软 件 做 SSR ( simple sequence
                                                               repeat)分析ꎮ
            的枝条做好标记ꎬ自 2018 年 9 月底开始ꎬ每 15 ~
                                                               1.5 转录本功能注释
            20 d 采集样品 1 次ꎬ每次采样时在每株枫香的每
                                                                   使 用 BLAST ( Basic Local Alignment Search
            个枝条上采集 5 片完整叶片进行混合ꎬ共采集了 5
                                                               Tool)软件将得到的非冗余转录本序列与 NR(Non ̄
            次样品ꎮ 各时期叶片颜色如图 1 所示ꎮ
            1.2 RNA 提取和 cDNA 文库构建                              Redundant Protein Sequence Database )、 Swiss ̄Prot
                                                               (Swiss ̄Prot Protein Sequence Database )、 GO ( Gene
                 采用 Trizol 试剂提取枫香各时期叶片样品的总
                                                               Ontology)、 COG ( Clusters of Orthologous Groups of
            RNA(ribonucleic acid)ꎬ用 1.2%的琼脂糖凝胶电泳
                                                               Proteins)、 KOG ( Clusters of Orthologous Groups for
            检测 RNA 降解和污染情况ꎮ 使用 NanoDrop 2000
                                                               Eukaryotic Complete Genomes)、 eggNOG ( Evolutionary
            分光光度计测量 RNA 的纯度、浓度和吸收峰ꎮ 进一
                                                               Genealogy of Genes: Non ̄supervised Orthologous Groups
            步用 Aligent Bioanalyzer 2100 检测 RNA 质量ꎮ RNA
                                                               Database)、Pfam、KEGG (Kyoto Encyclopedia of Genes
            检测合格后ꎬ取各时期 28S / 18S>1ꎬ且 RIN>6.5 的
                                                               and Genomes)数据库进行比对ꎬ获得转录本的注释
                                             TM
            RNA 等 量 混 合ꎬ 使 用 SMARTer            PCR cDNA
                                                               信 息 ( 邹 智 等ꎬ 2021 )ꎻ 利 用 iTAK ( Plant
            Synthesis Kit 合成 mRNA ( messenger RNA) 的全长
                                                               Transcription Factor & Protein Kinase Identifier and
            cDNA( complementary DNA)ꎬ通过 PCR( polymerase
                                                               Classifier)软件鉴定转录因子ꎮ
            chain reaction)扩增放大全长 cDNA 进行末端修复ꎬ
            并连接 SMRT 哑铃型接头进行核酸外切酶消化ꎬ获                          2  结果与分析
            得一个 1~6 kb 的文库ꎮ 在 Pacific Bioscience RS II
            平台上进行 SMRT 测序(委托百迈客生物科技有限                          2.1 枫香叶片变色期全长转录组文库构建
            公司)ꎮ                                                   使用 2 个 SMRT cell 进行全长转录组测序ꎬ获
            1.3 测序数据的质量控制和序列聚类                                 得 41. 04 Gb 清洁数据ꎮ 从中提取到 731 849 条
                 将原始序列中长度小于 50 bp 的片段和准确                       CCSꎬ约 计 1 178 416 098 bpꎮ CCS 平 均 长 度 为
            性小于 0.90 的序列过滤ꎬ获取到过滤后的测序数                          1 610 bp( 图 2:A)ꎬ测序平均深度 为 46 × ( 图 2:
            据ꎮ 根据序列中的接头ꎬ将序列转换成环形一致                             B)ꎮ 从 731 849 条 CCS 中鉴定出全长非嵌合序列
            序列 CCS(circular con ̄sensus)ꎬ再根据 CCS 判断是            FLNC(full length reads non ̄chimeric)563 180 条ꎬ占
            否有 3′引物、5′引物以及 PolyAꎬ将序列分成全长                       比为 76. 95%ꎬ 其 长 度 分 布 如 图 2: C 所 示ꎮ 对
            和非全长序列ꎮ 将来自同一转录本的全长序列聚                             FLNC 进行聚类ꎬ获得 50 736 条一致序列ꎬ校正后ꎬ
            类ꎬ相似的聚成一簇ꎬ每个簇得到一条一致序列ꎬ                             共得到 50 282 条(99.11%)高质量一致序列ꎬ长度
            校正后ꎬ获得用于后续分析的高质量序列( 丁玉梅                            分布如图 2:D 所示ꎮ 对获得的高质量一致序列去
            等ꎬ2020)ꎮ                                           冗余ꎬ得到 27 269 条全长转录本ꎮ
   159   160   161   162   163   164   165   166   167   168   169