-
白芷为伞形科(Apiaceae)植物白芷(Angelica dahurica)或杭白芷(A. dahurica var. formosana)的干燥根,主产于四川、杭州等地,多为栽培品。白芷是常见的药食同源药材,在临床上可用于感冒头痛、眉棱骨痛、牙痛、疮疡肿痛等各种类型的疼痛症状(国家药典委员会,2020),在日常生活中也可以作为香料使用。同时,因其气味芳香,被广泛应用于化妆品、洗护用品等方面(于静和朱艳华,2014)。白芷含有多种活性成分,如香豆素类、挥发油类、多糖类、生物碱类等(Li et al.,2014; Zhao et al.,2022),现代研究表明其主要有效成分是香豆素类和挥发油类,具有解热镇痛、抗炎、抗病原微生物、抗肿瘤、降压、保肝等多种药理作用(吉庆等,2020;王蕊等,2020)。
-
白芷的应用前景十分广泛,但近年对白芷的研究多数集中在化学成分、栽培技术、药理药效的解析等方面,而少有关于白芷遗传信息的研究,目前只见对白芷转录组进行测序分析(吴萍等,2020)的研究,对白芷COSNTANS-like(蒋翼杰等,2021)、NAC(黄文娟等,2021)、MYB-related(姚菲等,2022)基因家族的研究以及白芷中香豆素合成关键基因的挖掘均是依据转录组数据进行(刘洋,2019),白芷基因组数据的缺乏导致无法获取白芷完整的遗传信息,更多的研究无法开展或进一步深入,因此对其进行全基因组测序显得十分重要。
-
香豆素类成分既是白芷的药效成分,又是香气成分,香豆素类化合物广泛存在于自然界的多种植物中,如伞形科、芸香科、桑科等的植物(Venugopala et al.,2013),近年来对香豆素的生物合成途径研究较多,一些关键酶及功能作用的解析也较为清晰(段珍等,2022)。其中,就包括β-葡萄糖苷酶(β-glucosidase,BGLU),β-葡萄糖苷酶家族不仅在香豆素的生物合成中起到重要调控作用,而且广泛参与植物激素信号激活(Sun et al.,2014)、次生代谢(Sampedro et al.,2017)等多种重要生理过程。有研究表明β-葡萄糖苷酶家族在草木樨的香豆素合成中起到重要调控作用(吴凡,2021),在玉米中能通过催化碳水化合物部分和香豆素核心结构间的β-葡萄糖苷键的水解,进而产生香豆素苷元形式;黑曲霉来源的β-葡萄糖苷酶对丁公藤粗提物中的东莨菪苷可特异性水解,并使其含量提高47%(于坤朋等,2023);从拟南芥中分离的3种β-葡萄糖苷酶能特异性水解东莨菪苷成东莨菪内酯,东莨菪内酯属于香豆素类成分,在白芷中也有存在,课题组推测在白芷的香豆素成分合成中,BGLU基因也起到关键作用。
-
目前未见关于白芷高质量基因组的研究,对白芷中香豆素合成途径的解析也较少,为了进一步丰富白芷遗传进化的研究资料,本研究通过对杭白芷进行第二代、第三代基因组测序,对测序数据进行组装、注释等,获得杭白芷的高质量基因组,并进行功能注释、基因家族聚类等分析,然后挖掘香豆素合成途径关键基因BGLU,通过在线软件对基因组中提取的BGLU序列进行基本的特征分析,拟探讨以下问题:(1)杭白芷基因组概况;(2)基因功能主要集中在哪些生物学过程及代谢通路;(3)BGLU基因家族的基本特征是什么。以期为白芷的后续研究提供数据基础及分子基础,为后续深入研究BGLU基因家族在白芷香豆素合成途径中的功能提供前期基础。
-
1 材料与方法
-
1.1 材料及DNA提取
-
杭白芷植株采自成都中医药大学药用植物园,经国家中药种质资源库专家高继海副教授鉴定为伞形科植物杭白芷(Angelica dahurica var. formosana)。采摘新鲜、幼嫩、无病虫害的叶片,先用蒸馏水清洗表面,再用75%乙醇清洗3次,擦干后置于-80℃冻存,备用。
-
参照沙丽萍(2018)采用CTAB法提取杭白芷叶片DNA。提取的DNA需通过琼脂糖凝胶电泳和Qubit Fluorometer检测浓度,以及Nanodrop检测纯度和完整度。
-
1.2 文库构建及测序
-
(1)MGISEQ-200测序:提取的杭白芷基因组DNA经检测合格以后,通过酶解随机打断成片段,经末端修复、加A尾、加测序接头、纯化、PCR扩增等步骤构建插入片段长度为150 bp的DNA文库。将构建好的文库在MGISEQ-200平台进行双端测序。
-
(2)Nanopore测序:利用磁珠对检测合格的DNA进行富集和纯化,并对纯化后的DNA进行损伤修复、末端修复、加A尾后再纯化;将产物进行测序相关的连接及纯化,得到最终上机文库;用Qubit对建好的DNA文库进行精确的定量检测,取一定量的DNA文库混合上机相关试剂后加入流动槽中;在GridION测序仪上进行单分子测序,得到原始数据。
-
1.3 基因组测序数据的质量控制
-
二代原始测序数据中包含的接头信息,低质量碱基,未测出的碱基(以N表示)等会对后续的信息分析造成很大的干扰,这些干扰信息需要利用FastQC v0.11.9软件和Trimmomatic v0.39软件进行过滤,最终得到有效数据(clean reads)用于后续分析。
-
使用NanoPlot v1.20.0软件对三代Nanopore测序数据的测序质量进行检测,再利用NanoFlit v2.8.0软件进行低质量和短片段数据的过滤。
-
1.4 基因组大小和杂合度评估
-
利用MGISEQ-200测序得到的reads数据,采用Jellyfish v1.1.10做Survey分析来预估基因组大小、杂合率及重复序列占比,以判断基因组复杂情况。采用基因K-mer的分析方法来估计杭白芷基因组特征。
-
1.5 基因组组装及评估
-
为得到高准确性的三代组装结果,先采用Canu v2.1.1(Koren et al.,2017)软件对Clean Reads进行纠错,然后将纠错后的数据进行组装,用Racon v1.0.0(Senol et al.,2019)软件对组装结果进行纠错,再用Pilon v1.22软件使用二代数据进行校正,最后利用BUSCO v5.1.2(Simão et al.,2015)软件对组装完成的基因组进行完整性评估。
-
1.6 序列预测
-
首先,基于结构预测和从头预测(Ab initio)的原理,使用LTR Finder v1.05(Xu &Wang,2007)、RepeatScout v1.0.6、PILER-DF v2.4软件构建重复序列数据库,利用PASTEClassifier v2.0对构建好的重复序列库进行分类;然后,基于重复序列数据库Repbase(https://www.girinst.org/repbase/)合并作为最终的杭白芷基因组的重复序列数据库;最后,基于构建好的数据库采用RepeatMasker v4.1.2软件对杭白芷进行重复序列的预测。
-
基于从头预测和同源物种预测(Homolog)两种原理对杭白芷基因组进行基因预测,并对预测结果进行评估。首先,利用Genscan v1.0、Augustus v3.3.1、GlimmerHMM v3.0.4、GeneID v1.4、SNAP v8.0.0进行从头预测;然后,使用GeMoMa v1.3.1进行基于同源物种的预测;最后,利用EvidenceModeler v1.1.0整合和校正上述方法得到的预测结果。针对非编码RNA预测,包括microRNA、rRNA及tRNA等已知功能的RNA,分别基于Rfam(Finn et al.,2006)数据库和miRBase数据库并利用Infenal v1.1.3进行rRNA和microRNA预测;利用tRNAscan-SE v2.0.7识别tRNA。
-
1.7 功能基因注释
-
对预测得到的基因序列与NR(Non-Redundant Protein Database)、KOG(EuKaryotic Orthologous Groups)、KEGG(Kyoto Encyclopedia of Genes and Genomes)、TrEMBL等功能数据库做BLAST v2.2.31比对,设置比对筛选阈值(e-value<1e-5),得到基因功能注释。基于NR数据库比对结果,应用软件 Blast2GO v5.2.5进行GO数据库的功能注释。
-
1.8 基因家族聚类分析及系统进化分析
-
利用杭白芷和其同科物种的对比来寻找基因家族,从NCBI数据库中下载杭白芷同科植物芹菜(Apium graveolens)(Song et al.,2021)、胡萝卜(Daucus carota subsp. sativus)(Iorizzo et al.,2016)的蛋白序列,从CGDB(http://cgdb.bio2db.com)下载芫荽(Coriandrum sativum)(Song et al.,2020)蛋白序列。通过OrthoMCL v2.0(Li et al.,2003)软件对all-vs-all blastp获得的所有物种蛋白序列间的相似性关系进行聚类分析。将从OrthoMCL聚类结果中提取单拷贝蛋白序列,通过Muscle v3.8.31(Edgar,2004)软件进行对比后,再通过RAxML v8.2.12(Guindon &Gascuel,2003)软件采用最大似然法(ML TREE)构建进化树。
-
1.9 杭白芷BGLU基因家族成员挖掘
-
利用SMART数据库,获得拟南芥BGLU基因家族的典型结构域序列tBLASTN(P=0.001),并搜索杭白芷基因组数据库,通过Pfam数据库得到杭白芷中所有BGLU基因家族成员。
-
1.10 BGLU基因家族理化性质、亚细胞定位、蛋白二级结构及保守域分析
-
利用ProtParam tool(https: // web.expasy .org /protparam/)(Wilkins et al.,1999)在线软件对BGLU家族蛋白进行理化性质分析;用Plant-mPLoc(http: // www. csbio. sjtu. edu. cn/bioinf / plant-multi/)及WoLF PSORT(https: // wolfpsort .hgc .jp /)在线软件综合分析其亚细胞定位;使用SOMPA(https: //npsa-prabi .ibcp. fr /cgi-bin /npsa_automat.pl?page= npsa_sopma.html)在线软件分析其二级结构;通过 MEME( https: //meme-suite. org/meme /tools /meme)在线软件分析保守结构域。
-
1.11 BGLU家族系统进化分析
-
利用MEGA软件中的Clustal W v2.0(Larkin et al.,2007)程序对杭白芷和拟南芥的BGLU家族蛋白序列进行对比,将对比结果采用邻接法构建系统发育树。
-
2 结果与分析
-
2.1 基因组测序
-
通过测序平台对杭白芷叶片进行全基因组测序,对原始数据的Reads质量值进行初步过滤,去掉低质量和短片段的Reads,统计得到150 Gb二代原始数据、662 Gb三代原始数据。三代数据中,Read N50为32 932 bp,最长Reads的长度为422 833 bp,平均长度为27 750 bp,测序质量符合后续组装要求。Survey分析得出杭白芷基因组的大小约为5.2 Gb。
-
2.2 基因组组装及评估
-
借助Canu软件对杭白芷进行纠错组装,基因组大小约为5.6 Gb,Contig N50为806 638 bp,最长的Contig为21 677 961 bp,GC含量为35.73%。组装后的基因组采用BUSCO v5.1.2 软件评估,在组装的基因中共找到1 580个完整的BUSCO基因,其中完整单拷贝的1 272个,Fragmented BUSCO 18个基因,有16个基因在Embryophyta_odb10数据库中没有找到,BUSCO评估基因组完整度为97.9%,表明该组装结果较为完整。
-
2.3 基因预测结果
-
利用RepeatMasker v4.1.2软件进行重复序列预测得到包含5.4 Gb重复序列的杭白芷基因组,占比91.36%。其中,长散在重复序列(LINE)数目为21 726 条,占比0.41%;短散在重复序列(SINE)数目为0条;长末端重复序列(LTR)数目为3 550 524 条,占比69.07%;copyia数目为1 083 004条,占比30.01%;gypsy数目为989 985条,占比24.56%;Roling-circles数目为2 893条,占比0.03%;简单重复序列(SSR)数目为7 710条,占比0.03%。
-
在获得的67 004个基因中,有34 119(50.92%)个基因得到了其他物种同源性鉴定或RNA-seq数据的支持。共鉴定出2 749个非编码RNA(ncRNA),其中核糖体RNA(rRNA)20个、转移RNA(tRNA)781个、小分子RNA(microRNA)97个和小核RNA(snRNA)1 505个。
-
2.4 基因功能注释与分析
-
通过KOG功能注释(图1)可得出,杭白芷基因组共29 788个基因获得注释,占预测到的总基因数的44.46%。从图1中可以看出,杭白芷的蛋白功能主要集中在翻译后修饰、蛋白质转换和伴侣,占比为10.8%;其次为信号转导机制,占比为10.1%,转录,占比为6.7%;碳水化合物转运和代谢,占比为3.7%;一般功能预测,占比为22.8%。这些基因的差异性表达可以为今后杭白芷的深入研究提供数据支持。
-
图1 KOG功能分类注释图
-
Fig.1 KOG function annotation classification chart
-
杭白芷基因组GO注释(图2)表明,共有44 540个基因具有GO注释功能,占预测到的总基因数的66.47%。功能主要分布在生殖、细胞过程、胁迫应答、细胞、细胞部位等的基因占优势,其中在生殖的基因占比最多。
-
KEGG通路注释(图3)对杭白芷的15 263个基因进行了通路注释,占预测到的总基因数的22.78%。其注释结果表明其中主要为参与代谢的基因,并且微生物在不同环境中的代谢、碳代谢、氨基酸生物合成为主要代谢通路。
-
2.5 基因家族聚类分析及系统进化分析
-
将杭白芷与同科植物芫荽、芹菜、胡萝卜的蛋白序列进行对比,在杭白芷基因组的67 004个蛋白序列中共鉴定出24 335个基因家族,其中4 004个基因家族包含18 151个基因特异存在于杭白芷中,4种植物所共有的基因家族有1 030个(图4)。
-
为进一步研究杭白芷的种属关系,以96条单拷贝蛋白序列进行比较分析,选择拟南芥(Arabidopsis thaliana)、玉米(Zea mays)、无油樟(Amborella trichopoda)以及同为伞形科的芫荽、芹菜、胡萝卜、当归(Angelica sinensis)共7个已知基因组信息的物种,与杭白芷构建遗传进化树(图5),结果表明杭白芷与芫荽聚为一支,两物种间亲缘关系较近。
-
2.6 杭白芷BGLU基因家族理化性质、亚细胞定位分析
-
在杭白芷全基因组中共鉴定到45个BGLU家族基因,分别命名为AdBGLU01~AdBGLU45,利用Protparam Tool进行理化性质分析,Plant-mPLoc及WoLF PSORT进行亚细胞定位(表1)。结果表明,杭白芷的 45个BGLU基因编码的氨基酸数目在51~930之间,最长包含930个氨基酸残基(AdBGLU32),最短包含51个氨基酸残基(AdBGLU30);不稳定指数在11.18~61.86之间,其中38个的不稳定系数小于40,推测其为稳定蛋白,其余7个为不稳定蛋白;脂肪系数为56.76~113.25,说明蛋白的热稳定性较好;平均亲疏水性在-0.643~0.35之间,其中7个为正值,38个为负值,说明主要为亲水性蛋白;等电点在4.24~10.35之间,说明氨基酸大多为弱酸或弱碱性;亚细胞定位预测结果表明AdBGLU家族成员分别定位于细胞核、细胞质、叶绿体、液泡中。AdBGLU基因家族的不同成员间理化性质差异较大且亚细胞定位较多,推测该基因家族成员功能较为多样,在生物体内参与不同的生理过程。
-
图2 GO注释分类图
-
Fig.2 GO annotation classification chart
-
图3 KEGG功能注释图
-
Fig.3 KEGG function annotation diagram
-
2.7 杭白芷BGLU基因家族蛋白二级结构及保守域分析
-
在线分析网站对杭白芷BGLU家族蛋白的二级结构分析(表2)表明,BGLU家族中α-螺旋和无规则卷曲所占比例最大,其中α-螺旋所占比例最大的有27个,无规则卷曲所占比例最大的有18个。无规则卷曲为蛋白中的不稳定编码区,因此可推测无规则卷曲越多,该家族成员的功能越多样(姚菲等,2022)。
-
图4 4个基因家族Venn图
-
Fig.4 Venn diagram of gene families of four species
-
图5 物种间进化关系
-
Fig.5 Evolutionary relationships between species
-
保守域分析结果(图6)表明,Motif 8为最短,含有29个氨基酸残基;Motif 6稍长,含35个氨基酸残基;Motif 2、Motif 3和Motif 7较长,含有41个氨基酸残基;Motif 1、Motif 4、Motif 5最长,均含有50个氨基酸残基。通过保守基序结构可看出Motif 5的保守性较高。通过保守域分析发现,不同基因含有的保守域数量不同,在所有基序中,Motif 1出现的频率最高,推测其为特征基序。
-
续表1
-
图6 AdBGLU家族蛋白的保守基序分析
-
Fig.6 Conserved motif analysis of AdBGLU family proteins
-
基于杭白芷和拟南芥的蛋白序列构建系统发育树(图7),AdBGLU基因被分为6个亚家族(A-F),AdBGLU和AtBGLU基因同时存在于B-F亚族中,表明这些亚族中基因功能保守(张曼等,2023)。A亚族中,有3个AtBGLU,无AdBGLU;B亚族有1个AdBGLU和4个AtBGLU;C亚族有13个AdBGLU和14个AtBGLU;D亚族有5个AdBGLU和8个AtBGLU;E亚族有14个AdBGLU和17个AtBGLU;F亚族有12个AdBGLU和2个 AtBGLU。在C亚族中,杭白芷和拟南芥的基因数量相似,推测此亚族中的同源基因在拟南芥和杭白芷中可能发挥相似的作用;而在其余亚族中,数量差异较大,可能存在调控杭白芷内香豆素合成的关键基因,此结论还需进一步验证。
-
3 讨论与结论
-
有研究表明物种的基因组大小与其倍性水平及相应的染色体数目存在一定的正相关性(Mank &Avise,2006),通过对禾本科282种植物基因参数的研究发现,随着染色体倍性从二倍体到八倍体之间增加,其对应的基因组大小也显著增大,其基因组大小与倍性、染色体数呈极显著正相关(李桂双等,2012)。本研究获得约为 5.6 Gb的杭白芷基因组,其他已完成基因组测序的伞形科植物有积雪草(约为430 Mb)、芹菜(约为3.33 Gb)、当归(约为2.37 Gb)(Han et al.,2022)、水芹(约为1.28 Gb)、北柴胡(约为621.42 Mb)、胡萝卜(约为421.5 Mb)、野胡萝卜(约为371.6 Mb)、芫荽(约为2 130.29 Mb),其中白芷、芹菜、当归、芫荽的染色体数目为2n=22条,积雪草和胡萝卜、野胡萝卜的染色体数目为2n=18条,北柴胡的染色体数目为2n=12条,除北柴胡以外,符合染色体数目与基因组大小呈正相关关系,表明本次测得的杭白芷基因组大小符合染色体数目。白芷、芹菜的植株生长可达1.5 m,而其余植物均不超过1 m,初步推测伞形科植物基因组大小与植株高度呈正相关关系(邵晨等,2021),可为后续同属或同科植物基因组的研究提供参考。
-
图7 杭白芷和拟南芥BGLU基因家族进化分析
-
Fig.7 Phylogenetic analysis of BGLU gene families in Angelica dahurica var. formosana and Arabidopsis thaliana
-
香豆素类化合物是一类具有重要药用价值的天然化合物,分为简单香豆素、呋喃香豆素、吡喃香豆素和其他香豆素四类(王荣香等,2022)。在植物中,香豆素通过苯丙烷代谢途径进行合成,目前已有较多研究揭示参与该生物合成途径的关键基因。例如,从明亮发光杆菌中提取的PAL基因能将L-苯丙氨酸转化为肉桂酸,将L-酪氨酸转化为对香豆酸(Zhang et al.,2021);在对向日葵的研究中发现,有3个C4H基因具有催化肉桂酸生成对香豆酸,用同样方法对白花前胡和紫花前胡的C4H基因功能进行探索,发现都具有相同的催化功能(Wang et al.,2020);在白花草木樨的研究中也发现MaBGLU1基因对于东莨菪苷形成东莨菪内酯具有关键作用(Wu et al.,2022);在白芷同属植物当归的研究中,发现PT基因对于呋喃香豆素的形成可能起到关键决定作用。PAL、C4H等在香豆素生物合成途径中属于较为上游的基因,对于此类基因的研究较多,但是相对下游的BGLU基因的研究较少,尤其在白芷中更为缺乏。研究表明BGLU通过激活植物激素和防御化合物,与植物生理过程中的多个方面有关,尤其是对生物和非生物胁迫的响应。例如,陆地棉中5个GhBGLU或能正向调控棉花黄萎病抗性(张曼等,2023),拟南芥中的AtBGLU10可以催化游离ABA的产生(Lee et al.,2006),AtBGLU21-23调控根中东莨菪苷的水解(Ahh et al.,2010),AtBGLU42参与诱导机体对细胞疾病的抵抗力(江舟,2022)。本研究所获得的杭白芷基因组,可为后续进行白芷中香豆素类成分合成相关基因的挖掘提供基础,具有重要价值及意义。
-
目前,已在拟南芥中发现48个BGLU家族基因,玉米中发现26个(Gómez-Anduro et al.,2011),水稻中发现40个(Opassiri et al.,2006),大豆中发现42个(柯丹霞等,2019),陆地棉中发现53个(张曼等,2023),苜蓿发现51个(Yang et al.,2021),本研究在杭白芷中鉴定出45个BGLU家族基因,并对其进行理化性质、二级结构等分析,发现其亚细胞定位多在细胞质、叶绿体、液泡中,这一结论与玉米中的β-葡萄糖苷酶定位基本一致(Kristoffersen et al.,2000),AdBGLU基因家族的理化性质、二级结构、亚细胞定位等特征差异较大,说明该基因家族的结构较为复杂,推测其功能较为多样,各基因在功能分工上有所不同,在生物体内参与多种不同代谢过程。杭白芷中存在多种香豆素类化合物,如欧前胡素、异欧前胡素、白当归素、佛手柑内酯等等,其生物合成途径也较为复杂,这可能是与AdBGLU基因功能的多样有关。AdBGLU的初步分析对杭白芷香豆素生物合成具有重要作用,可为进一步揭示和利用杭白芷香豆素类成分合成途径关键基因的功能提供前期理论基础。
-
4 数据获得
-
原始测序数据已上传至国家基因库生命大数据平台(CNGBdb,https://db.cngb.org/),项目编号为CNP0003549。
-
参考文献
-
DUAN Z, WU F, YAN Q, et al. , 2022. Research progress on plant coumarin biosynthesis pathway and the genes encoding the key enzymes [J]. Acta Pratacult Sin, 31(1): 217-228. [段珍, 吴凡, 闫启, 等, 2022. 植物香豆素生物合成途径及关键酶基因研究进展 [J]. 草业学报, 31(1): 217-228. ]
-
EDGAR RC, 2004. MUSCLE: multiple sequence alignment with high accuracy and high throughput [J]. Nucl Acids Res, 32(5): 1792-1797.
-
FINN RD, MISTRY J, SCHUSTER-BÖCKLER B, et al. , 2006. Pfam: clans, web tools and services [J]. Nucl Acid Res, 34: D247-D251.
-
GÓMEZ-ANDURO G, CENICEROS-OJEDA EA, CASADOS-VZQUEZ LE, et al. , 2011. Genome-wide analysis of the beta-glucosidase gene family in maize (Zea mays L. var B73) [J]. Plant Mol Biol, 77(1/2): 159-183.
-
GUINDON S, GASCUEL O, 2003. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood [J]. Syst Biol, 52(5): 696-704.
-
HAN X, LI C, SUN S, et al. , 2022. The chromosome-level genome of female ginseng (Angelica sinensis) provides insights into molecular mechanisms and evolution of coumarin biosynthesis [J]. Plant J, 112(5): 1224-1237.
-
HUANG WJ, XU X, CHEN JS, et al. , 2021. Bioinformatics analysis and expression pattern of NAC transcription factor family of Angelica dahurica var. formosana from Sichuan Province [J]. Chin J Chin Mat Med, 46(7): 1769-1782. [黄文娟, 许鑫, 陈靳松, 等, 2021. 川白芷NAC家族的生物信息及表达模式分析 [J]. 中国中药杂志, 46(7): 1769-1782. ]
-
IORIZZO M, ELLISON S, SENALIK D, et al. , 2016. A high-quality carrot genome assembly provides new insights into carotenoid accumulation and asterid genome evolution [J]. Nat Genet, 48(6): 657-666.
-
JI Q, MA YH, ZHANG Y, 2020. Research progress on chemical constituents and pharmacological effects of Angelicae dahuricae radix [J]. Food Drug, 22(6): 509-514. [吉庆, 马宇衡, 张烨, 2020. 白芷的化学成分及药理作用研究进展 [J]. 食品与药品, 22(6): 509-514. ]
-
JIANG YJ, JIANG YM, YAO F, et al. , 2021. Bioinformatics analysis on the CONSTANS-like protein family in Angelica dahurica var. formosana [J]. Mol Plant Breed, 19(12): 3923-3931. [蒋翼杰, 江美彦, 姚菲, 等, 2021. 川白芷CONSTANS-like蛋白家族生物信息学分析 [J]. 分子植物育种, 19(12): 3923-3931. ]
-
KE DX, LIU YH, ZHANG JJ, et al. , 2019. Genome-wide identification and expression analysis of BGLU family genes in soybean [J]. J Xinyang Norm Univ(Nat Sci Ed), 32(3): 372-378. [柯丹霞, 刘永辉, 张静静, 等, 2019. 大豆BGLU基因家族全基因组鉴定与表达分析 [J]. 信阳师范学院学报(自然科学版), 32(3): 372-378. ]
-
KOREN S, WALENZ BP, BERLIN K, et al. , 2017. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation [J]. Genome Res, 27(5): 722-736.
-
KRISTOFFERSEN P, BRZOBOHATY B, HÖHFELD I, et al. , 2000. Developmental regulation of the maize Zm-p60. 1 gene encoding a beta-glucosidase located to plastids [J]. Planta, 210(3): 407-415.
-
LARKIN MA, BLACKSHIELDS G, BROWN NP, et al. , 2007. Clustal W and Clustal X version 2. 0 [J]. Bioinformatics, 23(21): 2947-2948.
-
LI B, ZHANG X, WANG J, et al. , 2014. Simultaneous characterisation of fifty coumarins from the roots of Angelica dahurica by off-line two-dimensional high-performance liquid chromatography coupled with electrospray ionisation tandem mass spectrometry [J]. Phytochem Analysis, 25(3): 229-240.
-
LI GS, CAO B, BAI CK, 2012. Correlation analysis between genome size and seed characteristics in poaceae plants [J]. Bull Bot Res, 32(6): 701-706. [李桂双, 曹博, 白成科, 2012. 禾本科植物基因组大小与种子特性的相关性分析 [J]. 植物研究, 32(6): 701-706. ]
-
LI L, STOECKERT CJ JR, ROOS DS, 2003. OrthoMCL: identification of ortholog groups for eukaryotic genomes [J]. Genome Res, 13(9): 2178-2189.
-
LIU Y, 2019. Studies on bacteriostatic mechanism of Angelica dahurica and excavation of key genes of coumarin biosynthesis [D]. Chengdu: Sichuan Agricultural University: 1-69. [刘洋, 2019. 川白芷抑菌机理研究及香豆素生物合成关键基因的挖掘 [D]. 成都: 四川农业大学: 1-69. ]
-
MANK JE, AVISE JC, 2006. Cladogenetic correlates of genomic expansions in the recent evolution of actinopterygian fishes [J]. Proceed Royal Soc B Biol Sci, 273(1582): 33-38.
-
NATIONAL PHARMACOPOEIA COMMISSION, 2020. Pharmacopoeia of People’s Republic of China: 1 [M]. Beijing: China Medical Science Press: 109-110. [国家药典委员会, 2020. 中华人民共和国药典: 一部 [M]. 北京: 中国医药科技出版社: 109-110. ]
-
OPASSIRI R, POMTHONG B, ONKOKSOONG T, et al. , 2006. Analysis of rice glycosyl hydrolase family 1 and expression of Os4bglu12 beta-glucosidase [J]. BMC Plant Biol, 6: 33.
-
SAMPEDRO J, VALDIVIA ER, FRAGA P, et al. , 2017. Soluble and membrane-bound β-glucosidases are involved in trimming the xyloglucan backbone [J]. Plant Physiol, 173(2): 1017-1030.
-
SENOL CD, KIM JS, GHOSE S, et al. , 2019. Nanopore sequencing technology and tools for genome assembly: computational analysis of the current state, bottlenecks and future directions [J]. Brief Bioinform, 20(4): 1542-1559.
-
SHA LP, 2018. Examples of CTAB method, SDS method and salting-out method for crude extraction of plant DNA [J]. Teach Middle Sch Biol, 21: 65-67. [沙丽萍, 2018. 例谈植物DNA粗提取的CTAB法、SDS法与盐析法 [J]. 中学生物教学, 21: 65-67. ]
-
SHAO C, LI YQ, LUO A, et al. , 2021. Relationship between functional traits and genome size variation of angiosperms with different life forms [J]. Biodivers Sci, 29(5): 575-585. [邵晨, 李耀琪, 罗奥, 等, 2021. 不同生活型被子植物功能性状与基因组大小的关系 [J]. 生物多样性, 29(5): 575-585. ]
-
SIMÃO FA, WATERHOUSE RM, IOANNIDIS P, et al. , 2015. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs [J]. Bioinformatics, 31(19): 3210-3212.
-
SONG X, WANG J, LI N, et al. , 2020. Deciphering the high-quality genome sequence of coriander that causes controversial feelings [J]. Plant Biotechnol J, 18(6): 1444-1456.
-
SONG X, SUN P, YUAN J, et al. , 2021. The celery genome sequence reveals sequential paleo-polyploidizations, karyotype evolution and resistance gene reduction in apiales [J]. Plant Biotechnol J, 19(4): 731-744.
-
SUN HH, XUE YM, LIN YF, 2014. Enhanced catalytic efficiency in quercetin-4-glucoside hydrolysis of Thermotoga maritima β-glucosidase A by site-directed mutagenesis [J]. J Agric Food Chem, 62(28): 6763-6770.
-
VENUGOPALA KN, RASHMI V, ODHAV B, 2013. Review on natural coumarin lead compounds for their pharmacological activity [J]. Biomed Res Int, 2013: 963248.
-
WANG R, LIU J, YANG DY, et al. , 2020. Research progress in chemical constituents and pharmacological action of Angelica dahurica [J]. Inf Trad Chin Med, 37(2): 123-128. [王蕊, 刘军, 杨大宇, 等, 2020. 白芷化学成分与药理作用研究进展 [J]. 中医药信息, 37(2): 123-128. ]WANG RX, SONG J, SUN B, et al. , 2022. Research progress of function and biosynthesis of coumarins [J]. Chin Biotechnol, 42(12): 79-90. [王荣香, 宋佳, 孙博, 等, 2022. 香豆素类化合物功能及生物合成研究进展 [J]. 中国生物工程杂志, 42(12): 79-90. ]
-
WANG Z, JIAN X, ZHAO Y, et al. , 2020. Functional characterization of cinnamate 4-hydroxylase from Helianthus annuus Linn using a fusion protein method [J]. Gene, 758: 144950.
-
WILKINS MR, GASTEIGER E, BAIROCH A, et al. , 1999. Protein identification and analysis tools in the ExPASy server [J]. Meth Mol B, 112: 531-552.
-
WU F, DUAN Z, XU P, et al. , 2022. Genome and systems biology of Melilotus albus provides insights into coumarins biosynthesis [J]. Plant Biotechnol J, 20(3): 592-609.
-
WU F, 2021. Study on whole genome sequencing and functional genes of key traits in Cleistogenes songorica and Melilotus albus [D]. Lanzhou: Lanzhou University: 1-185. [吴凡, 2021. 无芒隐子草和白花草木樨全基因组及其关键性状相关功能基因研究 [D]. 兰州: 兰州大学: 1-185. ]
-
WU P, GUO JX, WANG XY, et al. , 2020. High-throughput transcriptome sequencing of roots of Angelica dahurica and data analyses [J]. Mol Plant Breed, 18(10): 3207-3216. [吴萍, 郭俊霞, 王晓宇, 等, 2020. 基于高通量测序技术的杭白芷(Angelica dahurica)根转录组数据分析 [J]. 分子植物育种, 18(10): 3207-3216. ]
-
XU Z, WANG H, 2007. LTR_FINDER: an efficient tool for the prediction of full-length LTR retrotransposons [J]. Nucl Acid Res, 35: W265-W268.
-
YANG J, MA L, JIANG W, et al. , 2021. Comprehensive identification and characterization of abiotic stress and hormone responsive glycosyl hydrolase family 1 genes in Medicago truncatula [J]. Plant Physiol Biochem, 158: 21-33.
-
YAO F, JIANG MY, YANG YS, et al. , 2022. Bioinformatics and expression analysis on MYB-related family in Angelicae dahuricae var. formosana [J]. Chin J Chin Mat Med, 47(7): 1831-1846. [姚菲, 江美彦, 杨云舒, 等, 2022. 川白芷MYB-related家族的生物信息及表达模式分析 [J]. 中国中药杂志, 47(7): 1831-1846. ]
-
YU KP, PENG C, LIN YL, et al. , 2023. Expression of β-glucosidase An-bgl3 from Aspergillus niger for conversion of scopoline [J]. Chin J Biotechnol, 39(3): 1232-1246. [于坤朋, 彭程, 林燕玲等, 2023. 黑曲霉β-葡萄糖苷酶An-bgl3的重组表达及东莨菪苷的转化 [J]. 生物工程学报, 39(3): 1232-1246. ]
-
YU J, ZHU YH, 2014. Summary of the application of Angelica dahurica in ancient prescription [J]. Heilongjiang Med J, 27(1): 156-158. [于静, 朱艳华, 2014. 中药白芷在古方中美白作用的应用概述 [J]. 黑龙江医药, 27(1): 156-158. ]
-
ZHANG F, REN J, ZHAN J, 2021. Identification and characterization of an efficient phenylalanine ammonia-lyase from Photorhabdus luminescens [J]. Appl Biochem Biotechnol, 193(4): 1099-1115.
-
ZHANG M, WANG ZC, LIU ZW, et al. , 2023. Genome-wide identification and analysis of BGLU genes family in Gossypium hirsutum [J]. J Agric Sci Technol, 25(2): 48-59. [张曼, 王志城, 刘正文, 等, 2023. 陆地棉BGLU基因家族成员的全基因组鉴定与表达分析 [J]. 中国农业科技导报, 25(2): 48-59. ]
-
ZHAO H, FENG YL, WANG M, et al. , 2022. The Angelica dahurica: a review of traditional uses, phytochemistry and pharmacology [J]. Front Pharmacol, 13: 896637.
-
摘要
白芷为常用的药食同源物种,既是临床常用中药,又是香料,用途十分广泛。为获取白芷全基因组序列信息,该研究首次以杭白芷叶片DNA为材料,采用 Nanopore 测序技术构建杭白芷全基因组数据库,并利用生物信息学方法对获得的核苷酸序列进行组装、功能注释以及进化分析研究。结果表明:(1)原始测序数据过滤后获得662 Gb三代数据,Read N50约为32932 bp,经过组装得到杭白芷基因组大小为5.6 Gb,Contig N50 约为806638 bp。(2)组装后的序列通过与 KOG、GO、KEGG 等功能数据库比对,得到了功能注释的基因占66.47%,KOG功能注释结果表明杭白芷的蛋白功能主要集中在一般功能预测、翻译后修饰、蛋白质转换、伴侣以及信号转导机制;GO功能分类表明杭白芷的基因集中在生物学过程及细胞组分;KEGG通路注释表明参与代谢途径的基因占主要地位。(3)杭白芷中鉴定到45个BGLU家族基因。该研究首次利用第三代测序技术对杭白芷全基因组进行解析,为杭白芷的系统生物学研究和BGLU在杭白芷生长发育中的后续功能研究提供了重要的理论参考。
Abstract
Angelica dahurica is a common species of medicine and food homology, which is not only a common clinical traditional Chinese medicine, but also a spice, with a wide range of uses. In order to obtain the whole genome sequence information of A. dahurica, we used A. dahurica var. formosana leaf DNA as material, and the Nanopore sequencing technology was used to establish its nucleotide sequences database, then genome assembly, function annotation and evolution analysis were carried out by bioinformatic methods. The results were as follows:(1) A total of 662 Gb of the third-generation data were obtained after fittering the original sequencing data, with the Read N50 about 32932 bp. The assembled A. dahurica genome size was 5.6 Gb, Contig N50 was about 806638 bp. (2) The genes were with gene annotations accounted for 66.47% after being compared with functional databases such as NR, KOG and KEGG. The result of KOG gene annotation was that the protein function of A. dahurica concentrated in the general functional prediction, posttranslational modification, protein turnover, chaperones and signal transduction mechanisms. GO functional classification indicated that the genes of A. dahurica concentrated on cell biological processes and components. KEGG analysis found that the A. dahurica genes mostly involved in metabolic pathways. (3) And 45 genes of BGLU family were identified in A. dahurica. In this study, the whole genome of A. dahurica is resolved by the third-generation sequencing technology for the first time, which provides important theoretical references for the systematic biological study and the further study of the function of BGLU in the growth and development of A. dahurica.