Page 40 - 《广西植物》2021年第8期
P. 40
ϟ ጢ ࿗ 广জ 西জ 植জ 物 ࿗ϟ 卷
ྉ̀ᆍቝᆍᆍ੫ɯ两种原理对厚朴基因组进行基因预测ᖔ 基因组特有的基因家族ᤥ 先利用 ᨃʢᡷၤᆍᥘऊᓂ 聚类的
并对预测结果进行评估ᤥ 首先ᖔ使用 ᥈ᔀႿ༁ዹᑕႿྉାࣼʢ੫ᔀ 结果提取单拷贝蛋白序列ᖔ再将单拷贝蛋白序列使
᪲ ᑕʢᔽႿᖔ ϟँँᎮɯܦ ዶࣼ੫ࣼ༁ᡷࣼ༁ ࿗ ྉ ୩ᡷᑕႿҴᔀ ᪲ ۼᑕᑕዹҴᖔ 用 ᥘࣼ༁ዹᔀ ྉ ၤᡷᡷᡱ᧥ᣰ ᣰ औऔऔ ᔀᤦᔽ ᑕዹ ࣼҴ ᣰ ఋᆍᆍ༁ᣰ ቝ༁ᑕ ᣰ
ԡԡሕɯܦ᥈ᔽቝቝᔀʢ̀ᥘᥘ ሕԡ࿗ྉ ᥘᑕᢼᆍʢᆍ༁ ᔀᡷ ᑕᖔԡԡ࿗ɯܦ ቝࣼ༁ዹᔀ ᣰ ɯ软件进行序列比对ᖔ使用 ۪̀ɟᥘᓂྉ୩ᡷŀᡱၤᑕႿᔀ
᥈ᔀႿᔀ᧧᧕ ϟ ࿗ ྉ ାᑕႿዹᆍ ᔀᡷ ᑕᖔ ԡԡᎮɯܦ ୩શዶ۪ ྉ ᔀʢ༁ᔽᆍႿ ᔀᡷ ᑕᖔԡϟԡɯ 软件ྉ 参数᧥ ͱ੫ᑕᡱᑕᡷᔽᆍ ԡጢᖔ ͱᤦᑕʛᑕᡷᔽᆍ
ԡԡᤃͱԡᎮͱऐɯ ྉାᑕႿዹᆍ ᔀᡷ ᑕᖔԡԡᎮɯ 进行从头预测ଫ ԡጢᖔ ͱቝᆍʛᔀ ̀ɟ ऐጢᖔ ͱᤦᆍᆍᡷ༁ᡷʢᑕᡱ ϟ ԡԡԡɯ 通过 ᥘᓂ
然后ᖔ使用 ᥈ᔀᥘᆍᥘᑕ ϟሕϟྉȮᔀႿ༁ ᔀᡷ ᑕᖔԡϟᤃɯ进行基 ྉ最大似然法ɯ 构建进化树ᖔ研究物种间的进化关
于同源物种的预测ଫ最后ᖔ利用 ጶᥘ ϟϟϟ 整合上 系ᤥ 利用 ఋᔽቝᔀᡷʢᔀᔀྉ ၤᡷᡷᡱ᧥ᣰ ᣰ औऔऔ ᡷᔽቝᔀᡷʢᔀᔀ ᆍʢ੫ ᣰ ɯ 查询
述方法得到的预测结果ᤥ 同时针对非编码 શዶ 预 已有 物 种之间的化石时间ᖔ 并通过 ቝዹቝዹᡷʢᔀᔀ
测ᖔ包括了 ቝᔽዹʢᆍશዶܦʢશዶ 及 ᡷશዶ 等已知功能的 ྉၤᡷᡷᡱ᧥ᣰ ᣰ ᑕᤦᑕዹࣼ༁ ੫ᔀႿᔀ ࣼዹ ᑕዹ ࣼҴ ᣰ ༁ᆍᡷऔᑕʢᔀ ᣰ ᡱᑕቝ ၤᡷቝɯ
શዶᖔ分别基于 ᑕቝྉ᥈ʢᔽᔽᡷၤ༁ᢼᆍႿᔀ༁ ᔀᡷ ᑕᖔԡԡጢɯ数据 估算出物种间的分化时间ᤥ 采用 ᥘऊ୩ዹᑕႿᣮྉۼᑕႿ੫ ᔀᡷ
库和 ቝᔽାᑕ༁ᔀྉ᥈ʢᔽᔽᡷၤ༁ᢼᆍႿᔀ༁ ᔀᡷ ᑕᖔԡԡᤃɯ数据库并利 ᑕᖔԡϟɯ软件分别对自身ྉ参数᧥ͱ༁ϟԡ ᖔͱᤦϟᖔ 其他
用 ᧧ႿᔀႿᑕ ϟϟྉશᑕऔʢᆍዹҴᔽ ᪲ ጶʛʛᢃᖔԡϟሕɯ进行 ʢશዶ 和 参 数默认 ɯ 及与近缘物种牛 樟 ྉ ࣷᔠႥႥᐹቂᅳቂࣩቂ
ቝᔽዹʢᆍશዶ 预测ଫ利用 ᡷશዶ༁ዹᑕႿ᥋୩ጶ ϟሕϟ ྉ ၤᡷᡷᡱ᧥ᣰ ᣰ ҧᐹႥᓣ၊ᔠʗᐹᓣɯྉ参数᧥ͱ༁ϟԡ ᖔͱᤦᖔ 其他参数默认ɯ基因
ᆍऔᔀᑕᤦ ࣼዹ༁ዹ ᔀʛࣼ ᣰ ᡷશዶ༁ዹᑕႿ᥋୩ጶ ᣰ ɯ ྉ ᓂᆍऔᔀ ᪲ ጶʛʛᢃᖔ 组做共线性分析ᖔ统计相应的共线性基因数目和共
ϟँँᎮɯ识别 ᡷશዶᤥ 线性区块ྉାᆍዹҴɯ数目ᤥ
ϓॹጇ 功能基因注释
对预测得到的基因序列与 શྉશᆍႿ᥋ᔀʛࣼႿʛᑕႿᡷ জ 结果与分析
۪ʢᆍᡷᔀᔽႿ ᧕ᑕᡷᑕᤦᑕ༁ᔀɯྉዶʢᆍႿ ᔀᡷ ᑕᖔԡϟϟɯܦᨃ᥈ྉጶࣼᑕʢᢃᆍᡷᔽዹ
ᨃʢᡷၤᆍᆍ੫ᆍࣼ༁ ᥈ʢᆍࣼᡱ༁ɯ ྉ ఋᑕᡷࣼ༁ᆍ ᔀᡷ ᑕᖔ ԡԡϟɯܦ ጶ᥈᥈ ԣॹϓ 基因组测序
ྉᢃᆍᡷᆍ ጶႿዹᢃዹᆍᡱᔀʛᔽᑕ ᆍ ᥈ᔀႿᔀ༁ ᑕႿʛ ᥈ᔀႿᆍቝᔀ༁ɯ ྉᥘᔽႿᆍʢࣼ 通过三代测序平台对厚朴叶片进行全基因组
᪲ ୩ࣼ༁ࣼቝࣼᖔԡԡԡɯܦఋʢጶᥘାᓂྉାᆍᔀዹҴቝᑕႿႿ ᔀᡷ ᑕᖔԡԡሕɯ等 测序ᖔ对原始数据的 ʢᔀᑕʛ༁ 质量值进行初步过滤ᖔ
功能数据库做 ାᓂዶ୩ఋ ሕϟྉዶᡷ༁ዹၤࣼ ᔀᡷ ᑕᖔϟँँԡɯ比 去掉低质量和短片段的 ʢᔀᑕʛ༁ᖔ统计得到 ϟ࿗ԡँϟ ᥈ᤦ
对ྉ设置比对筛选阈值 ᔀͱᑕࣼᔀጐϟᔀͱጢɯᖔ得到基因功 三代原始数据ᖔᔀᑕʛ શጢԡ 为 ϟሕ Ꭾऐ࿗ ᤦᡱᖔ最长 ʢᔀᑕʛ༁
能注 释ᤥ 基于 શ 数据库比对结果ᖔ 应用软件 的长度为 ϟऐ ࿗ँ ᤦᡱᖔ平均长度为 ऐ ᤃጢ࿗ ᤦᡱᖔ测序
ାᑕ༁ᡷ᥈ᨃྉऊᆍႿᔀ༁ᑕ ᔀᡷ ᑕᖔԡԡጢɯ 进行 ᥈ᨃྉ ᧕ᔽቝቝᔀʢ ᔀᡷ 质量符合后续组装要求ᤥ
ᑕᖔԡϟɯ数据库的功能注释ᤥ ԣॹԣ 基因组组装及评估
ϓॹᣤ 比较基因组学分析 借助 ऊᑕႿࣼ 软件对厚朴的初步组装结果见表
拟南 芥 ྉ ዛʗᐹᤇᔠʐᅳᡓᔠ ᡙ၊ᐹᤀᔠᐹႥᐹ ɯܦ 水稻 ྉ ᧣ʗᡥऊᐹ ϟᖔ初步组装的序列经过 ̀ᔽͱऊ 纠错组装后基因组
ᐹᡙᔠצᐹɯܦ杨树 ྉ ۗᅳᡓࣩᤀࣩ ᡙʗᔠዞ၊ᅳዞᐹʗᡓᐹɯܦ 银杏 ྉ ᤩᔠႥҧᅳ 大小约为 ϟᤃऐ ᥈ᤦᖔऊᆍႿᡷᔽ੫ શጢԡ 为 ԡᤃँ ᤦᡱᖔ最长
ᤇᔠᤀᅳᤇᐹ ɯܦ 无油樟 ྉ ዛቂᤇᅳʗᓣᤀᤀᐹ ᡙʗᔠዞ၊ᅳᡓᅳʐᐹ ɯܦ 茶树 的 ऊᆍႿᡷᔽ੫ 为 Ꭾԡԡ ԡሕ ᤦᡱᖔ ᥈ऊ 含量为 ࿗ԡ ᤃጢᠮᤥ
ྉ ࣷᐹቂᓣᤀᤀᔠᐹ ᔠႥᓣႥᔠ ɯܦ 牛 樟 ྉ ࣷᔠႥႥᐹቂᅳቂࣩቂ ̀ᔽͱऊ组装后其中共有 ϟᤃᎮ ᥈ᤦ 的序列长度的基因
ҧᐹႥᓣ၊ᔠʗᐹᓣɯ 的蛋白序列比对 ྉશऊା᧧ 数据 库 组序列被定位到 ϟँ 条染色体上ᖔ占比 ँँᤃᤃᠮᖔ而
ၤᡷᡷᡱ༁᧥ ᣰ ᣰ औऔऔႿዹᤦᔽႿቝႿᔽၤ੫ᆍ ᣰ ɯᖔ基于序列比对结 对应的序列数目为 ϟϟ ࿗Ꭾԡ 条ᖔ占比 ँँԡᠮᤥ 在定
果ᖔ对已知基因的序列和结构进行比较ᖔ分析物种 位到染色体上的序列中ᖔ能够确定顺序和方向序
间的进化以及物种特有基因的分类ᤥ 列长度为 ϟጢሕ ᥈ᤦᖔ占定位染色体序列总长度的
使用 ᨃʢᡷၤᆍᥘऊᓂ ྉ ᓂᔽᔀᡷᑕᖔ ԡԡሕɯ 软件 ྉ 参数᧥ ँϟϟᠮᖔ对应的序列数目为 ऐ ᤃऐँ 条ᖔ占定位染色
۪ᔀᡱᡸᔀႿ੫ᡷၤ᧥ ϟԡᖔ ୩ᡷᆍᡱᡸዹᆍʛᔀႿ᧥ ԡᖔ ۪ᔀʢዹᔀႿᡷᥘᑕᡷዹၤऊࣼᡷᆍ᧥ 体序列总数目的 ᎮጢᎮጢᠮᤥ
ጢԡᖔ ጶᑕࣼᔀጶᡱᆍႿᔀႿᡷऊࣼᡷᆍ᧥ ͱጢᖔ ᥘዹ᧥ ϟጢ ᖛϟͱ࿗ԡɯ对 组装后的基因组采用 ାВ୩ऊᨃ 软件评估ᖔ在组
上述 ँ 个物种的蛋白序列进行家族分类ᖔ寻找厚朴 装的基因中共找到 ϟ ሕँϟ 个完整的 ାВ୩ऊᨃ 基因ᖔ