NAR-2018-dbCAN2鉴定宏基因组CAZYome碳水化合物相关基因

NAR-2018-dbCAN2鉴定宏基因组CAZYome碳水化合物相关基因

2024-10-31 20:31

宏基因组数据分析中，经常会使用多种多样的数据库，如综述型的有NCBI非冗余核酸或蛋白序列库(NR)、KEGG、COG、eggNOG、RFAM等。专业型的数据库有CAZy(碳水化合物酶)、ARBD(抗生素抗性基因)、CARD、VFDB、PHI等众多数据库。同时基于这些数据库，又开发了很多软件、和在线服务器(web server)方便同行使用。

今天带大家来学习一下CAZy数据库的使用。这里推荐一个今年刚发表在核酸研究(IF>11)的webserver，方便大家鼠标点点，轻松完成宏基因组碳水化合物酶组学的注释。

之前精讲过一篇Science封面文章，如下：

3分和30分文章差距在哪里？

正文仅有3个主图，图2的宏基因组部分就围绕着碳水化合物代谢相关基因组(CAZYome)进行的研究。今天就带大家学习一下它是如何实现。

先回顾一下Science图2的主要结果。

实例解读

本图主要基于宏基因组测序碳水化合物代谢基因的种类、丰度进行分析，揭示哈扎人菌群功能周期的变化和与现代人的差别。

本图有8个子图分为5组，从5个不同的角度/主题进行说明。

图2. 哈扎人肠道菌群功能随季节周期循环

(A) 箱线图展示宏基因组基因Shannon多样性按季节变化和与现代人比较；

(B) PCA分析CAZYome表明哈扎人与现代间此类基因显著差异即为样品间主要差异;

(D) 几种CAZymes丰度在哈扎人中周期变化，以及与现代人比较

(E) 抗生素抗性基因多样性，哈扎人低于现代人，且存在季节周期变化

点评：宏基因组中从整体到类别，可分析的结果很多，但结果是用于服务科学问题和故事主线的。其中饮食的不同，主要影响碳水化合物的比例和组成，以及抗性基因的种类和丰度。因此选定好的逻辑出发点和故事主线是高水平文章的重点，这个别人很难帮你。但你有了好思路，找技术达人合作或与课题负责分析的朋友沟通，那是水到渠成和锦上添花的事，即使花费大量时间去美化都是值得的。当然也可自学差异箱线图绘制。

分析方法探索(顺藤摸瓜)

看完以上结果，我们会感觉工作很漂亮。但如何实现呢？这是一个大问题。我们接下来查找文章的方法。

Science文章，正常只有2-3页，大部分是结果，很少会有版面去描述方法。我们从文章主页下载的补充材料。有宏基因组分析方法描述如下：

宏基因组测序分析

使用DeconSeq去除人类基因组数据。32个HMP人作为对照同哈扎人相同方法分析。DynamicTrim对宏基因组数据质控，FragGeneScan鉴定编码基因。数据采用HUMAnN2分配至KEGG数据库。HMMER 3.0(45)使用dbCAN鉴定CAZymes(46)；使用ResFams鉴定抗生素抗性基因(47)，E-value < 1e-5。

S. R. Eddy, A new generation of homology search tools based on probabilistic inference. Genome Inform. 23, 205–211 (2009). http://hmmer.org/
Y. Yin, X. Mao, J. Yang, X. Chen, F. Mao, Y. Xu, dbCAN: A web resource for automated carbohydrate-active enzyme annotation. Nucleic Acids Res. 40, W445–451 (2012). http://cys.bios.niu.edu/dbCAN2/
M. K. Gibson, K. J. Forsberg, G. Dantas, Improved annotation of antibiotic resistance determinants reveals microbial resistomes cluster by ecology. ISME J. 9, 207–216 (2015). http://www.dantaslab.org/resfams

我们列出了与CAZymes相关分析的方法段落，发现是使用dbCAN工具的HMMER方法鉴定的CAZymes，分别对应了引文45和46。再阅读这两篇文章，找到相关软件和数据库的主页，发现了分析CAZymes的在线服务器dbCAN2，它整合了最新的数据库和三种方法，我们可以轻松在线完成分析。

文章：https://academic.oup.com/nar/article/46/W1/W95/4996582

dbCAN2于今年5月16日在线发表于《核酸研究》杂志(IF=11.561)，它是上文Science使用的dbCAN的升级版。知道为什么出2吗？第一版2012年出表至今已经引用571次了。

dbCAN2简介

网址：http://cys.bios.niu.edu/dbCAN2/

dbCAN2宏基因组服务器自动化碳水化合物酶注释。相关的网站有CAZy, CAT(过时)和Hotpep。

dbCAN2的分析的主要步骤如下：

可提交基因组或宏基因组序列fna文件。真核基因组请使用蛋白序列faa文件
自动化注释分三步
- 基于dbCAN CAZyme结构域HMM数据库，HMMER注释CAZYme结构域的边界
- DIAMOND注快速释blast比对CAZy数据库
- Hotpep基于PPR文库鉴定短保守motifs
提交faa + gff文件，服务器使用CGC-Finder可鉴定转录因子TF、转动蛋白和CAZyme基因簇(CGCs)。
结果可以可视化，如维恩图多方法比较。提供比对结果表格下载。

本服务器每年更新一次CAZy数据库。

主页上有5个菜单，分别主页简介(Home)、在线注释(Annotate)、下载本地版(Download)、帮助(Help)和联系作者(about us)

详细的教程可见帮助页。

在线分析

在线分析基本原理如上图。DNA进行预测蛋白。再进行三种方法(HMM, diamond, hotpep)的预测。

点击Annotate在线注释

下图以蛋白序列为例。核酸序列，软件还会利用Prodigal自动预测蛋白。

填写E-mail，任务完成时获得结果链接；
序列类型，可选fasta核酸或蛋白序列
工具选择。默认只选了HMMER，一般也够用了。可以再选diamond、hotpep和CGCFinder。
基因位置文件gff/bed格式(可选)，蛋白则不需要；
序列文件，少量可粘贴，大量则上传文件，要求小于100M。

点击Submit就等着收结果吧。运行完成见如下页面。即使关闭，会收到结果页的链接。

上面维恩图，是用三种注释方法结果的比较。下面为注释结果的总结，和每种方法的结果。可以下载结果表格。也可以查看每种方法比对结果的详细。

要想查看每种CAZy酶的注释，可以点击蓝色的链接，跳转CAZy官网查看。

基于注释的结果，对我们宏基因组基因丰度矩阵进行筛选，就可以进行CAZyome的分析了。是不是挺容易的。

本地软件和数据库下载

http://cys.bios.niu.edu/dbCAN2/download/

有本平台所有的软件和数据库，查看README.txt

碳水化合物蛋白数据库

CAZyDB.07312018.fa 蛋白序列520Mb，可以用diamond比对

序列名为GeneBankID，和分类

AWI06117.1|GT2

CAZyDB.07312018.fam-activities.txt 分类描述文件

AA10 AA10 (formerly CBM33) proteins are copper-dependent lytic polysaccharide monooxygenases (LPMOs); some proteins have been shown to act on chitin, others on cellulose;

CAZyDB.07312018.pr-with-ec.txt 基因对应酶学编号

AAC00570.1 GT1|2.4.1.195

HMM数据库

dbCAN-HMMdb-V7.txt HMM模型

dbCAN2具体的本地安装涉及较多软件和数据库的布置，有时间写个专门的文章进行讲解。本文讲的在线版分析可以满足大多数同行。

Smits, Samuel A., et al. “Seasonal cycling in the gut microbiome of the Hadza hunter-gatherers of Tanzania.” Science 357.6353 (2017): 802-806. http://science.sciencemag.org/content/357/6353/802
附件目录 http://science.sciencemag.org/content/suppl/2017/08/24/357.6353.802.DC1
补充方法 http://science.sciencemag.org/content/sci/suppl/2017/08/24/357.6353.802.DC1/aan4834_Smits_SM.pdf
附表1. 样品列表 http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/1/aan4834_Table_S1.csv
附表3. KEGG通路表 http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/2/aan4834_Table_S3.csv
附表4. KEGG Carbohydrate metabolism pathways http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/3/aan4834_Table_S4.csv
Zhang, Han, et al. “dbCAN2: a meta server for automated carbohydrate-active enzyme annotation.” Nucleic acids research (2018).
http://cys.bios.niu.edu/dbCAN2/

10000+: 菌群分析
宝宝与猫狗提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊肠道指挥大脑
系列教程：微生物组入门 Biostar 微生物组宏基因组
专业技能：生信宝典学术图表高分文章不可或缺的人
一文读懂：宏基因组寄生虫益处进化树
必备技能：提问搜索 Endnote
文献阅读热心肠 SemanticScholar Geenmedical
扩增子分析：图表解读分析流程统计绘图
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
在线工具：16S预测培养基生信绘图
科研经验：云笔记云协作公众号
编程模板: Shell R Perl
生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外2300+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

以上就是本篇文章【NAR-2018-dbCAN2鉴定宏基因组CAZYome碳水化合物相关基因】的全部内容了，欢迎阅览！文章地址：http://dfvalve.xrbh.cn/quote/1800.html
行业资讯企业新闻行情企业黄页同类资讯网站地图返回首页迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多