热门推荐
KEGG在线数据库使用攻略
2024-10-31 20:51

  

KEGG在线数据库使用攻略

KEGG简介

KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其关注的代谢途径有直观全面的了解。

ko:表示通路,这个通路是不分物种的,相当于所有物种某一通路的并集。

KO(KEGG Orthology):是KEGG中一个“专有名词”,表征一个基因。KO作为ko通路中的基本单位,它是蛋白质(酶)的一个分类体系。通常序列高度相似且在同一通路中具有相似功能的蛋白质被归为一组,即一个KO。

下面来聊聊小美感受到的KEGG百科特色吧~

“(*@ο@*) 哇~十几个子数据库、各种查询方法,最最重要的是有这么多的在线分析工具,简直太nice了!”这是小美第一次登陆KEGG的感受,瞬间路转粉的节奏啊。

但高兴不过10秒,“/(ㄒoㄒ)/~这么多东西,谁来告诉我该从哪下手啊!”

不用担心,经过老老实实的在KEGG里“点点点”后,小美也算摸索出了些门道,今天就对大家倾囊相授吧!

---------------此处应该有“歌”声-------------

01

这里KEGG的最优打开方式

打开网址 http://www.genome.jp/kegg/kegg2.html(复制这一串网址,粘贴到任意浏览器的地址栏中,敲击回车键即可,下同),首先映入眼帘的就是下面这个界面:

KEGG - Table of Contents功能简介:

① 以分类列表的形式介绍了KEGG所包含各个内容模块,其中蓝色的字体可以直接点击进入以获取更为详细的各模块相关内容介绍;

② 拥有全局性检索框,在检索框内输入关键词,即可查询KEGG中与关键词相关的Pathway(通路)、Module (模块)、Orthology(直系同源)和Genome(基因组)、Genes(基因)和Enzyme(酶)等诸多信息;如有特殊需求,也可以进行个性化筛选,比如仅搜索与关键词相关的Module信息。


02

KEGG数据库如此繁杂,关系如何理

打开另一网址 http://www.genome.jp/linkdb/linkdb.html ,将看见这个界面:

linkDB: database of link information功能简介:

linkDB解析了KEGG数据库内部数据的流通以及和其它数据库的联系。若是需要了解具体某个数据库(如 :Pathway)的来源,直接点击上图下方的Pathway即可高亮显示该数据库数据来源相关的各类数据库名称。此外,还可以直接下载数据库与数据库间的编号对应关系哦!


03

如何利用KEGG完成数据挖掘?

问题:我想做类似下面文献中的两张图?



解决:嗯...从上图来看的话,首要任务就是收集氮代谢(Nitrogen metabolism)相关的数据信息啊,那怎么搜呢?

完全不用担心,用KEGG分分钟就能get!

步骤如下(查找方式多种,此处我们以上面介绍的“KEGG最优打开方式”为例进行演示):

①最优方式打开KEGG数据库,Search栏直接输入“Nitrogen”再回车,将会检索到KEGG中与氮代谢相关的各类信息,其中KEGG PATHWAY下的map00910就是我们要查找的关键信息:


②点击上一步中的“map00910”,将出现如下图所展示的氮代谢相关内容的精细描述,此外下图右侧的“All links”栏还给出了诸如:有7个相关Module,2个疾病相关内容,还有我们需要get的60个氮相关基因KEGG ORTHOLOGY(KO)等索引信息。

③点开上图右侧“All links”中Gene类型中的KEGG Orthology (60),将出现如下图所示的60个参与氮代谢的KO号。


④最后,从我们自己的KEGG注释结果中挑出相关的KO或Gene和Module等信息作为输入数据,就可以去分析作图了(比如上面的Heatmap、重构代谢通路图)。

高大上分析四步走完,有木有很简单!


04

其它KEGG在线工具如何使用?

使用最优方式打开KEGG数据库,可以发现KEGG数据库还提供多种其它在线分析工具:

今天先给大家介绍上图中2种比较炫酷的工具,其它工具可根据个人需求自行学习哟!

利用Search & Color Pathway在线工具可DIY通路图中的基因(KO)或其它信息(如文字)的背景填充色,具体操作界面、输入参数设置和步骤可参考下图:


点击“Exec”按钮后,呈现的结果如下:


一种在线KEGG注释方法,具体操作界面、输入参数设置和步骤可参考下图:

输入个人邮箱地址(确认任务提交是否成功),点击“Request for email /confirm/iation”按钮后,呈现的结果如下:


好啦,KEGG的内容实在是太多啦,短时间是没法讲完的,小美今天的分享就做到这里啦!不知道各位通过小编这简洁的介绍有没有感受到KEGG的“百科特色 ”呢?

 

以下文章来源于基因的生物信息学分析 ,作者mikki

基因的生物信息学分析

《基因的生物信息学分析》借助高通量测序和生物信息学分析,解码生物基因组,揭示生命奥秘。

KEGG数据库,即京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes),是系统分析基因功能、基因组信息的数据库。

KofamKOALA是一个方便的KEGG功能注释工具,由创建KEGG的京都大学化研所生物信息中心学者在2019年11月发表于Bioinformatics。

以隐马尔科夫模型(HMM)创建的KOfam来进行蛋白序列同源搜索,其准确性可与性能最佳的工具相媲美, 有网页和Linux两个版本,本文重点介绍Linux版的安装与使用。

网址 https://www.genome.jp/tools/kofamkoala/

avatar

网页填入蛋白序列信息,设值E值和留下邮箱点击Compute,只需要等待邮箱回复

Linux版本的KofamKOALA 需要下载 KOfam(数据库)和 KofamScan(软件),软件依赖Ruby,HMMER和GNU Parallel(事先没有安装可以看以下教程)

安装

我们以kofamscan安装在主目录$HOME(或者叫~)下为例介绍:

step1

下载和解压 KOfam 和 KofamScan


step2

下载 Ruby  HMMER  GNU Parallel

cd ~/kofamscan mkdir ruby hmmer parallel src cd src# Ruby版本应不小于2.4,这里演示的是2.7版;HMMER应大于3.1,这里是3.3;Parallel为最新版wget https://cache.ruby-lang.org/pub/ruby/2.7/ruby-2.7.0.tar.gzwget http://eddylab.org/software/hmmer/hmmer-3.3.tar.gzwget ftp://ftp.gnu.org/gnu/parallel/parallel-latest.tar.bz2

安装 Ruby


安装 HMMER


安装 GNU Parallel


将Ruby路径加入环境变量(之后执行如果报错可能是ruby的问题,推荐ruby按照本文方法安装)

export PATH=$HOME/kofamscan/ruby/bin:$PATH

step3

复制config-template.yml文件并重命名为config.yml


cat config.yml文件,内容如下:


我们需要在config.yml添加键值,以便ruby识别读取.

可以vim编辑加入以下内容到config.yml,注意绝对路径.


如:


若hummsearch和parallel可安装在其他地方改为相关路径

现在可以使用了,我们准备蛋白序列fasta文件(注意必须是蛋白序列,不支持核酸序列)

https://www.bilibili.com/read/cv6448374/exec_annotation -o result.txt query.fasta

如我在~/kofamscan/test/文件夹下有samples.fasta文件,定义输出文件为res.txt


运行完毕后的输出文件:


若报错可能是ruby的路径不在首选环境变量,可执行:

export PATH=$HOME/kofamscan/ruby/bin:$PATH

查看全部参数: 


参考 :

https://www.genome.jp/tools/kofamkoala/

    以上就是本篇文章【KEGG在线数据库使用攻略】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/2385.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多