这篇文章将为大家详细讲解有关STRING数据库有什么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
研究蛋白之间的相互作用网络,有助于挖掘核心的调控基因,目前已经有很多的蛋白质相互作用的数据库,而string绝对是其中覆盖的物种最多,相互作用信息做大的一个,网址如下
https://string-db.org/
该数据库的最新版本为version 10.5, 更新于2017年5月14号,存储了2031个物种,9643763种蛋白,共1380838440个相互作用的信息。
通过官网提供的SEARCH
功能,可以方便的检索该数据库,示意图如下
可以利用蛋白的名称,序列等多种格式进行检索,需要注意的是,这里虽然显示的是按照蛋白名称检索,其实你输入基因sysmbol 也是可以的。
对于单个蛋白进行检索,会给出于该蛋白相互作用的所有蛋白构成的网络,该功能更适用于对某个蛋白的相互作用进行探究,而一次输入多个蛋白,只会给出输入的蛋白之间的相互作用网络,更适用于挖掘输入的蛋白之间的相互作用,比如输入转录组数据鉴定到的所有差异基因,分析这些差异基因之间的相互作用。
检索完成之后,会得到如下所示的结果
上述的网络我们就称之为蛋白质相互作用网络,protein-protein interaction network, 即PPI网络。要看懂上面这张图,需要理解以下两个方面
1. 节点node)
图中每个节点表示一个蛋白,由于真核生物的可变剪切和转录后修饰,1个蛋白编码基因可能会产生多个蛋白,这里将由同一个基因产生的不同isoform进行了合并,在节点上标记的字母实际为对应基因的gene symbol。
图中有些节点内部有螺旋状的结构,这表示该蛋白的三维结构已知,如果未知的话,节点内部为空。
默认情况下节点的颜色分成红色和白色,红色代表是你的查询蛋白,白色代表与查询蛋白具有相互作用关系的其他蛋白。由于白色不太好看,string会根据与相互作用的score值对颜色进行映射。在Legend
页面,可以看到每个蛋白的颜色和对应的score值,示意图如下
2. 边(edge)
节点之间的连线表示两个蛋白之间的相互作用,不同颜色对应不同的相互作用类型,示意如下
从图中可以看到,两个蛋白之间的连线不止一条,这表示两个蛋白间存在多种相互作用关系。所有的相互关系中,既有实验验证的,也有数据预测的结果,所以看上去连线很多,非常复杂,这个可以通过结果页面的Settings
进行设置,只展示你感兴趣的相互作用类型,示意图如下
在Analysis
页面,对于蛋白质相互作用网络中的基因,提供了GO和KEGG富集分析的结果,示意如下
在Exports
页面,可以导出相互作用网络的图片,支持PNG, SVG格式,也可以导出对应的相互作用表格和蛋白序列,注释等信息,示意如下
对于一个包含许多节点的蛋白质相互网络,还可以通过Cluster
页面来挖掘其中的子网sub network, 或者也可以称之为module, 本质上是对基因进行聚类,属于同一类的基因所构成的相互作用网络就是一个module, 示意如下
支持kmeans
和MCL
聚类,聚类的结果为TSV
格式,从中可以看出哪些基因属于同一类。
STRING数据库提供了下载功能,由于整个数据库非常大,所以可以选择一个物种,然后下载该物种对应的数据,示意如下