linux下pfam使用方法,使用pfam-scan进行预测

一、安装

使用conda安装Pfam_scan

$ conda create -n pfam_scan ##可新建一个环境，用于安装pfam-scan

$ source activate pfam_scan

$ conda install pfam_scan

pfam_scan依赖bioperl，因此，通过conda安装简单快捷.

安装hmmer3 , 使用以下命令安装：

$ wget http://eddylab.org/software/hmmer/hmmer-3.2.tar.gz

$ tar -xzvf hmmer-3.2.1.tar.gz

$ cd hmmer-3.2

$ ./configure

$ make

$ make check

$ make install

# 添加至环境变量

vim ~/.bashrc

export PATH=/usr/local/bin:$PATH

# 环境变量立即生效

source ~/.bashrc

最新版的Pfam数据库不再有Pfam-B了。

wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/Pfam-A.hmm.gz

wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/Pfam-A.hmm.dat.gz

wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/active_site.dat.gz

gunzip *.gz

通过hmmerspress来把下载的数据建库：

$ hmmpress Pfam-A.hmm

二、软件使用

参数说明：

-dir ： Pfam_data_file_dir 包含Pfam数据文件的目录[必须]

-fasta ： fasta_file 包含序列的输入文件名 [必须]

-e_seq 序列E-value阈值 [不指定则使用默认阈值]

-e_dom 结构域E-value阈值 [不指定则使用默认阈值]

-b_seq 序列bit score阈值 [不指定则使用默认阈值]

-b_dom 结构域bit score阈值[不指定则使用默认阈值]

-align 在结果中显示比对片段 [默认关闭]

-as 预测Pfam-A数据库匹配的active sites[默认关闭]

-json [pretty] 输出结果使用JSON格式。例如指定值为[pretty]，则输出结果会使用"pretty" JSON格式输出 [默认关闭]

-cpu 并行工作的CPU数目 [默认全部]

-translate [mode] 将输入序列视为DNA，并在搜索前使用6框翻译的方法进行转换。如果翻译模式[mode]被指定，则必须为"all"或者"orf"。"all"表示完整翻译，包括终止子并且不产生单独的ORFs；"orf"表示只翻译和报告长度大于20的ORFs。

如果使用了翻译参数而没有指定翻译模式，则默认使用"orf"模式。[默认关闭]

例子

$ pfam_scan.pl -fasta ~/protein1.fa -dir ~/bio_softs/Pfam-A.hmm/ -outfile results_3.fa -as

三、结果格式

fb3bd3de1c38

image

pfamscan蛋白结构域部分分析结果说明如下:

1) seq_id：转录本ID+[0,1,2]，不存在于列表中的转录本为noncoding

2) hmm start：比对到结构域的起始位置

3) hmm end：比对到结构域的终止位置

4) hmm acc：比对到pfam结构域的ID

5) hmm name：pfam结构域名称

6) hmm length：pfam结构域的长度

7) bit score：比对打分分值

8) E-value：比对的E值，pfam结构域筛选的条件是: Evalue < 0.001

linux下pfam使用方法,使用pfam-scan进行预测

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复