本文小编为大家详细介绍“R语言的ssGSEA.r怎么使用”,内容详细,步骤清晰,细节处理妥当,希望这篇“R语言的ssGSEA.r怎么使用”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。
ssGSEA.r 单样本基因集富集分析
使用方法:
$Rscript ../scripts/ssGSEA.r -h usage: ../scripts/ssGSEA.r [-h] -i expset -g geneset [-o outdir] [-p prefix] ssGSEA免疫侵润分析 optional arguments: -h, --help show this help message and exit -i expset, --expset expset input gene expression set matrix from RNA-seq data csv format [required] -g geneset, --geneset geneset input gene set database [required] -o outdir, --outdir outdir output file directory [default cwd] -p prefix, --prefix prefix output file name prefix [default demo]
参数说明:
-i 基因表达量 , 建议用TPM标准化之后的数据:
ID | TCGA-D7-A74A-01A-11R-A32D-31 | TCGA-BR-7704-01A-11R-2055-13 | TCGA-VQ-A91N-01A-11R-A414-31 | TCGA-CD-A4MH-01A-11R-A251-31 |
NUP50 | 18.65505 | 31.59232 | 28.23382 | 28.76485 |
CXCR4 | 64.85805 | 125.123 | 56.35244 | 69.98976 |
NT5E | 111.4818 | 69.8587 | 79.37382 | 25.05824 |
EFNA3 | 8.247857 | 42.03308 | 43.46432 | 26.66024 |
STC1 | 4.781111 | 21.36327 | 40.81077 | 19.51568 |
ZBTB7A | 95.51678 | 103.4768 | 158.3024 | 126.2677 |
CLDN9 | 1.187456 | 2.476138 | 0.366081 | 7.347344 |
-g 基因集 两列数据,第一列细胞类型,第二列为基因
CellType | Symbol |
B cells | MS4A1 |
B cells | TCL1A |
B cells | MS4A1 |
B cells | TCL1A |
B cells | HLA-DOB |
B cells | PNOC |
B cells | KIAA0125 |
B cells | CD19 |
B cells | CR2 |
B cells | IGHG1 |
B cells | FCRL2 |
B cells | BLK |
B cells | IGHG1 |
B cells | COCH |
B cells | OSBPL10 |
B cells | IGHA1 |
B cells | TNFRSF17 |
B cells | ABCB4 |
B cells | BLNK |
结果说明:
得到每一个样本的不同基因集中的NES值:
NES值:用最大值与最小值间的绝对差对ssGSEA分数进行标准化。
cell_type | TCGA-B7-A5TK-01A-12R-A36D-31 | TCGA-BR-7959-01A-11R-2343-13 | TCGA-IN-8462-01A-11R-2343-13 | TCGA-BR-A4CR-01A-11R-A24K-31 |
aDC | 0.612130511 | 0.452721422 | 0.434065 | 0.352635 |
B cells | 0.423322775 | 0.408870064 | 0.426612 | 0.413857 |
Blood vessels | 0.68102349 | 0.775438572 | 0.689433 | 0.577667 |
CD8 T cells | 0.675615385 | 0.650073242 | 0.629121 | 0.566048 |
Cytotoxic cells | 0.621056151 | 0.425217442 | 0.411617 | 0.3128 |
DC | 0.619838925 | 0.485055579 | 0.489101 | 0.266905 |
Eosinophils | 0.502784949 | 0.514938557 | 0.469541 | 0.488051 |
iDC | 0.531619756 | 0.49843721 | 0.530931 | 0.390699 |
Lymph vessels | 0.710842769 | 0.721323072 | 0.658391 | 0.500574 |
方法说明:
单样本基因集富集分析(single sample gene set enrichment analysis, ssGSEA),是GSEA方法的扩展,主要是针对单个样本无法做GSEA而设计。文章2009年发表于nature,题目为Systematic RNA interference reveals that oncogenic KRAS-driven cancers require TBK1。
首先对给定样本的基因表达值进行秩次标准化,然后利用经验累积分布函数计算富集分数(ES)。设给定基因集为G,包含基因数为NG,给定单个样本为S,表达谱包含基因数为N,N个基因按它们绝对表达值从高到低确定秩次。i 从1赋值到N,依此计算PGw和PNG。