人类基因组概况:
人类基因组由ATCG四种碱基组成,但是CG的含量低于50%,所以CG含量低于AT含量。
一个基因组的dna大约3ug。
snp:
平均每100到1000个碱基会出现1个SNPs,不过密度并不均匀。
如果按照每1000个碱基存在1个SNP来计算,人类30亿个碱基中,大约有300万个SNPs。
人类基因组的突变频率10的-6次方。即:每10的6次方个碱基,就会发生一个突变。
基因组长度:
人类基因组有30亿个碱基(3*10的10次方)。人类基因组的exon的长度大约1*10的7次方,占基因组的2%~3%。
假如平均一个protein的长度为500个amino acid(氨基酸),那么编码一个protein需要的碱基数为500*3=1500bp=1.5kb。那么,1个protein占exon的碱基数:1500/(1*10的7次方)≈10的4次方,即1个protein占exon碱基数的万分之一。
基因类型:
Ensemble数据库中有5万多个基因。其中,2万多个蛋白编码基因,还有假基因、microRNA、LincRNA等。GeneCode的gtf文件中,有一列是genetype,它分的类型是:protein coding、LincRNA、假基因。
即:基因可分为两大类编码蛋白的基因(包括:protein coding gene、pseudogene、LincRNA)、不编码蛋白的基因。
基因区域:
UTR:不翻译成蛋白。 3`UTR:转录起始->翻译起始(ATG)之间的区域。5`UTR:翻译终止->转录终止之间的区域。
阅读框:开放阅读框(Open Reading Frame, ORF)从DNA序列中,从起始密码子开始,到终止密码子结束的一段具有编码蛋白质功能的碱基序列。
intergenic:DNA不转录成RNA的区域。落入该区域的突变,不知道功能、不关注、不找hotspot。人类基因组98%是intergenetic区域。
introgenic:DNA转录成RNA的区域,包括:upstream,intron,exon,downstream,non-coding RNA,lincRNA。只关注落入introgenic区域的突变。即:只关注能转录成RNA的区域内的突变。
基因突变:
1. 突变类型:
non-sense(无义突变):某个碱基突变后,导致原本编码氨基酸的密码子变成了终止密码子,使肽链合成提前终止。
FrameShiftIndel:在阅读框内发生的indel。突变发生的位置不是3的倍数,导致碱基序列在翻译成氨基酸的过程中乱套了。
missense:错义突变。导致编码的氨基酸发生变化。
VTR_INTRON_ncRNA:exon之外的区域发生突变。
synonymous:碱基发生改变。但编码的氨基酸不变,不会对形成的蛋白有影响。比如:CTA与CTG 均编码亮氨酸,若A突变为G则该变异为同义突变。
silent:碱基发生改变,而编码的氨基酸也发生改变,但不影响蛋白质的编码。
2. 突变频率(variant allele frequency,VAF):
假如某个snv点的VAF为0.125=12.5%,这表示:在覆盖这个点的read数中,有12.5%的read来自B allele(即突变的那条allele),由此可以得出:25%的肿瘤细胞携带B allele。参照下图。
等位基因频率(也称为:B allele frequency):10万人,9万人携带的的是geneA,1万人携带的是geneB。则,等位基因频率为:1/10=10%。
3. 突变注释的工具:
snpEff。注释snv的工具。
4. 突变原因:
G->T:氧化损伤导致 G->A(C->T):脱氨基导致
5. 非编码蛋白突变的解释:
同义突变,虽然对这个基因编码的蛋白没有影响。但是,会影响其他基因的表达。比如,APC有4个同义突变,这些突变会影响REEP5(它是一个tumor suppressor gene)的RNA表达值。
6.基因的拷贝数变异:
通常call CNV的工具会考虑的因素:normalization、纯度、污染度、倍系。
疑问1:肿瘤病人的正常组织(如:OEC),或者正常人血液中的白细胞,对这些样本进行靶向测序时,为什么有大量snp的突变频率会在10%~30%之间呢?正常snp的突变频率应该是50%或100%。
推测原因:(1)PCR扩增的偏好,也可称为抽样误差。比如:该snp(A-》G,A突变为G)的突变频率应该是50%,但是,由于扩增的偏好性,导致A allele被大量扩增,G allele扩增的少。
那么,假设携带正常A的allele被测了8,携带突变G的 allele被测了2次,则计算得到的G的allele frequency为2/10=20%。
(2)因为是靶向测序,所以有可能是此位点被不同的amplicon覆盖。而amplicon在PCR扩增过程中会引起错误。
(3)基因组在此snp位置处存在拷贝数异常的现象。
(4)基因存在多拷贝的情况。比如,gene A在基因组中存在多个。
(5)纯度所致。
(6)这些snp是否有组织特异性呢?在不同的组织中,存在这种状况的snp有差异吗?比如,某个snp在OEC中突变频率是20%,而在WBC中是50%。存在这样的情况吗?
没有验证这种想法。
疑问2:肺癌病人的OEC与白细胞的靶向测序结果中,存在大量不一致的snp。因为所有细胞的DNA序列都是一致的,为什么会出现这样的情况呢?
后来,我在查阅脑细胞somatic mutation时,看到一篇文献说:其实各个组织中的基因组是不一致的。
疑问3:WGS的测序数据中,也存在很多这样的突变频率在10~30%之间的snv or snp。增加测序深度后,这样的snv占的比例反而更高呢?这是为何呢?
这说明,这样的snv是真实存在的,测序深度越高,越能检测到更多这样的snv。
因为是在肿瘤样本,所以,这样的突变可以用肿瘤组织的clone原理来解释。即:肿瘤细胞可以被分为不同的群体,有一些群体携带这样的snv,而其他的群体不存在这样的snv。这又是为何呢?因为携带这些snv的细胞群体是在肿瘤形成过程的后期出现的。
但是,这个问题在测序深度很深时,应该会避免。因为大数据量时,会避免抽样误差。结果呢?进行上万层的测序时,仍然存在这个问题。
重复序列:
LINE:重复序列。大脑发育过程中LINE很活跃。LINE通过反转录的方式,插到其它序列中。
6.7kb。转录成长的RNA,编码反转录酶,将自己或其它序列插入到DNA中。
tanderm repeat:
repeatMaster工具,可发现基因组上的重复序列。
熟悉的基因:
abparts(BCR,B cell receptor):B cell抗原受体。作用是识别抗原。编码B cell抗体的基因。B cell在骨髓中淋巴细胞中重排。
一个B cell携带一个抗体。
一般的染色体重排只发生在一条染色体上,但是,chrom14的abparts,在两条染色体上都发生了重排。
TCR(Tcell receptor ):T cell抗原受体。作用是识别抗原。编码T cell抗体的基因。分两种TCR1和TCR2,外周血中主要是TCR2。
RB1:与细胞周期有关的一个基因。抑制磷酸化,抑制细胞增殖。
RCBTB2:在胞质中存在。与染色质浓缩有关。