人类基因组概况–整理

人类基因组概况:        

    人类基因组由ATCG四种碱基组成,但是CG的含量低于50%,所以CG含量低于AT含量。    

    一个基因组的dna大约3ug。

  snp:

    平均每100到1000个碱基会出现1个SNPs,不过密度并不均匀。

    如果按照每1000个碱基存在1个SNP来计算,人类30亿个碱基中,大约有300万个SNPs。

    人类基因组的突变频率10的-6次方。即:每10的6次方个碱基,就会发生一个突变。

  基因组长度:

    人类基因组有30亿个碱基(3*10的10次方)。人类基因组的exon的长度大约1*10的7次方,占基因组的2%~3%。

    假如平均一个protein的长度为500个amino acid(氨基酸),那么编码一个protein需要的碱基数为500*3=1500bp=1.5kb。那么,1个protein占exon的碱基数:1500/(1*10的7次方)≈10的4次方,即1个protein占exon碱基数的万分之一。

   基因类型:

    Ensemble数据库中有5万多个基因。其中,2万多个蛋白编码基因,还有假基因、microRNA、LincRNA等。GeneCode的gtf文件中,有一列是genetype,它分的类型是:protein coding、LincRNA、假基因。

    即:基因可分为两大类编码蛋白的基因(包括:protein coding gene、pseudogene、LincRNA)、不编码蛋白的基因。 

  基因区域:

    UTR:不翻译成蛋白。 3`UTR:转录起始->翻译起始(ATG)之间的区域。5`UTR:翻译终止->转录终止之间的区域。

    阅读框:开放阅读框(Open Reading Frame, ORF)从DNA序列中,从起始密码子开始,到终止密码子结束的一段具有编码蛋白质功能的碱基序列。

    intergenic:DNA不转录成RNA的区域。落入该区域的突变,不知道功能、不关注、不找hotspot。人类基因组98%是intergenetic区域。

    introgenic:DNA转录成RNA的区域,包括:upstream,intron,exon,downstream,non-coding RNA,lincRNA。只关注落入introgenic区域的突变。即:只关注能转录成RNA的区域内的突变。   

    基因突变:

    1. 突变类型:

    non-sense(无义突变):某个碱基突变后,导致原本编码氨基酸的密码子变成了终止密码子,使肽链合成提前终止。

    FrameShiftIndel:在阅读框内发生的indel。突变发生的位置不是3的倍数,导致碱基序列在翻译成氨基酸的过程中乱套了。

    missense:错义突变。导致编码的氨基酸发生变化。

    VTR_INTRON_ncRNA:exon之外的区域发生突变。

    synonymous:碱基发生改变。但编码的氨基酸不变,不会对形成的蛋白有影响。比如:CTA与CTG 均编码亮氨酸,若A突变为G则该变异为同义突变。

    silent:碱基发生改变,而编码的氨基酸也发生改变,但不影响蛋白质的编码。 

    2. 突变频率(variant allele frequency,VAF):

      假如某个snv点的VAF为0.125=12.5%,这表示:在覆盖这个点的read数中,有12.5%的read来自B allele(即突变的那条allele),由此可以得出:25%的肿瘤细胞携带B allele。参照下图。

      等位基因频率(也称为:B allele frequency):10万人,9万人携带的的是geneA,1万人携带的是geneB。则,等位基因频率为:1/10=10%。

    3. 突变注释的工具:

      snpEff。注释snv的工具。 

    4. 突变原因:

      G->T:氧化损伤导致  G->A(C->T):脱氨基导致

    5. 非编码蛋白突变的解释:

      同义突变,虽然对这个基因编码的蛋白没有影响。但是,会影响其他基因的表达。比如,APC有4个同义突变,这些突变会影响REEP5(它是一个tumor suppressor gene)的RNA表达值。

    6.基因的拷贝数变异:     

      通常call CNV的工具会考虑的因素:normalization、纯度、污染度、倍系。 

  疑问1:肿瘤病人的正常组织(如:OEC),或者正常人血液中的白细胞,对这些样本进行靶向测序时,为什么有大量snp的突变频率会在10%~30%之间呢?正常snp的突变频率应该是50%或100%。

    推测原因:(1)PCR扩增的偏好,也可称为抽样误差。比如:该snp(A-》G,A突变为G)的突变频率应该是50%,但是,由于扩增的偏好性,导致A allele被大量扩增,G allele扩增的少。

           那么,假设携带正常A的allele被测了8,携带突变G的  allele被测了2次,则计算得到的G的allele frequency为2/10=20%。

         (2)因为是靶向测序,所以有可能是此位点被不同的amplicon覆盖。而amplicon在PCR扩增过程中会引起错误。

         (3)基因组在此snp位置处存在拷贝数异常的现象。

         (4)基因存在多拷贝的情况。比如,gene A在基因组中存在多个。

           (5)纯度所致。

         (6)这些snp是否有组织特异性呢?在不同的组织中,存在这种状况的snp有差异吗?比如,某个snp在OEC中突变频率是20%,而在WBC中是50%。存在这样的情况吗?

              没有验证这种想法。

  疑问2:肺癌病人的OEC与白细胞的靶向测序结果中,存在大量不一致的snp。因为所有细胞的DNA序列都是一致的,为什么会出现这样的情况呢?

    后来,我在查阅脑细胞somatic mutation时,看到一篇文献说:其实各个组织中的基因组是不一致的。

  疑问3:WGS的测序数据中,也存在很多这样的突变频率在10~30%之间的snv or snp。增加测序深度后,这样的snv占的比例反而更高呢?这是为何呢?

      这说明,这样的snv是真实存在的,测序深度越高,越能检测到更多这样的snv。

      因为是在肿瘤样本,所以,这样的突变可以用肿瘤组织的clone原理来解释。即:肿瘤细胞可以被分为不同的群体,有一些群体携带这样的snv,而其他的群体不存在这样的snv。这又是为何呢?因为携带这些snv的细胞群体是在肿瘤形成过程的后期出现的。 

  但是,这个问题在测序深度很深时,应该会避免。因为大数据量时,会避免抽样误差。结果呢?进行上万层的测序时,仍然存在这个问题。  

  重复序列:

  LINE:重复序列。大脑发育过程中LINE很活跃。LINE通过反转录的方式,插到其它序列中。

    6.7kb。转录成长的RNA,编码反转录酶,将自己或其它序列插入到DNA中。

  tanderm repeat:

    repeatMaster工具,可发现基因组上的重复序列。

  熟悉的基因:

    abparts(BCR,B cell receptor):B cell抗原受体。作用是识别抗原。编码B cell抗体的基因。B cell在骨髓中淋巴细胞中重排。

      一个B cell携带一个抗体。

      一般的染色体重排只发生在一条染色体上,但是,chrom14的abparts,在两条染色体上都发生了重排。

  TCR(Tcell receptor ):T cell抗原受体。作用是识别抗原。编码T cell抗体的基因。分两种TCR1和TCR2,外周血中主要是TCR2。

  RB1:与细胞周期有关的一个基因。抑制磷酸化,抑制细胞增殖。

  RCBTB2:在胞质中存在。与染色质浓缩有关。

 

 

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注