人类基因组概况–整理

人类基因组概况：　　　　　　　　

　　　　人类基因组由ATCG四种碱基组成，但是CG的含量低于50%，所以CG含量低于AT含量。　　　　

　　　　一个基因组的dna大约3ug。

　　snp：

　　　　平均每100到1000个碱基会出现1个SNPs，不过密度并不均匀。

　　　　如果按照每1000个碱基存在1个SNP来计算，人类30亿个碱基中，大约有300万个SNPs。

　　　　人类基因组的突变频率10的-6次方。即：每10的6次方个碱基，就会发生一个突变。

　　基因组长度：

　　　　人类基因组有30亿个碱基（3*10的10次方）。人类基因组的exon的长度大约1*10的7次方，占基因组的2%~3%。

　　　　假如平均一个protein的长度为500个amino acid（氨基酸），那么编码一个protein需要的碱基数为500*3=1500bp=1.5kb。那么，1个protein占exon的碱基数：1500/（1*10的7次方）≈10的4次方，即1个protein占exon碱基数的万分之一。

　　基因类型：

　　　　Ensemble数据库中有5万多个基因。其中，2万多个蛋白编码基因，还有假基因、microRNA、LincRNA等。GeneCode的gtf文件中，有一列是genetype，它分的类型是：protein coding、LincRNA、假基因。

　　　　即：基因可分为两大类编码蛋白的基因（包括：protein coding gene、pseudogene、LincRNA）、不编码蛋白的基因。

　　基因区域：

　　　　UTR：不翻译成蛋白。　3`UTR：转录起始->翻译起始（ATG）之间的区域。5`UTR：翻译终止->转录终止之间的区域。

　　　　阅读框：开放阅读框(Open Reading Frame, ORF)从DNA序列中，从起始密码子开始，到终止密码子结束的一段具有编码蛋白质功能的碱基序列。

　　　　intergenic：DNA不转录成RNA的区域。落入该区域的突变，不知道功能、不关注、不找hotspot。人类基因组98%是intergenetic区域。

　　　　introgenic：DNA转录成RNA的区域，包括：upstream，intron，exon，downstream，non-coding RNA，lincRNA。只关注落入introgenic区域的突变。即：只关注能转录成RNA的区域内的突变。　　

　　基因突变：

　　　　1. 突变类型：

　　　　non-sense（无义突变）：某个碱基突变后，导致原本编码氨基酸的密码子变成了终止密码子，使肽链合成提前终止。

　　　　FrameShiftIndel：在阅读框内发生的indel。突变发生的位置不是3的倍数，导致碱基序列在翻译成氨基酸的过程中乱套了。

　　　　missense：错义突变。导致编码的氨基酸发生变化。

　　　　VTR_INTRON_ncRNA：exon之外的区域发生突变。

　　　　synonymous：碱基发生改变。但编码的氨基酸不变，不会对形成的蛋白有影响。比如：CTA与CTG 均编码亮氨酸，若A突变为G则该变异为同义突变。

　　　　silent：碱基发生改变，而编码的氨基酸也发生改变，但不影响蛋白质的编码。

　　　　2. 突变频率（variant allele frequency，VAF）：

　　　　　　假如某个snv点的VAF为0.125=12.5%，这表示：在覆盖这个点的read数中，有12.5%的read来自B allele（即突变的那条allele），由此可以得出：25%的肿瘤细胞携带B allele。参照下图。

　　　　　　等位基因频率（也称为：B allele frequency）：10万人，9万人携带的的是geneA，1万人携带的是geneB。则，等位基因频率为：1/10=10%。

　　　　3. 突变注释的工具：

　　　　　　snpEff。注释snv的工具。

　　　　4. 突变原因：

　　　　　　G->T：氧化损伤导致　　G->A（C->T）：脱氨基导致

　　　　5. 非编码蛋白突变的解释：

　　　　　　同义突变，虽然对这个基因编码的蛋白没有影响。但是，会影响其他基因的表达。比如，APC有4个同义突变，这些突变会影响REEP5（它是一个tumor suppressor gene）的RNA表达值。

　　　　6.基因的拷贝数变异：　　　　　

　　　　　　通常call CNV的工具会考虑的因素：normalization、纯度、污染度、倍系。

　　疑问1：肿瘤病人的正常组织（如：OEC），或者正常人血液中的白细胞，对这些样本进行靶向测序时，为什么有大量snp的突变频率会在10%~30%之间呢？正常snp的突变频率应该是50%或100%。

　　　　推测原因：（1）PCR扩增的偏好，也可称为抽样误差。比如：该snp（A-》G，A突变为G）的突变频率应该是50%，但是，由于扩增的偏好性，导致A allele被大量扩增，G allele扩增的少。

　　　　　　　　　　　那么，假设携带正常A的allele被测了8，携带突变G的　　allele被测了2次，则计算得到的G的allele frequency为2/10=20%。

　　　　　　　　　（2）因为是靶向测序，所以有可能是此位点被不同的amplicon覆盖。而amplicon在PCR扩增过程中会引起错误。

　　　　　　　　　（3）基因组在此snp位置处存在拷贝数异常的现象。

　　　　　　　　　（4）基因存在多拷贝的情况。比如，gene A在基因组中存在多个。

　　　　　　　　（5）纯度所致。

　　　　　　　　　（6）这些snp是否有组织特异性呢？在不同的组织中，存在这种状况的snp有差异吗？比如，某个snp在OEC中突变频率是20%，而在WBC中是50%。存在这样的情况吗？

　　　　　　　　　　　　　　没有验证这种想法。

　　疑问2：肺癌病人的OEC与白细胞的靶向测序结果中，存在大量不一致的snp。因为所有细胞的DNA序列都是一致的，为什么会出现这样的情况呢？

　　　　后来，我在查阅脑细胞somatic mutation时，看到一篇文献说：其实各个组织中的基因组是不一致的。

　　疑问3：WGS的测序数据中，也存在很多这样的突变频率在10~30%之间的snv or snp。增加测序深度后，这样的snv占的比例反而更高呢？这是为何呢？

　　　　　　这说明，这样的snv是真实存在的，测序深度越高，越能检测到更多这样的snv。

　　　　　　因为是在肿瘤样本，所以，这样的突变可以用肿瘤组织的clone原理来解释。即：肿瘤细胞可以被分为不同的群体，有一些群体携带这样的snv，而其他的群体不存在这样的snv。这又是为何呢？因为携带这些snv的细胞群体是在肿瘤形成过程的后期出现的。

　　但是，这个问题在测序深度很深时，应该会避免。因为大数据量时，会避免抽样误差。结果呢？进行上万层的测序时，仍然存在这个问题。

　　重复序列：

　　LINE：重复序列。大脑发育过程中LINE很活跃。LINE通过反转录的方式，插到其它序列中。

　　　　6.7kb。转录成长的RNA，编码反转录酶，将自己或其它序列插入到DNA中。

　　tanderm repeat：

　　　　repeatMaster工具，可发现基因组上的重复序列。

　　熟悉的基因：

　　　　abparts（BCR，B cell receptor）：B cell抗原受体。作用是识别抗原。编码B cell抗体的基因。B cell在骨髓中淋巴细胞中重排。

　　　　　　一个B cell携带一个抗体。

　　　　　　一般的染色体重排只发生在一条染色体上，但是，chrom14的abparts，在两条染色体上都发生了重排。

　　TCR（Tcell receptor ）：T cell抗原受体。作用是识别抗原。编码T cell抗体的基因。分两种TCR1和TCR2，外周血中主要是TCR2。

　　RB1：与细胞周期有关的一个基因。抑制磷酸化，抑制细胞增殖。

　　RCBTB2：在胞质中存在。与染色质浓缩有关。

人类基因组概况–整理

snp：

基因组长度：

基因类型：

基因区域：

基因突变：

重复序列：

熟悉的基因：

Published by

风君子

发表回复取消回复

snp：

基因组长度：

基因类型：

基因区域：

基因突变：

重复序列：

熟悉的基因：

Published by

风君子

发表回复 取消回复

　　snp：

　　基因组长度：

　　基因类型：

　　基因区域：

　　基因突变：

　　重复序列：

　　熟悉的基因：

发表回复取消回复