如何获取450k甲基化芯片的注释信息

生信交流平台  IP属地: 上海
4字数 638

前面小编给大家介绍过

如何从TCGA数据库下载DNA甲基化数据

R代码合并TCGA数据库中DNA甲基化数据

合并好的矩阵如下,每一行是一个CpG位点,每一列是一个样本。数值就是特定的CpG位点在相应样本里的甲基化水平。


有粉丝询问,如何将CpG位点跟基因名字对应起来。今天小编就带大家来获取illumina 450K甲基化芯片的注释文件。

首先我们来了解一下CpG位点跟基因的关系。如下图所示,可以将基因的区域分成,TSS1500,TSS200,5‘UTR,1st exon, gene body和3’UTR。TSS是transcription start site,即转录起始位点。那么TSS1500就是转录起始位点上有1500bp。UTR相信大家都不陌生,就是untranslated regions,转录但是不翻译的区域。1st exon就是第一号外显子,gene body就是CDs区域,即coding region。在基因示意图的下面,有CpG位点的分类。分为CpG island(CpG岛),CpG岛上游2kb为N shore,上游2kb-4kb为N shelf,同理下游2kb为S shore,下游2kb-4kb为S shelf。


既然450k甲基化芯片是illumina一款成熟的商业化芯片,那么我们就应该可以从illumina的官网上找到这款芯片的注释信息。下面是相关的产品信息

https://support.illumina.com/downloads/infinium_humanmethylation450_product_files.html

下面红框中的文件就是我们需要下载的文件


下载到本地之后,可以用Excel打开。


可以看到每一行是一个CpG位点,UCSC_RefGene_Name列就是CpG位点对应的基因。CpG位点跟基因的具体关系在UCSC_RefGene_Group列可以找到。另外这个CpG位点跟CpG岛的关系可以在Relation_to_UCSC_CpG_Island列找到。

有了这个文件之后,我们就可以对☞R代码合并TCGA数据库中DNA甲基化数据进行注释了。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
6人点赞
生信交流平台  欢迎关注公众号 “生信交流平台”
总资产881共写了18.6W字获得1,936个赞共1,772个粉丝

推荐阅读更多精彩内容