初学者如何学习TCGA数据库?
初学者如何学习TCGA?
在肿瘤研究领域,相信没有人不知道The Cancer Genome Atlas (TCGA)。
TCGA是美国国家癌症研究所(National Cancer Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督的一个项目,旨在应用高通量的基因组分析技术,以帮助人们对癌症有个更好的认知,从而提高对于癌症的预防、诊断和治疗能力。
作为目前最大的癌症基因信息数据库,TCGA的全面不仅仅体现在众多癌型上(覆盖33种癌症类型,超过30000例肿瘤样本,超过20000个基因的表达信息),还体现在多组学数据(包括基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP等)。
TCGA作为肿瘤研究中资源最丰富,数据最权威的数据库,自然受到广大科研工作者的深入挖掘。无数的文章脱胎于通过挖掘TCGA数据,同时也促使了不计其数的衍生的数据库用于挖掘可视化TCGA这个巨大的资源。
壹
TCGA相关数据库
1
综合型数据库
在这些不计其数的数据库中,有那么几个数据库由于其超强实用的功能,为肿瘤研究者青睐,受到普遍关注。
➱TCGA官方网站
官网https://portal.gdc.cancer.gov/
最权威的网站资源(数据可以无代码下载,当数据较大时也可以通过GDCRNAtools工具包下载)
➱cBioPortal
官网http://www.cbioportal.org/
一个基于TCGA数据库,进行可视化分析的网页,不需要代码,里面内容十分丰富,提供了最详细的TCGA在线分析展示。业界人称“TCGA数据挖掘终结者”。(数据可以无代码下载,也可以通过CGDSR工具包下载)
➱Oncomine
官网
https://www.oncomine.org/resource/login.html
目前最大的癌症基因芯片数据库,里面不仅包含TCGA数据,还包括了其他有关的肿瘤的数据信息,非常全面(对于普通免费用户而言,里面的TCGA数据不支持批量下载,但是其他项目中肿瘤数据可以链接到GEO数据库中下载)
➱ GEPIA
官网http://gepia.cancer-pku.cn/
国人开发的TCGA数据库可视化网站,方便快速可视化肿瘤与癌旁组织的基因表达量
➱UCSC Xena
官网https://xena.ucsc.edu/
集合TCGA,ICGC(International Cancer Genome Consortium/国际癌症基因组联合体)资源大成的数据库(数据可以无代码下载,也可以通过UCSCXenaTools工具包下载)
➱Broad GDAC Firehose
官网http://gdac.broadinstitute.org/
最人性化的TCGAR语言工具包下载,下文实例讲解)
2
专一型数据库
除上文的综合型数据库之外,还包括一些特异分析TCGA某一数据的数据库,比如:
➱TCGA生存分析oncolnc
官网http://www.oncolnc.org/
➱基于TCGA的蛋白芯片分析神器TCPA
官网http://www.tcpaportal.org/tcpa/
➱基于TCGA的甲基化神器mexpress
官网http://mexpress.be/
接下来,本文通过RTCGAToolbox这个R语言包/数据下载和分析操作简便,向大家演示怎样从Broad GDAC Firehose下载TCGA数据为自己所用。
贰
RTCGAToolbox操作TCGA数据
因为TCGA数据量庞大,分析的手段多样复杂,并非所有人都可以轻松的下载与管理数据库中的数据。RTCGAToolbox是Firehose项目科学家专门开发供科研工作者下载感兴趣的TCGA level 3/4数据(将原始数据预处理后的数据量小很多的数据)的一个工具包。该包主要包括以下几个功能:
查询Firehose项目提供的TCGA数据的信息
下载数据
后续数据分析与可视化
安装与加载RTCGAToolbox
1
查询Firehose中TCGA数据
⑴ 查看肿瘤类型(以下都是肿瘤简称)
⑵ 查看数据库中的更新情况
(每个日期代表着一批数据,因为TCGA数据在不断的测序更新,所以可得到的数据也在不断的更新,最新版的结果就会覆盖所有TCGA中的样本)
RTCGAToolbox可下载的数据类型包括:
RNAseqGene 来源于RNA测序的基因表达数据,原始数据
Clinical 临床信息,包括样本的分期,生存信息,年龄,性别等
miRNASeqGene miRNA测序数据
RNAseq2GeneNorm RNA测序的基因表达数据,标准化处理后的值
CNASNP 体细胞拷贝数变异数据
CNVSNP 生殖细胞拷贝数变异数据
CNASeq 体细胞拷贝数测序数据
CNACGH CGH芯片测序的体细胞拷贝数据
Methylation 芯片分析的甲基化数据
Mutation 基因水平的突变数据
mRNAArray 芯片分析的基因表达数据
miRNAArray 芯片分析的miRNA表达数据
RPPAArray 蛋白质芯片测序结果
2
下载TCGA数据
⑴ 下载结肠癌数据
(你可以下载自己感兴趣的任何肿瘤类型,此处自己选择结肠癌)
代码中:
getFirehoseData() 函数是该包最核心的函数。通过此函数,我们可以从Firehose中下载我们感兴趣的数据
dataset="COAD" 选择自己感兴趣的肿瘤类型
runDate="20160128" 数据的版本号
forceDownload=TRUE 设置分析的时候重新下载数据
clinical=TRUE 获临床数据(临床数据默认值TRUE,其他数据类型默认值FALSE)
Mutation=TRUE 获取突变数据
当然,你可以选择任何自己感兴趣的数据类型下载,此处仅下载结肠癌的临床信息与突变数据。(但是不是所有的TCGA数据在Firehose中的数据都可以下载,有的数据还是需要权限,具体可以下载的数据列表如下图,最新版的可供下载的数据信息)
⑵ 数据下载结果
可以看到下载的数据中包含三种类型的数据:临床信息,体细胞拷贝数变化情况,基因突变信息(GISTIC:用于在肿瘤的众多SCNA/somatic copy number alteration中选择出具有统计意义的SCNA的方法)
叁
数据简单分析与可视化
1
提取下载的结肠癌数据中的临床数据子集
(同理,可以提取自己感兴趣的任何数据)
RTCGAToolbox不仅可以下载的数据,还贴心的提供了5个基本的数据分析工具:
差异表达分析 比较肿瘤组织与癌旁组织的基因表达量,且根据不同的平台会自动选择合适的分析工具
基因表达量与拷贝数的相关性分析
基因突变频率分析
生存分析
数据的简单可视化报告
因为本例中,我们仅仅是下载了数据量比较小的结肠癌的突变数据与临床数据,所以可以操作的分析局限于基因的突变频率与基于临床资料的简单生存分析
2
基因突变频率分析
3
查看生存情况
RTCGAToolbox给我们提供了一条下载,管理TCGA数据相对便捷的方式。你自己也可以结合其他工具包来灵活操作TCGA的数据,比如可以用RTCGAToolbox下载数据,但是用suivival工具包来更灵活做生存分析,用ggplot2来绘制火山图,热图,柱状图等。(当然,RTCGAToolbox自带的数据分析工具也很强大,做的图一样美观,以下图都是该包可视化分析的图)
RTCGAToolbox可以通过一个函数便捷的完成所有数据的下载,包括下载并解压缩,读入R环境,非常方便。另外,下载的各种类型的数据会被自动封装在一个文件中,比如上文中的COADData数据包括三种数据类型。