处理TCGA原始数据和初级数据需要编程能力,例如R语言。如果是新手,建议你采用处理后数据,有几个很好的在线应用,既可以对TCGA数据进行可视话,也能够把处理后数据下载下来自己分析。

1. cbioportal:http://www.cbioportal.org/index.do 这个网站到google explore才能更好运行.这个网站开发了R语言的,The CGDS-R package provides a basic set of functions for querying the Cancer Genomic Data Server (CGDS) via the R platform for statistical computing. CGDS-R package 这个包可以直接install.能够获取数据.在TCGA/R文件夹里,有探索.但不会进一步分析. 这个网站的工作,最为厉害.可以做到尽可能的个体化.

Data Sets 里面,summary 就可以看到,每个dataset的大概内容.能不能在这里

2. UCSC Xena:http://xena.ucsc.edu/ TCGA hub在这里.可以下载到一些数据.这个网站可以做一些分析,以热图的形式进行表示. 是它的一个特征.当然也可以看到生存曲线.

3. Firehose:http://firebrowse.org/ 可以比较快的看到所有结果.但是个体化观察能力比较差.

4 .Genome Data Analysis Center http://gdac.broadinstitute.org/ 这里看到的都是data,有很多东西,不是很懂.有很多pipeline是油管,是所有人做好的分析吗? 可是好像没有看到raw的data.关于firehose如何处理数据

For a discussion of Firehose in the broader context of Big Cancer Data, see Nature Methods 10, 293–297 (2013) doi:10.1038/nmeth.2410.

5. TCGA Assembler: http://health.bsd.uchicago.edu/yji/TCGA-Assembler.htm 由于TCGA data have now been moved from the Data Coordinating Center (DCC) to the Genomic Data Commons (GDC).We are working with the GDC group, trying to make TCGA-Assembler compatible with the new TCGA data file structure in GDC. We will keep users updated about this process.我们也就只有等了

你可以自己尝试摸索一下。对于表达谱数据,建议你采用UCSC Xena

RSEM和RPKM两种数据处理方法有区别,但我一般直接用TCGA给的RSEM;对数据取log2(*+1),数据分布就非常类似基因芯片了。

这个文件(rnaseqv2-RSEM_genes_normalized_result)就是基因的mRNA表达数据,每列一个样本,每行一个基因,是我们常用的data;基因名字是Gene symbol | Entrez ID;样本中有原发肿瘤、正常对照、转移瘤等不同类型,需要区分并分离。把基因表达谱与样品临床信息进行匹配对齐后,即可进行差异表达分析。


针对TCGA数据建议还是使用Deseq和ergeR包进行差异分析,同意@dvdhover的数据预处理方法,同时可以通过去除均值小于1的数据行滤过部分低丰度的数据。

DESeq和edgeR的确是最受推崇的RNASeq差异表达分析方法。我这里讲讲他们的缺点。首先就是两个包对数据要求严格,均要求“raw counts data”,但这种数据TCGA是不公开的;虽然也有报道根据FPKM值逆推,但毕竟不是原装的。另外一点就是这两种处理方法不够灵活,只能用来做差异表达,后续如果我想做heatmap,还得把数据取对数;其他如看不同基因表达的相关性、基因表达与拷贝数相关性、GSEA分析等,用上述处理方法都做不了,取对数是我看到的最佳方案。当然,这些都是个人意见,欢迎批评指正。

可以获取raw counts data数据,通过TCGA Assemble获取的数据就有raw counts,正好可以通过edgeR进行分析,DESeq对于电脑的要求较高,可能需要一定级别的电脑,edgeR可以自己电脑上进行!

基因学院(jiyinxueyuan.com)整理发布。