“0代码”玩转TCGA,GEO数据库

“0代码”玩转TCGA,GEO数据库
2021年02月23日 21:49 弗雷赛斯-freescience

没有样本,没钱测序,如何拿别人的数据来发自己的文章呢?

公共数据库挖掘呀!

众所周知,TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的肿瘤样本数据,后者GEO数据库全称Gene Expression Omnibus database,是由美国NCBI创建并维护的基因表达数据库。它创建于2000年,论文中涉及到的基因表达检测的数据几乎都提交到了这个数据库。

GEO除了二代测序数据,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。不同于TCGA的规整数据,GEO芯片数据由于芯片平台(公司)不同,需要进行ID转换(芯片ID对应基因)、数据标准化、去批次效应后才能进行数据分析,这也是GEO数据挖掘的难点,很多科研萌新一看到眼花缭乱的数据,瞬间懵逼了。

不过好在,在今天的神站上,你只要鼠标点点点”就可以分析两大数据库的数据,获得高清矢量图,更重要的是全部提供原始数据方法学写作。

01

TCGA数据分析

平台是由几个临床医生联合生信大拿一起搭建,界面极其简介,左侧栏是TCGA上所有33种肿瘤类型,之后第二期会纳入非肿瘤的疾病。顶部是各种分析模块。首页特别注明了,所有数据均由R v4.0.3分析完成, 意思就是说在平台上分析的结果和拿R语言敲代码分析的结果是完全一样的,这就太爽了。

别看界面简单,该平台功能极其强大,比如想分析下“某个基因在肺腺癌里EGFR突变和野生型病人中表达水平和预后差异”就轻而易举。

平台有极其强大的样本筛选功能,可以对样本进行除了临床信息,治疗信息的进一步筛选外,比如可以根据某一个基因是否突变筛选,某一个基因的表达量水平进行筛选,比如近年来火热的肺腺癌EGFR野生型伴PDL-1低表达相关研究,就完全没问题了。这也是目前已知所有第三方网站无法实现的。

样本筛选表

样本筛选好后,就可以选择需要的功能模块进一步分析啦。

单样本分析,顾名思义就是针对某一个样本的分析,里面的工具目前包括了临床信息比较,批量生存分析,基因与生存,基因与TMB/MSI,桑基图,两基因相关性。

而多样本分析,就是针对某几个样本之间差异的比较,目前包括以下工具:

多组生存,基因表达比较,miRNA比较,突变比较,免疫评分,免疫检查点,甚至铁死亡,m6A

在复杂分析里,集成了以下耳熟能详的分析模块,比如亚组分型,基因突变景观,差异基因分析,预后模型(列线图),预后模型(Signature)泛癌分析。

然后,在思维导图和视频教程里,180师兄和911师兄讲解了如何使用“十字研究法”,交叉运用单样本和多样本工具,让课题设计思如泉涌。

这些分析如果让公司去做,估计要几百上千甚至上万了,而这个平台鼠标点击几下,就可以生成所有的高清矢量图,更重要的是还有对应的原始数据下载,这个相当重要。

不仅如此,平台还针对每一个分析结果,给出了对应图例,方法学,结果的中英文对照,和参考文献,这个对我们写文章也很重要。

从课题设计,工具使用,再到零代码,一键分析,原始数据下载,再到论文写作,不得不说,这个由一群医生创建的生信平台,实在是太懂广大科研gou了。

02

中文版GEO数据库

相比TCGA主要存储高通量(二代测序)数据的肿瘤样本数据,GEO数据库全称Gene Expression Omnibus database,是由美国NCBI创建并维护的基因表达数据库。它创建于2000年,论文中涉及到的基因表达检测的数据几乎都提交到了这个数据库。

GEO除了二代测序数据,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。不同于TCGA的规整数据,GEO芯片数据由于芯片平台(公司)不同,需要进行ID转换(芯片ID对应基因)、数据标准化、去批次效应后才能进行数据分析,这也是GEO数据挖掘的难点,很多科研萌新一看到眼花缭乱的数据,瞬间懵逼了。

临床生信之家的GEO分析工具,从小编的体验看,有以下特点:

1.所有数据都来之GEO,以上提到的难弄的数据预处理过程均自动完成。

2.临床生信之家一贯的:无需代码基础,鼠标点点点即可完成ID转换,数据标准化,去批次,高清出图,原始数据下载一气呵成!

3.数据集介绍全部实行中英文对照。

这样的“中文版GEO数据库”你爱不爱呢?!

首先选择GEO分析模块,选择数据集筛选,搜索框中直接输入心血管方向的 “高血压”。

右边可以选择是匹配标题还是摘要还是实验设计类型,此处我们选择标题。

临床生信之家官网

点击检索后,就出来匹配到的数据集,根据匹配程度排序,没接触过geo数据库的同学可能有点懵,这里稍微解释下,1.数据集:在Geo数据库中代表一个实验项目(就是某个作者上传的集合),包括所有样本信息,GSE是数据集的编号开头。 2.芯片平台:不同芯片公司使用不同芯片平台,不同芯片以GPL字母开头,不同芯片平台包含不同的探针和基因ID对应关系,所以芯片数据预处理时,需要将探针ID转换为对应的基因,称为“探针ID转换”。3.样本,这里直接给出某个数据集的样本量。

然后点开数据集边上的小三角,就展开这个数据集的详细介绍,包括标题,五中,实验类型,概要,实验设计,参考文献,这些信息都是和geo数据库一对一对应的,同时给了中文翻译,默认是灰色,鼠标放上去就会变黑。

比如GSM24752这个数据集,通过浏览,很容易知道这个实验是人原发性高血压患者外周血细胞差异基因表达的微阵列分析,对比的是高血压患者和正常血压作为对照组,如果想更详细了解这个实验,可以直接点击citation里的对应文献查看。

右边看到这个数据集一共6个样本,然后点开样本边上的三角,就显示出各个样本啦。

从样本的名字source name可以看出,前三个HTN是高血压组,后三个样本是NC对照组。

接下里就是分组样本了,直接鼠标单击,多个样本就用excle里经常操作的shift+单击,样本变蓝,就是选中了。

然后就是输入分组的名字,比如高血压组,点击收录,就创建了样本分组,同理设定了正常血压组。此时会发现探针的ID转换就开始自动处理了。样本左边的group已经显示设置的样本名。

这样可以选择多个数据集,进行多个样本分组的设定,所有选择的数据集和样本分组都会在检索区的底部过渡区,此时可以设置项目名,点击收录到位的样本库。就会到主页的左边栏了。

设置好样本之后,就可以开始对geo的芯片数据进行各种分析啦,比如以下这个差异基因,样本一选择高血压组,样本二组选择对照组,此时,数据标准化,去批次效应会自动完成,然后点击plot,差异基因分析完毕。

图片是高清矢量图,包含了标准化后的图和去批次效应的结果图,这2个图发文章的时候可以放在补充材料,说明你做过了。然后就是差异基因经典的火山图,热图和kegg通路富集和go功能富集啦。

其他分析模块此处就略了,和TCGA数据库的分析一样一样的。也同样有高清矢量图,原始数据下载,对应图例,方法学,结果的中英文对照,和参考文献。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部