Metascape是专门为生物学者设计的基因列表分析网站

欢迎转载

背景

分析基因或蛋白质组学的数据并非易事一件。目前的基因列表分析网站大多局限于通路的富集分析,并未完全挖掘基因组规模数据集的价值。而更全面的分析对没有生物信息队友的生物学者而言往往是可望不可及。在面对大量基因组数据集的大数据时代,Metascape网站(http://metascape.org)及时为生物学家提供了一种简洁的方式来更有效地理解实验数据。Metascape团队在Nature Communications上发表了题为: “Metascape provides a biologist-oriented resource for the analysis of systems-level datasets” 的文章( DOI: 10.1038/s41467-019-09234-6 )。

介绍

Metascape集成了四十多个生物信息数据库,通过一键快速分析的简洁界面让生物学者能够轻松获得全面的数据解析。 其不仅在内容上包含了生物通路富集分析,蛋白质互作用网络结构分析以及丰富的基因注释功能,而且将结果以生物学家容易理解的高质量的图表语言加以呈现。与其他工具相比,Metascape克服了常见的难以学习使用,数据库缺乏更新,和结果不易理解的缺陷。

功能

Metascape的使用非常简单,只要将基因列表贴入提交,然后点击Express Analysis按钮即可。Metascape能自动识别常用的各种基因或蛋白质的标识符。分析完成后网页会引导用户打开一份分析报告。分析报告模仿科研论文的格式来展现分析结果,图文并茂,对生物学者极其友好。报告中详细阐述了分析方法和图形的意义,而且图形都含可以发表的高清晰文件格式。报告还提供了格式化好的Excel文件,许多文章直接使用它做supplementary table。自动生成的PowerPoint文件方便学者们交流结果。所有的数据和图标文件都可以通过一个Zip文件包下载保存。蛋白质网络文件格式还支持用第三方软件比如Cytoscape进行更加深入的分析。用户熟悉后也可以使用Custom Analysis按钮对更多的分析功能和参数予以调节。

图1. Metascape自动生成的分析结果。

图2以121个流感宿主因子为例,说明了Metascape对单一基因列表的主要分析结果。

图2. a) Metascape去除功能冗余的富集通路,用简单明了的bargraph显示出最主要的实验结果;b)富集生物通路可以以网络方式表现,这更利于理解通路或生物过程之间的关系;c)Metascape自动抽取提交列表中蕴含的蛋白质互作用网络;d)为了更容易理解这一网络,Metascape采用成熟的MCODE算法寻找网络中的密集联结的蛋白质群,并对每个群的生物功能进行注释。

当代的多组学实验往往生成多个基因列表,目前的网络工具很少能同时分析并整合多基因列表,而这恰恰是Metascape的长处之一。其实Metascape的”meta”就是来源于多列表的meta-analysis。图3以三组过去独立发表的流感宿主因子列表为例进行说明。

图3. a) Metascape用heatmap让三组数据集共享的和独特的生物通路一目了然。b)富集通路也可以以网络呈现。由于每一组宿主因子用一个独特的颜色表示,我们可以很清楚的发现Viral gene expression是共享的而Regulation of cell development主要只存在于绿色对应的实验中。

Metascape的图表为生物学者提供了一些对阐述结论非常有效的数据表达形式。有的论文甚至多处采用Metascape的图形,比如图4中的两个例子。 读者在以后阅读文献中可能会不时遇到Metascape风格的图表。

图4. a)摘自Lotan et al. Molecular Psychiatry (2018) 78:865中的Figure 5; b)摘自Dong et al. Genome Biol (2018) 19:31中的Figure 3。

评论

很多学者还在采用DAVID做富集通路分析。富集通路分析结果完全依赖于背后数据库的质量。DAVID曾经有六年的时间(2010-2016)没有维护数据库,最近的更新也已经两年半了。独立研究表明使用两年旧的Gene ontology数据库,用户平均要丢失20%的最新的生物知识。所以定期更新数据库的重要性非同小可。可惜现实是目前大家常使用富集分析工具中仅有40%被正常维护,不知读者目前使用的工具是否属于幸运的一类。Metascape每月更新背后的40多个数据库,以确保提供最准确的结果。

Metascape没有学习使用的壁垒,因为没有比一键Express Analysis更简单了。 虽然好用,Metascape实现的主要功能却是不折不扣。作者由于多年来在自己的科研项目中都要花大量的时间进行这些生物信息分析,所以决定把长期发表文章中体会到的best practices实现在Metascape中。由于常用的基因列表的分析工具仅限于提供单一通路富集分析,这就不幸给研究人员造成了列表分析就是等同于知识驱动的富集分析的误解。而数据驱动的蛋白质互作用网络分析就鲜有网站支持。其实除了以上描述的Metascape提供的林林总总的分析功能之外,其还有非常强大的对上千个基因进行注释或者利用知识库进行成员分析的功能,这些对于后续的基因筛选及其重要,详情请见文章或网站文档。要实现Metascape的这些分析功能对于生物信息人员都是有难度的。

Metascape网站在文章发表之前就已经被350多篇论文引用,其中不乏《自然》,《科学》,《细胞》等杂志。有趣的是约三分之二的引用文章使用了Metascape生成的图表。这可能要归功于这些图表的设计都是基于作者团队多年发表论文的经验之上,所以才有了图4这样的例子。

我们鼓励生物研究者们尝试一下Metascape,再同各自目前使用的工具做个比较。如果Metascape对大家科研效率的提高有所帮助,我们制作网站的初衷就实现了。对Metascape的背景感兴趣的读者,可以阅读另一篇的博客。我们最近特意将博客搬了家,以便中国读者可以访问到。

This entry was posted in Comment, News, Visualization. Bookmark the permalink.