Category Archives: News

FRoGS: 基因表征的华丽转身

本文由ChatGPT基于英文版翻译后稍加修改, 不准确之处以英文版为准. 在自然语言处理(NLP)研究的早期阶段,我们通过计算共享单词来量化文档之间的相似性。然而,这种简单的方法忽略了同义词它将“猫”和“小猫”视为毫无关联的实体,就像对待“猫”和“岩石”一样(图1,左侧)。由此产生的基于身份(identity)的单词表示,即独热(one-hot)编码,在应用于聚类文档时效果并不佳。幸运的是,随着Word2Vec等深度学习技术的出现 [1],NLP领域已经发生了变革。由于Word2Vec,曾经相距甚远的“猫”和“小猫”两个词现在被认为是几乎相同的(图1,右侧)。 在基因分析中,我们一直面临着类似的困境。在比较基因列表时,我们计算共享的基因个数,类似于旧时的NLP方法。然而,像TLR7和MYD88这样在先天免疫信号中具有非常相似生物学作用的基因,当在出现在不同列表中时被当成是完全无关的而被忽视了。这就像“猫”和“小猫”曾经被认为是完全不同的一样。目前使用的基因列表的相似性算法很有局限。在我们最近的《自然通讯》发表的研究中 [2],我们将NLP与生物信息学进行了类比,首先我们引入了基因特征的功能性表示(Functional Representation of Gene Signatures — FRoGS),作为基因分析的Word2Vec等效方法(图2)。然后我们利用FRoGS的表征来揭示化合物的靶点。利用Broad的L1000数据集, 通过将shRNA/cDNA扰动的基因特征与中化合物的基因特征进行相似性比较,我们取得了显著的成果。具体而言,基于FRoGS的AI模型在识别真正的化合物靶点方面表现出了36%的召回率 (recall),超过了传统的独热编码方法所能达到的9%的召回率。 在这篇博客中,我们用两个浅显的例子进一步展示了FRoGS向量如何帮助实现强大的机器学习任务,将基因分析推向了传统独热编码不能够及的高度。 FRoGS能卓有成效地帮助机器学习的诀窍在哪里呢?因为基因的功能驱动着生物过程和它的表型。 ,它的功能被忽略了, AI模型就必须使出洪荒之力重新发现它们的功能 才能有效预测它们的表型— 而这个功能再发现的过程需要大量的训练数据。不幸的是,这样的大量数据并不总是可得到,于是有限的训练数据严重地影响了功能的学习从而影响了最终预测的准确性。FRoGS表征革命性地改变了基因的表示方式。每个人类基因都被编码为一个有意义的向量,既包含了在基因在Gene Ontology (GO [3])中注释的已知功能,也包含了从大规模转录组数据集(例如ARCHS4 [4])中蕴含的潜在功能 。FRoGS在AI模型的输入向量中注入功能信息, 模型无需浪费资源去从头开始学习基因的功能, 而可以专注于学习基因功能与表型之间复杂的关联。这样有限的训练数据全都被用在了刀刃上。 示例 1:组织特异性基因表达 在我们的第一个示例中,我们分别使用97、98和100个在大脑、脾脏和肌肉中特异性表达的基因。我们的目标是预测基因表达的组织。传统上,独热编码将这些基因放置在高维空间中,基因之间没有任何的相似性。因此,AI模型难以学习有意义的模式,导致分类准确率仅约为29%(±3%)(n = 100次模拟)——类似于随机猜测(图3)。然而,当我们使用FRoGS向量表示基因时,t-SNE图中已经呈现了组织特异性聚类(图4),这样用机器学习找出分类的边界就很直接了。随机森林模型(Random Forest)的准确率飙升至约80%(±5%)(n = 100次模拟),展示了FRoGS使得AI模型即使在有限数据情况下也具有强大的学习能力(图4)。 示例 2:基因列表和功能特征 我们的数据集包括与动脉、心脏和大脑分别相关的35、24和122个基因列表。每个基因列表内含约100个基因。在独热编码方法中,基因列表被表示为其组成成员基因独热向量的总和。虽然这些基因列表也展示了一些聚类模式(图5),但与FRoGS基因特征嵌入形成的明显聚类相比,它们相形见绌(图6)。因此,用于预测的分类准确率为独热向量为85%(±4%)(n = 100次模拟),而FRoGS向量为100.0%(±0.4%)(n … Continue reading

Posted in Machine Learning, News | Tagged , , , | Comments Off on FRoGS: 基因表征的华丽转身

FRoGS: A Paradigm Shift in Gene Representation

In the early days of natural language processing (NLP) research, we quantified the similarity between documents by counting shared words. However, this simplistic approach ignored synonyms, treating “cat” and “kitty” as distinct entities, much like “cat” and “rock.” (Figure 1. … Continue reading

Posted in Machine Learning, News | Tagged , , , | Comments Off on FRoGS: A Paradigm Shift in Gene Representation

Metascape for Bioinformaticians (MSBio)

We are extremely excited to make MSBio available to the bioinformatics community, including a commercial license option for for-profit entities (this post was updated on Dec 5, 2021). Why MSBio? Metascape was initially designed to support biologists, as we observed … Continue reading

Posted in Comment, News | Comments Off on Metascape for Bioinformaticians (MSBio)

Protein-Protein Interaction Data Sources

Why Include STRING Database Metascape provides a rather unique protein-protein interaction (PPI) network analysis capability. In many gene list analysis resources, PPI analysis results in a rather massy hairball network. Besides stating such networks are statistically significant, there is not … Continue reading

Posted in Comment, News, Protein Network | Comments Off on Protein-Protein Interaction Data Sources

How Dose Metascape Compute Orthologs

Homologene is Outdated Ortholog mapping is an important component in Metascape as explained in our Nature Communication paper: Many gene annotation, pathway, and protein interaction databases are primarily compiled for human genes/proteins. For instance, the size of the mouse interactome … Continue reading

Posted in Comment, News, Ortholog | Comments Off on How Dose Metascape Compute Orthologs

Research in China Shows Resistance to Coronavirus

Note: It was merely two weeks after I wrote this blog, China has turned into a sanctuary and we, in U.S., are in the deepest panic about Covid-19. Today is March 20. We made an update to the Metascape database. … Continue reading

Posted in Comment, News | Comments Off on Research in China Shows Resistance to Coronavirus

Metascape is a gene list analysis website designed for biologists

Background The analysis of genomics and proteomics datasets is not an easy task. Most of the current gene list analysis sites are limited to the enrichment analysis of pathways, thus the value of omics-scale datasets is not fully explored. A … Continue reading

Posted in Comment, News, Visualization | Leave a comment

Metascape是专门为生物学者设计的基因列表分析网站

欢迎转载 背景 分析基因或蛋白质组学的数据并非易事一件。目前的基因列表分析网站大多局限于通路的富集分析,并未完全挖掘基因组规模数据集的价值。而更全面的分析对没有生物信息队友的生物学者而言往往是可望不可及。在面对大量基因组数据集的大数据时代,Metascape网站(http://metascape.org)及时为生物学家提供了一种简洁的方式来更有效地理解实验数据。Metascape团队在Nature Communications上发表了题为: “Metascape provides a biologist-oriented resource for the analysis of systems-level datasets” 的文章( DOI: 10.1038/s41467-019-09234-6 )。 介绍 Metascape集成了四十多个生物信息数据库,通过一键快速分析的简洁界面让生物学者能够轻松获得全面的数据解析。 其不仅在内容上包含了生物通路富集分析,蛋白质互作用网络结构分析以及丰富的基因注释功能,而且将结果以生物学家容易理解的高质量的图表语言加以呈现。与其他工具相比,Metascape克服了常见的难以学习使用,数据库缺乏更新,和结果不易理解的缺陷。 功能 Metascape的使用非常简单,只要将基因列表贴入提交,然后点击Express Analysis按钮即可。Metascape能自动识别常用的各种基因或蛋白质的标识符。分析完成后网页会引导用户打开一份分析报告。分析报告模仿科研论文的格式来展现分析结果,图文并茂,对生物学者极其友好。报告中详细阐述了分析方法和图形的意义,而且图形都含可以发表的高清晰文件格式。报告还提供了格式化好的Excel文件,许多文章直接使用它做supplementary table。自动生成的PowerPoint文件方便学者们交流结果。所有的数据和图标文件都可以通过一个Zip文件包下载保存。蛋白质网络文件格式还支持用第三方软件比如Cytoscape进行更加深入的分析。用户熟悉后也可以使用Custom Analysis按钮对更多的分析功能和参数予以调节。 图2以121个流感宿主因子为例,说明了Metascape对单一基因列表的主要分析结果。 当代的多组学实验往往生成多个基因列表,目前的网络工具很少能同时分析并整合多基因列表,而这恰恰是Metascape的长处之一。其实Metascape的”meta”就是来源于多列表的meta-analysis。图3以三组过去独立发表的流感宿主因子列表为例进行说明。 Metascape的图表为生物学者提供了一些对阐述结论非常有效的数据表达形式。有的论文甚至多处采用Metascape的图形,比如图4中的两个例子。 读者在以后阅读文献中可能会不时遇到Metascape风格的图表。 评论 很多学者还在采用DAVID做富集通路分析。富集通路分析结果完全依赖于背后数据库的质量。DAVID曾经有六年的时间(2010-2016)没有维护数据库,最近的更新也已经两年半了。独立研究表明使用两年旧的Gene ontology数据库,用户平均要丢失20%的最新的生物知识。所以定期更新数据库的重要性非同小可。可惜现实是目前大家常使用富集分析工具中仅有40%被正常维护,不知读者目前使用的工具是否属于幸运的一类。Metascape每月更新背后的40多个数据库,以确保提供最准确的结果。 Metascape没有学习使用的壁垒,因为没有比一键Express Analysis更简单了。 虽然好用,Metascape实现的主要功能却是不折不扣。作者由于多年来在自己的科研项目中都要花大量的时间进行这些生物信息分析,所以决定把长期发表文章中体会到的best practices实现在Metascape中。由于常用的基因列表的分析工具仅限于提供单一通路富集分析,这就不幸给研究人员造成了列表分析就是等同于知识驱动的富集分析的误解。而数据驱动的蛋白质互作用网络分析就鲜有网站支持。其实除了以上描述的Metascape提供的林林总总的分析功能之外,其还有非常强大的对上千个基因进行注释或者利用知识库进行成员分析的功能,这些对于后续的基因筛选及其重要,详情请见文章或网站文档。要实现Metascape的这些分析功能对于生物信息人员都是有难度的。 Metascape网站在文章发表之前就已经被350多篇论文引用,其中不乏《自然》,《科学》,《细胞》等杂志。有趣的是约三分之二的引用文章使用了Metascape生成的图表。这可能要归功于这些图表的设计都是基于作者团队多年发表论文的经验之上,所以才有了图4这样的例子。 我们鼓励生物研究者们尝试一下Metascape,再同各自目前使用的工具做个比较。如果Metascape对大家科研效率的提高有所帮助,我们制作网站的初衷就实现了。对Metascape的背景感兴趣的读者,可以阅读另一篇的博客。我们最近特意将博客搬了家,以便中国读者可以访问到。

Posted in Comment, News, Visualization | Leave a comment

The Brief History of Metascape Since 2014

Five years ago (2014), we were looking for a gene-list analysis resource to recommend to biologists in our own research organizations. DAVID stood out in terms of functionality and usability, however, we noticed DAVID did not appear to be maintained. … Continue reading

Posted in Comment, News | Leave a comment

Thanksgiving Release

As the Metascape community grows through word-of-mouth recommendations, our responsibility grows as well.  In order to continue to provide a robust and scalable biologist-oriented gene-list analysis service, we have focused on implementing a brand new server architecture in 2018.  Although … Continue reading

Posted in News | Tagged | Leave a comment