Author Archives: Metascape

FRoGS: 基因表征的华丽转身

本文由ChatGPT基于英文版翻译后稍加修改, 不准确之处以英文版为准. 在自然语言处理(NLP)研究的早期阶段,我们通过计算共享单词来量化文档之间的相似性。然而,这种简单的方法忽略了同义词它将“猫”和“小猫”视为毫无关联的实体,就像对待“猫”和“岩石”一样(图1,左侧)。由此产生的基于身份(identity)的单词表示,即独热(one-hot)编码,在应用于聚类文档时效果并不佳。幸运的是,随着Word2Vec等深度学习技术的出现 [1],NLP领域已经发生了变革。由于Word2Vec,曾经相距甚远的“猫”和“小猫”两个词现在被认为是几乎相同的(图1,右侧)。 在基因分析中,我们一直面临着类似的困境。在比较基因列表时,我们计算共享的基因个数,类似于旧时的NLP方法。然而,像TLR7和MYD88这样在先天免疫信号中具有非常相似生物学作用的基因,当在出现在不同列表中时被当成是完全无关的而被忽视了。这就像“猫”和“小猫”曾经被认为是完全不同的一样。目前使用的基因列表的相似性算法很有局限。在我们最近的《自然通讯》发表的研究中 [2],我们将NLP与生物信息学进行了类比,首先我们引入了基因特征的功能性表示(Functional Representation of Gene Signatures — FRoGS),作为基因分析的Word2Vec等效方法(图2)。然后我们利用FRoGS的表征来揭示化合物的靶点。利用Broad的L1000数据集, 通过将shRNA/cDNA扰动的基因特征与中化合物的基因特征进行相似性比较,我们取得了显著的成果。具体而言,基于FRoGS的AI模型在识别真正的化合物靶点方面表现出了36%的召回率 (recall),超过了传统的独热编码方法所能达到的9%的召回率。 在这篇博客中,我们用两个浅显的例子进一步展示了FRoGS向量如何帮助实现强大的机器学习任务,将基因分析推向了传统独热编码不能够及的高度。 FRoGS能卓有成效地帮助机器学习的诀窍在哪里呢?因为基因的功能驱动着生物过程和它的表型。 ,它的功能被忽略了, AI模型就必须使出洪荒之力重新发现它们的功能 才能有效预测它们的表型— 而这个功能再发现的过程需要大量的训练数据。不幸的是,这样的大量数据并不总是可得到,于是有限的训练数据严重地影响了功能的学习从而影响了最终预测的准确性。FRoGS表征革命性地改变了基因的表示方式。每个人类基因都被编码为一个有意义的向量,既包含了在基因在Gene Ontology (GO [3])中注释的已知功能,也包含了从大规模转录组数据集(例如ARCHS4 [4])中蕴含的潜在功能 。FRoGS在AI模型的输入向量中注入功能信息, 模型无需浪费资源去从头开始学习基因的功能, 而可以专注于学习基因功能与表型之间复杂的关联。这样有限的训练数据全都被用在了刀刃上。 示例 1:组织特异性基因表达 在我们的第一个示例中,我们分别使用97、98和100个在大脑、脾脏和肌肉中特异性表达的基因。我们的目标是预测基因表达的组织。传统上,独热编码将这些基因放置在高维空间中,基因之间没有任何的相似性。因此,AI模型难以学习有意义的模式,导致分类准确率仅约为29%(±3%)(n = 100次模拟)——类似于随机猜测(图3)。然而,当我们使用FRoGS向量表示基因时,t-SNE图中已经呈现了组织特异性聚类(图4),这样用机器学习找出分类的边界就很直接了。随机森林模型(Random Forest)的准确率飙升至约80%(±5%)(n = 100次模拟),展示了FRoGS使得AI模型即使在有限数据情况下也具有强大的学习能力(图4)。 示例 2:基因列表和功能特征 我们的数据集包括与动脉、心脏和大脑分别相关的35、24和122个基因列表。每个基因列表内含约100个基因。在独热编码方法中,基因列表被表示为其组成成员基因独热向量的总和。虽然这些基因列表也展示了一些聚类模式(图5),但与FRoGS基因特征嵌入形成的明显聚类相比,它们相形见绌(图6)。因此,用于预测的分类准确率为独热向量为85%(±4%)(n = 100次模拟),而FRoGS向量为100.0%(±0.4%)(n … Continue reading

Posted in Machine Learning, News | Tagged , , , | Comments Off on FRoGS: 基因表征的华丽转身

FRoGS: A Paradigm Shift in Gene Representation

In the early days of natural language processing (NLP) research, we quantified the similarity between documents by counting shared words. However, this simplistic approach ignored synonyms, treating “cat” and “kitty” as distinct entities, much like “cat” and “rock.” (Figure 1. … Continue reading

Posted in Machine Learning, News | Tagged , , , | Comments Off on FRoGS: A Paradigm Shift in Gene Representation

Clustering Enriched Ontology Terms

The Metascape forum receives many questions about how enrichment bar graphs and heatmaps are created. This blog post explains the backend algorithms. For a given gene list, we use the accumulative hypergeometric test (or Fisher’s exact test) to compute the … Continue reading

Posted in Manual, Visualization | Tagged , , , , | Comments Off on Clustering Enriched Ontology Terms

Gene Annotation by ChatGPT

We are excited to leverage the power of ChatGPT to improve Metascape! ChatGPT is a powerful language engine that has gained broad biological knowledge by digesting text from the Internet. GPT-4 scores a 5 in AP Biology and 99th to … Continue reading

Posted in Uncategorized | Tagged , , , | Comments Off on Gene Annotation by ChatGPT

Metascape for Bioinformaticians (MSBio)

We are extremely excited to make MSBio available to the bioinformatics community, including a commercial license option for for-profit entities (this post was updated on Dec 5, 2021). Why MSBio? Metascape was initially designed to support biologists, as we observed … Continue reading

Posted in Comment, News | Comments Off on Metascape for Bioinformaticians (MSBio)

Protein-Protein Interaction Data Sources

Why Include STRING Database Metascape provides a rather unique protein-protein interaction (PPI) network analysis capability. In many gene list analysis resources, PPI analysis results in a rather massy hairball network. Besides stating such networks are statistically significant, there is not … Continue reading

Posted in Comment, News, Protein Network | Comments Off on Protein-Protein Interaction Data Sources

How Dose Metascape Compute Orthologs

Homologene is Outdated Ortholog mapping is an important component in Metascape as explained in our Nature Communication paper: Many gene annotation, pathway, and protein interaction databases are primarily compiled for human genes/proteins. For instance, the size of the mouse interactome … Continue reading

Posted in Comment, News, Ortholog | Comments Off on How Dose Metascape Compute Orthologs

Coronascape – 为COVID-19研究特制的基因列表比较工具

简介 COVID研究者通过高通量的组学实验获取了一组基因列表后如何进行进一步的数据分析呢?高通量数据往往重复次数少,数据噪声高,想要只从自己单一的基因列表中抽取到与生物系统真实相关的分子通路就会困难一些。所以我们首先希望将信号放大,就是要找到其他已经发表或将要发表的在类似实验条件下获得的基因列表用于对照。通过比对,真实的信号得以增强,结论从统计意义上就更加可靠。目前COVID研究文献的数量在飞速增长,研究者要去阅读筛查找到相似的组学实验设计,并且对原始数据进行预处理以获得可以用于比照的基因列表其实不是一件唾手可及的事。Coronascape (http://coronascape.org) 的目的就是为了帮助COVID研究人员解决这一难题。 Coronascape是由Sanford Burnham Prebys Medical Discovery Institute, Novartis和UCSD合作共同开发的新冠病毒组学公共数据库。Coronascape收录了20篇文章360多个SARS-CoV-2相关的基因或者蛋白数据集,涵盖了七种不同的组学技术,包括转录组(RNA-Seq和scRNASeq),蛋白质组,磷酸化蛋白质组,泛素组和蛋白相互作用组。 使用Coronascape数据库可以全面深入的了解各种宿主细胞和组织中SARS-CoV-2感染后的基因表达变化,蛋白表达修饰以及相互作用关系。用户只要将自己的基因列表输入Coronascape进行Similarity Search,Coronascape会推荐数据库里相似的基因列表。当然用户也可以通过关键词搜索以获取参照组。 获取多组基因列表后,用户要通过分子通路分析和蛋白网络分析找出数据背后的分子机理,并对分析结果制成可以帮助阐明生物原理的图表。这些正是Metascape的强项,而Coronascape在后台是和Metascape无缝衔接的。Coronascape通过非常友好间的用户操作界面,让用户提交自己的基因数据与公共数据进行比较,再对生成的列表组应用成熟的系统生物学网站Metascape进行信号通路,Gene Ontology,网络分析等深入的数据分析。利用Coronascape,用户可以从单一基因列表转化为多个列表,再获取图文并茂的meta-analysis分析报告一气呵成。没有自己实验数据的用户也可以直接对Coronascape中已有的数据进行二次分析。 由于Coronascape刚刚推出,还没有发表的成果。不过已经有应用实例上传到Biorxiv (https://www.biorxiv.org/content/10.1101/2020.08.18.256776v1)。文章作者通过对比Coronascape中的数据,深入研究了SARS-COV-2的ORF9C蛋白在宿主中转录组和蛋白组等与已发表的公共数据的异同,发现ORF9C单个蛋白即可实现全病毒感染细胞和肺部组织时的免疫抑制以及细胞因子激活功能,揭示了ORF9C可能时病毒与宿主相互作用的关键蛋白之一。这是对使用Coronascape进行COV-2多重组学研究的非常好的一个示例。 下面通过一些实例介绍一下Coronascape的用法。 示例一:通过用户的基因列表从Coronascape查找相似的基因列表 1. 将您的基因列表粘贴到“User’s Gene List”中。 2. 在“Recommendation”中,单击“Similarity Search”。 3. 与用户的基因列表相比,您将能够看到按相似性排名的基因列表。您可以单击“Download Similarity”以获得详细的基因列表。 4. 您可以单击“Use Selected”或“Append Selected”以将选定的基因列表添加到“要比较的参照列表”中。 5. 添加基因列表后,单击“ Metascape Analysis”以对用户的基因列表和从Coronascape中选择的基因列表进行系统分析。 示例二:将用户的基因列表与特定公共研究的基因列表进行比较 1. 将您的基因列表粘贴到“User’s … Continue reading

Posted in Uncategorized | Tagged , , , | Comments Off on Coronascape – 为COVID-19研究特制的基因列表比较工具

Clustergram for Enrichment

This blog serves as the missing manual of the clustergram feature. Introduction Metascape visualizes enrichment results as a bar graph, a heatmap, or a network. In all cases, the unit for the visualization is a pathway/process, as this provides a … Continue reading

Posted in Manual, Visualization | Comments Off on Clustergram for Enrichment

Research in China Shows Resistance to Coronavirus

Note: It was merely two weeks after I wrote this blog, China has turned into a sanctuary and we, in U.S., are in the deepest panic about Covid-19. Today is March 20. We made an update to the Metascape database. … Continue reading

Posted in Comment, News | Comments Off on Research in China Shows Resistance to Coronavirus