前言:
而今看官们对“文本挖掘算法有哪些类型”大体比较讲究,大家都需要剖析一些“文本挖掘算法有哪些类型”的相关知识。那么小编也在网上网罗了一些对于“文本挖掘算法有哪些类型””的相关内容,希望我们能喜欢,大家快快来了解一下吧!TRRUST数据库使用教程
更多数据库干货知识
私信我回复“数据库”即可免费领取哦
今天介绍的主角是TRRUST数据库,一个大家的老熟人了,酸菜老师在36策中跟大家提过多次的研究转录因子的神器。啊对了,咱们今天又说回了转录因子。转录因子是基础研究和生信分析经久不衰的一个套路,不论是深挖机制还是构建调节网络都是一个合适的选择,因此TRRUST数据库的使用频率可谓是相当高了。现在才拿出来跟大家说,是我错了!
数据库网址为:
大家使用的时候不要忘记引用参考文献哦~
TRRUST v2: an expanded reference database of human and mouse transcriptional regulatory interactions. Nucleic Acids Research 26 Oct, 2017
一、转录调控基本介绍
有关转录因子的一些故事我在前面的TRcirc数据库中也进行了一些基本的介绍,详细的内容大家也可以参考第16策“秉轴持钧”。转录是一个相当复杂的过程,涉及到RNA聚合酶、骨架蛋白、转录因子,还有转录调控因子等。转录因子与受调控的基因之间也不是一对一的关系,而是多对多。一个转录因子可以调控多个基因,一个基因也可以受多个转录因子调控,因此非常适合于构建一个调控网络。生信数据库预测转录因子靶基因的原理大同小异,可以大致分为以下三个步骤:
1. 通过特定算法预测给定的转录因子所能结合的DNA序列的特征;2. 在基因库中进行序列比对,对潜在序列的拟合程度进行评分;3. 筛选出最具潜力能与转录因子互作的靶基因。
那在生信研究中转录因子可以玩出什么花样呢?
酸菜老师对于生信文章套路总结出了“挑、圈、联、靠”四字真言,很多小伙伴开始的第一步就是从各种芯片或测序数据中挑选出了差异表达的mRNA或ncRNA,那进一步深挖这些差异基因在疾病发生发展中的作用机制就可以考虑一下是否可以找到潜在的转录因子调控这些基因。此外还可以引入同时能与转录因子和靶基因结合的非编码RNA,构建调节网络。如果差异表达的基因中本身就存在转录因子,就可以以这个转录因子为中心构建调控网络同样很有意义。这是第一种思路。第二种思路是基于转录因子本身的表达水平、突变水平、甲基化水平,做转录因子基因集与某些明星表型的生信分析。转录因子的本质是蛋白质,那ChIP-seq资料中就会留下丰富的信息,有生信挖掘的价值,这些数据库我们之后也会一一提到。
二、TRRUST数据库功能介绍
输入网址,进入TRRUST数据库主页面。TRRUST,即Transcriptional Regulatory Relationships Unraveled by Sentence-based Text mining,是一个记录转录因子调控关系的数据库,不仅包含转录因子对应的靶基因,也包含了转录因子间的调控关系,最早由韩国人于2014年所构建,目前更新至第2个版本。该数据库使用MeSH词汇查询、sentence-based文本挖掘算法,辅以人工校对,保证了该数据库中的TF-target调控互作都是经过实验验证的。目前该数据库只存储了人和小鼠相关的调控信息,TRRUST收录人类800种转录因子和8444个调控关系对以及小鼠828种转录因子,6552个调控关系对。
可以看出TRRUST数据库的页面非常简洁明了,这也是本人非常喜欢TRRUST的原因之一。整个数据库大致分为三个板块,“About TRRUST”,“Search”,“Download”。点击“About TRRUST”即显示当前页面,展示了TRRUST数据库的基本信息。点击“Download”,页面跳转到如下,用户可以下载TRRUST数据库所收录的人和小鼠的所有TF-target调控关系对。
接下来我们重点介绍TRRUST的功能模块。点击“Search”跳转到如下界面:
可以看出TRRUST数据库一共提供了两种查询功能。首先我们看第一种功能:“Search a gene in TRRUST database”:
我们通过左边的模式图来仔细品一品这个功能到底干啥的。灰色的圆形Q代表Query gene,即所输入的需要检索的基因。Q与周围的圆形有两种作用模式,一种是向外的箭头连接蓝色的圆形,即targets,一种是向内的箭头连接黄色的圆形,即regulators。很多初次使用TRRUST数据库的小伙伴在这里可能会有点迷惑为什么会有两种作用模式,是因为用户输入检索的基因本身就有可能是一个转录因子,一个本身是转录因子的基因编码产生的蛋白可以调控下游其他的基因,那它本身也是可以受其他转录因子所调控转录的。如右侧TRRUST提供的示例分子,BRCA1即转录因子,CDKN1A为非转录因子,两种分子均可以在TRRUST数据库中输入检索,但是因分子本身的性质不同而结果会有所区别。我们以BRCA1为例进行检索,点击“提交”:
结果页面一共分为三个大的板块:
“Targets and TFs”
“Other TFs that share targets”
“Associated diseases/pathways”
“Targets and TFs”
提供了两部分的内容,分别是BRCA1作为转录因子所能调控的基因,以及BRCA1作为基因受调控的转录因子有哪些。表格中的“TF”及“Target”即转录因子以及调控的基因,“Mode of Regulation”显示了转录因子与靶基因之间的调控关系,是上调还是下调。TRRUST同时提供了PMID号一共用户检索文献。整个检索结果的右侧均提供了交互网络图,蓝色圆圈表示靶基因,褐色圆圈表示转录因子,灰色直线表示交互关系,可用鼠标滚轮放大或缩小图标,也可以任意拖动靶基因的位置。
“Other TFs that share targets”
显示的是其他与BRCA1有相同靶基因的转录因子。TF为转录因子名称;number of overlapped target genes为共同靶基因的数量;P-value和FDR分别为超秩和检验的P值和Q值。
“Associated diseases/pathways”
则显示的是与BRCA1相关的疾病以及GO/KEGG富集分析结果。
接下来我们看看第二个功能“Find key regulators for query genes”:
这项功能相对更为常用和简洁明了,用于查询所输入的一整个基因列表所受调控的关键分子。这里以示例数据分子为例,由敲低人ESR1基因后所得到的差异表达基因组成,基因集共包括33个基因,输入33个基因的Gene Symbol,每个基因名字间用“,” ,Tab,空格或者另起一行隔开,点击“提交”:
预测结果界面共包括4部分内容
“Valid query genes”显示有效的查询基因
“Invalid query genes”显示无效的查询基因(包括未查询到的基因以及输入格式不正确的基因)
“Query genes included in TRRUST”为TRRUST数据库中包含的查询基因数量,下方表格为查询到的结果列表,从左至右分别为:
Key TF:关键转录因子名称;
Description为转录因子描述;
number of overlapped genes为这个关键转录因子调控的基因数目,点击数字后,可查看受调控基因具体的名称、调控类型、参考文献、GO注释信息等;
P-value和FDR分别为超秩和检验的P值和Q值。
点击页面上方的下载按钮即可下载表格内容,可以直接放到文章当中,增加一个表格。
好了,TRRUST数据库就介绍到这里啦~正如前文所述,转录因子无论是在基础研究中还是生信分析中都是一个可以去借鉴的方向,而TRRUST数据库,尤其是第二个功能无疑跟“挑圈联靠”中的“联”字诀息息相关,各位小伙伴要学会使用哦~
—END—
标签: #文本挖掘算法有哪些类型