前言:
目前兄弟们对“aforgenet怎么用”大致比较注重,兄弟们都需要学习一些“aforgenet怎么用”的相关文章。那么小编也在网络上搜集了一些关于“aforgenet怎么用””的相关知识,希望大家能喜欢,同学们快快来了解一下吧!❑ 导 读
融合基因用"/"还是用"-"?SEPT/MARCH系列名称使用EXCEL处理时还需要人工检查吗?你除了使用 NCBI Entrez GeneID外是否还使用过HGNC ID吗?接下来,本文带你聊聊基因命名的过程。
1 基因命名的历史与贡献
人类基因命名委员会(Human Gene Nomenclature Committee) 在1979年开始致力于基因命名标准化,他们审批研究人员对人类基因命名和重命名,并将审批通过的基因名称和符号记录到各个数据库。
1989年人类基因组组织(Human Genome Organization ,简称:HUGO)正式成立并接管人类基因命名委员会,改名为人类基因组组织-基因命名委员会(HUGO Gene Nomenclature Committee,简称:HGNC),并对人类基因命名法则进行了密集的修订。
迄今为止,HGNC已经命名了超过40000个人类基因座,其中大约有一半是编码蛋白质的基因。除了蛋白质编码基因的命名外,不同类别的RNA基因和伪基因的命名法则也取得了重大进展。所有批准通过的人类基因符号均可在HGNC在线数据库中检索到(
2 HGNC基因命名的原则及应用
HGNC遵循人类基因命名发展变化的原则,跟随生命科学领域的新技术和新发现进而对基因的命名进行修订和完善。但随着基因组学在临床上的应用日益广泛,让所有临床医生、患者、慈善机构和科研人员接受新的基因命名是具有很大难度的。所以基因命名的稳定性,特别是与疾病相关的基因命名的稳定性至关重要。
HGNC要求研究人员命名或者重命名基因的时候联系他们,通过他们审批该命名是否成立。对于审批通过的命名,HGNC会将该命名将记录进入生物数据库。对于审批不通过的命名申请,HGNC会为研究人员提供其他指导名称。HGNC进一步鼓励期刊编辑和审稿人检查所审文章是否使用了经过批准的基因命名,并要求作者在发表任何新的基因符号之前应联系他们。
下图为IncRNAs命名申申请的HGNC审核流程示例:
3 怎么为你的新发现起个名
序列变异命名法。这属于人类基因组变异学会(Human Genome Variation Society,简称:HGVS)的职责范围,该学会为解析DNA、RNA和蛋白质序列的变异的命名提供建议。
基因易位或融合的产物的命名。使用”/“启用”-“将两个或多个基因进行连接命名。例如:SYMBOL1-SYMBOL2被广泛使用,但HGNC建议使用SYMBOL1/SYMBOL2格式。
关于使用蛋白质命名法。HGNC与酶委员会(Enzyme Commission)密切合作编写了《国际蛋白质命名法指南》()。根据其中的准则,建议蛋白质和基因符号应该使用相同的缩写。
调控基因组元件的命名法。调控元件包括启动子、增强子和转录因子结合位点。该类元件根据Mayer et al.的标准来命名。
与临床表型和复杂性状相关的人类基因座的命名法。虽然HGNC以前曾为这些基因座命名,但这一工作已被在线人类孟德尔遗传数据库(Online Mendelian Inheritance in Man ,简称:OMIM)接管。
4 HGNC人类基因命名规则
HGNC将基因定义为“具有特定功能的DNA片段,在功能不明确的情况下,基因具有序列特征、转录特征或同源性特征“。理想情况下,对基因命名的符号要简短、容易记忆和发音,而且大多数基因名称应是对基因符号的具体描述。
基因名称应该简短而具体,应该传达基因产物的特征或功能,但不求能描述关于该基因的一切特征。每个基因只有一个符号,对基因的不同转录本不进行命名(转录本包括ncRNA 亚型、ncRNA选择性转录本等)。特殊情况下,在复杂的复合位点中,基因片段使用独特的基因符号。例如:假定的双顺反子基因座可以使用不同的符号来表示不同的基因产物。
通常情况下基因命名遵从如下规则:
1. 每一个基因被命名为唯一符号,包括HGNC ID和描述性名称。
2. 基因符号只包含大写拉丁字母和阿拉伯数字。
3. 基因符号不应与常用的缩写相同。
4. 命名法不应包含任何物种名称或使用“G”表示基因。
5.命名法不应带有冒犯或贬损的情感色彩。
5 根据生物特性命名编码基因
对于编码蛋白质的基因,HGNC根据该基因编码的产物来命名该基因。当一个基因编码多个蛋白时,以其中最关键的、功能最普遍的蛋白质来命名该编码基因。通常是基于序列的同源性,功能的相似性或在蛋白质复合体中的成员关系来确定相关基因。
相关基因使用一个共同的根符号来命名,以实现分组。基因家族成员使用根符号后面的阿拉伯数据进行区分(例如,KLF1, KLF2和KLF3),偶尔也在根符号后面添加单字母后缀(例如,LDHA、LDHB和LDHC)。对于参与特异性免疫过程的基因,或编码酶、受体或离子通道的基因,HGNC会咨询专业命名小组。
对于编码的蛋白功能不清楚的情况下,蛋白质编码基因可以用以下方式命名。
1. 基于该编码基因公认的结构域和基序命名(如:ABHD1,abhydrolase domain containing1);
2. 基于人类基因组内的同源基因命名(每个同源家族都有一个唯一的家族编号(如:FAM3);
3. 基于另一物种的同源基因命名(如:CDC45,cell division cycle45,它是基于酿酒酵母CDC45命名);
4. 基于开放命名框架的命名,该框架预设为:染色体编号+orf+序数(如:C3orf18)。
6 根据生物特性命名假基因
假基因是与功能基因具有高度同源性的序列但不能产生功能性蛋白的基因。针对假基因(Pseudogenes)的命名规则如下:如果假基因被经过处理,则根据其同源亲本基因进行命名(如DPP3P1,DPP3 pseudogene 1)。如果假基因没有被经过处理,则在其同源亲本基因后添加后缀“ P”形成新家族成员(如CBWD4P,COBW domain containing 4,pseudogene)。
参考基因组中有少数基因是假基因,但在群体中存在编码等位基因。这些基因座被赋予“蛋白质编码”的基因型,通过在基因名末端的“(gene/pseudogene)”表示(如:CASP12,“caspase12(gene/pseudogene)”)。
7 根据生物特性命名其他基因
对于非蛋白编码RNA基因的命名(Non-coding RNA genes),根据非蛋白编码RNA基因的RNA类型来命名(如MIR32,MicroRNA-32)。
针对功能或特征已知的长链非编码RNA,可根据其功能或特征来命名。
由相邻基因座产生的基因,包含两个(或多个)基因的编码和/或非编码区域称为通读转录本(Readthrough transcripts),使用亲本来源的两个(或多个)基因相连命名(如INS-IGF2 readthrough)。
对于基因片段(Gene segments),对于特定的复杂基因座,按照学术需求单独命名。
基因组区域(Genomic regions),HGNC不再为基因组区域命名,但保留以往已发表的基因组区域命名。
8 群体亚群和脊椎动物基因命名
HGNC只批准了人类参考基因组中的基因符号。在群体亚群中发现的基因由基因组参考协会(Genome Reference Consortium,简称:GRC)统一命名(如HLA和KIR基因家族中的结构变异)。此外,具有复杂进化史的基因家族最好在该领域专家的帮助下命名。
脊椎动物(Naming across vertebrates) 基因的名命由脊椎动物基因命名委员会命名(Vertebrate Gene Nomenclature Committee,简称:VGNC),现已建立五个脊椎动物命名委员会,脊椎动物基因命名委员会负责对目前未命名的椎骨物种基因进行标准化命名。
9 基因术语更新方向
1、占位符的符号更新,例如FAMs, C#orfs 和 KIAAs被视为占位符,并尽可能使用基于结构的、函数的名称进行更新。
2、描述不充分或有问题术语的更新:
i. 采用更合适或更常用的别名,例如:RNASEN更新到DROSHA(drosha ribonuclease III),因为行业里面更多人使用DROSHA;
ii. 基于结构域或基序的命名,例如:TMEM206(transmembrane protein 206)现在更新为PACC1(proton activated chloride channel 1);
iii. 基于疾病或表型的命名,例如:CASC4(cancer sensitivity candidate 4)被重新命名为GOLM2 (golgi membrane protein 2),去掉了对表型的参考,并与其同源GOLM1保持一致;
iv. 基于基因组位置的命名,例如:TWISTNB (TWIST neighbor) 更名为POLR1F (RNA polymerase I subunit F);
v. 具有歧义符号,例如:DOPEY1更名为DOP1A (DOP1 leucine zipper like protein A);
vi. 误导性或不正确的术语,例如:OTX3最初被错误地认为是OTX家族成员,现在已经被重新命名DMBX1(diencephalon/mesencephalon homeobox 1);
vii. 影响数据处理和检索的术语,例如:所有在Excel中会自动转换成日期的符号,SEPT1现在更改为SEPTIN1、MARCH1更改为MARCHF1。同样常见的tRNA合成酶符号已经被改变,WARS更改为 WARS1; CARS 更改为 CARS1。
3、基因符号使用形式更新:使用斜体来表示基因,等位基因和RNA;使用正体表示蛋白质。
参考资料:
Bruford, E.A., Braschi, B., Denny, P. et al. Guidelines for human gene nomenclature. Nat Genet 52, 754–758 (2020).
原文连接:
标签: #aforgenet怎么用