龙空技术网

万物识别RAM:最强图像识别模型,Zero-Shot超越有监督

将门创投 388

前言:

当前姐妹们对“语义分析工具有哪些”大概比较注重,各位老铁们都需要学习一些“语义分析工具有哪些”的相关知识。那么小编同时在网摘上网罗了一些有关“语义分析工具有哪些””的相关内容,希望朋友们能喜欢,姐妹们快快来学习一下吧!

大语言模型(Large Language Models)已经给自然语言处理(NLP)领域带来了新的革命。在计算机视觉(CV)领域,Facebook近期推出的Segment Anything Model(SAM)工作,在视觉定位(Localization)任务上取得了令人振奋的结果。然而SAM作为一个极致的定位大模型,并没有识别(Recognition)能力,而识别是与定位同等重要的CV基础任务。现有的开放式检测、分割任务尝试同时做好识别和定位,却在两个任务上都不能达到极致。

我们推出视觉感知大模型Recognize Anything Model(RAM),提供最强的图像识别能力,RAM为图像识别领域提供了一种新的范式,使用海量无需人工标注的网络数据,可以训练出泛化能力强大的通用模型,甚至在垂域下可以超越人工标注训练的有监督模型。

项目地址:

一、RAM的优势

能力强且通用:RAM可识别任意常见类别,支持中英文,精度上其Zero-Shot能力超越了有监督模型,高于CLIP/BLIP等经典多模态模型20+点,并可对标甚至超越Google的商用API;

可复现且成本低:RAM完全基于开源数据训练,通过自动化的数据引擎获取上亿级无须人工标注的高质量图像标签,RAM的基础版本模型只需八卡训练1天,最强版本也仅需八卡训练3天;

灵活且用途广:RAM可以直接用在不同的视觉语义理解场景,也可以与定位大模型(如Grounded-SAM)组合,实现一套超强的视觉语义分析工具。

二、RAM的创新点

RAM在算法和数据上相比之前工作均有较大创新:

算法层面充分利用Transformer架构的灵活性,创新性地将多标签识别(Tagging)和看图说话(Captioning)两个任务有机联合,Caption扩展了Tagging的识别范围,而Tagging则可以辅助Caption实现可控的句子生成。并且通过固定的文本编码器在Tagging实现了Open-Set标签类别的能力。

数据层面:

构建了一套横跨学术(分类、检测、分割)和商业化产品的通用视觉语义标签体系;

充分利用网络上的海量的图文对数据,而非少量的人工标注数据;

搭建了一套全自动化的数据引擎,源源不断的标注清洗网络上的海量图片,最终获取了上亿级高质量、有价值的图像标签。

RAM可以以较高的准确率自动识别超过6400类的图像标签,横跨学术数据集和商业化产品,并根据其Open-Set能力覆盖任意标签类别:

三、总结与展望

RAM在视觉识别领域展现了一个通用模型泛化到不同场景下的巨大潜力。RAM仍然有很大的提升空间,比如:

在一些稀有类别、细粒度分类任务上表现一般;

采用开源数据训练可能在有个别数据上出现偏见现象等。

但我们坚信,大模型时代已经到来,视觉任务的统一是大势所趋,希望RAM能推进大模型在视觉领域的发展。

作者:@Coler @信遇的key本文来源:公众号【Smarter】

Illustration by unDraw

-The End-

本周上新!

扫码观看


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。


>>> 添加小编微信!



关于我“门”将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及TechBeat人工智能社区。公司致力干通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
⤵一键送你进入TechBeat快乐星球

标签: #语义分析工具有哪些