龙空技术网

武智能院联合自动化所提出通用视觉模型FastSAM,比SAM快50倍?

亲爱的数据 238

前言:

此时朋友们对“fast算法”都比较看重,姐妹们都需要知道一些“fast算法”的相关资讯。那么小编也在网摘上收集了一些有关“fast算法””的相关文章,希望你们能喜欢,朋友们一起来学习一下吧!

原创:谭婧

由美国Meta公司提出的能够“分割一切”的视觉基础大模型SAM引起了较大影响,为探索通用视觉大模型提供了一个新的方向。

2023年6月22日,中科院自动化所的研究团队提出了FastSAM方法。对“分割一切”这一通用视觉任务的算法设计范式进行了重新思考,设计了“全实例分割+基于指令的掩码输出”两阶段算法。

FastSAM通过引入人工先验的结构设计,大幅降低了原Transformer结构在该通用感知任务上的计算冗余,实现了50倍加速,这一“快速”的特点,有利于视觉基础大模型的行业落地,有利于工业化应用落地。

SAM的“分割一切”功能实现了基于点、框、文字等多类型指令的物体及区域分割。本质就是语义分割。

SAM采用了端对端的Transformer结构在千万数量级监督样本上进行训练,在边缘检测、物体检测、显著物体识别、工业异常检测等下游任务上表现了很强泛化性。

“全实例分割+基于指令的掩码输出”两阶段算法,方法结构如图1所示。

FastSAM在每个阶段进行了任务和方法协同的方法设计:

(1)第一阶段,利用图像中大多数物体只占据图像局部区域的特点,采用天然具备局部连接特点的卷积算子进行全实例分割网络构建。该结构相较Transformer结构更加紧致,计算成本更低,但依旧保持对物体或图像区域的表示和判别能力。

(2)第二阶段,采用物理空间匹配和图文对齐空间匹配的策略进行基于指令的掩码输出。基于上一阶段的全实例分割掩码:对于基于位置点指令,将该点的位置所关联的最优分割区域进行输出,支持多点模式、背景点抑制;对于基于位置框的指令,将包围框匹配到的最大IoU的分割掩码进行输出;对于文本指令,利用图文对齐网络CLIP将掩码图像区域与文本指令映射到同一个空间,进行相似性计算,进而输出最相似区域。

基于此方法结构,FastSAM在SAM团队开源的SA-1B数据集上随机挑选了2%的图片进行训练就取得了和SAM可匹配的效果,并且速度相较最常用的32×32指令版本的SAM提升了50倍,实现了实时的“分割一切”(图2)。

图3 展示了FastSAM的分割效果,图4在显著物体分割任务上对比了FastSAM和SAM的分割效果。表1和表2 在候选位置生成和边缘检测任务上对比了FastSAM和SAM的效果。

该方法已于技术报告的形式发布于预印版网站Arxiv上,并开源了相关代码和演示页面。代码和演示已经上传Github。

研究团队认为,在高质量数据的基础上,面向特定任务引入人工经验,设计任务相关的网络结构,在深度学习模型的准确率和效率上的作用值得进一步研究。

该方法已于技术报告的形式发布于预印版网站Arxiv上(2023年6月21日),并开源了相关代码和演示页面。

研究团队认为,在高质量数据的基础上,面向特定任务引入人工经验,设计任务相关的网络结构,在深度学习模型的准确率和效率上的作用值得进一步研究。

论文通讯作者王金桥,一作赵旭、共同作者丁文超、安永琪、杜英龙、于涛、李敏、唐明。

标签: #fast算法