龙空技术网

基于深度学习的双模态图像检索算法,综合处理图文,精准搜索

未来光锥科技 681

前言:

眼前咱们对“图文匹配算法怎么做”大体比较关切,同学们都想要知道一些“图文匹配算法怎么做”的相关资讯。那么小编同时在网摘上搜集了一些对于“图文匹配算法怎么做””的相关文章,希望姐妹们能喜欢,看官们一起来学习一下吧!

互联网上的信息量每时每刻都在增加,从中检索想要的数据就像大海捞针一样。基于内容的图像检索系统能够根据用户输入的内容,从海量的数据中检索用户所需的图像。这些系统在网络购物、智慧医疗等领域都有重要应用。


一般来说,图像检索系统有两种工作方式——基于文本和基于图像。基于文本,就是为系统数据库中的图像都添加标签或注释,用户输入文字描述,系统通过匹配用户输入的文字和图像标签,给出搜索结果;基于图像的检索就是“XX识图”:用户输入图片,系统自动识别图片内容,并检索出内容相关联的其他图片。


然而在我们人类的思考过程中,图像画面和文字描述经常同时在脑海中浮现。比如我看到朋友的笔记本电脑,非常喜欢,想拥有,但是我希望“如果它是银色的”就更好了。这样用户提交给检索系统的信息,就同时包含了图像(一张笔记本电脑的照片)和一些文字描述(银色的)。能综合处理这样两种输入内容的检索系统,就是“双模态”图像检索系统


双模态图像检索系统示意图 | 参考文献 [2]


近日,韩国光州科学技术院的研究人员开发了DenseBert4Ret,一种使用深度学习技术的双模态图像检索算法。这项研究由Moongu Jeon教授指导,由博士生Zafran Khan于 2022年9月14日发布于期刊《信息科学》(Information Science)中。


文中提出的模型同时接收图像和文字作为输入。为了从输入图像中提取特征,该团队使用了 DenseNet-121深度神经网络模型,使用的密集连接架构减少了层间信息损耗,允许输入层的信息直接流到输出层,在训练期间需要调整参数量非常少。另一方面,利用双向编码器表示法(bidirectional encoder representation from transformer,BERT)架构从文字输入中提取语义和上下文特征。随后两种输入信息的特征相结合,联合用于图像搜索。为了更好地训练联合特征,研究团队还使用了三重损失函数,减少了训练时间和计算要求,形成了拟议的模型DenseBert4Ret。


该团队使用Fashion200k、MIT-states和FashionIQ这三个真实世界的数据集来训练所提出的DenseBert4Ret算法,并与其他算法的效果进行比较,发现DenseBert4Ret的表现优于其他算法。


“我们的模型可以在任何有在线库存和需要检索图像的地方使用。”Jeon教授总结道。希望很快能看到 DenseBert4Ret 系统在我们日常使用的搜索引擎中的应用!


参考文献

[1]

[2]


编译:牛奶

编辑:靳小明

排版:尹宁流

题图来源:《指环王》


研究团队


通讯作者 Moongu Jeon:教授,光州科学技术大学电子工程和计算机科学学院


课题组主页


第一作者 Zafran Khan:博士生,光州科学技术大学电子工程和计算机科学学院


论文信息


发布期刊Information Sciences


发布时间 2022年9月14日


论文标题 DenseBert4Ret: Deep bi-modal for image retrieval

(DOI:)


未来光锥加速器是果壳硬科技发起的早期科技创业加速器,为科学家创业提供从公司注册、知识产权,到融资需求、团队组建等不同阶段的方案建议。加速科技成果从实验室到市场的转化,加速一部分科学家迭代成为CEO。

果壳团队有着长达12年为科学家服务的经验,我们始终站在科学家的视角出谋划策,做科创者的好朋友。如果您正打算创办一家科技企业,无论是找钱、找人、找资源,还是找订单,都欢迎与未来光锥团队聊聊。您可发送bp或其他项目资料到wlgz@guokr.com,并留下联系方式,或添加果壳硬科技企业微信,私信沟通。


标签: #图文匹配算法怎么做 #提取语义特征的方法主要有两种