基于深度学习的双模态图像检索算法，综合处理图文，精准搜索

未来光锥科技 07-20 691

前言：

眼前咱们对“图文匹配算法怎么做”大体比较关切，同学们都想要知道一些“图文匹配算法怎么做”的相关资讯。那么小编同时在网摘上搜集了一些对于“图文匹配算法怎么做””的相关文章，希望姐妹们能喜欢，看官们一起来学习一下吧！

互联网上的信息量每时每刻都在增加，从中检索想要的数据就像大海捞针一样。基于内容的图像检索系统能够根据用户输入的内容，从海量的数据中检索用户所需的图像。这些系统在网络购物、智慧医疗等领域都有重要应用。

一般来说，图像检索系统有两种工作方式——基于文本和基于图像。基于文本，就是为系统数据库中的图像都添加标签或注释，用户输入文字描述，系统通过匹配用户输入的文字和图像标签，给出搜索结果；基于图像的检索就是“XX识图”：用户输入图片，系统自动识别图片内容，并检索出内容相关联的其他图片。

然而在我们人类的思考过程中，图像画面和文字描述经常同时在脑海中浮现。比如我看到朋友的笔记本电脑，非常喜欢，想拥有，但是我希望“如果它是银色的”就更好了。这样用户提交给检索系统的信息，就同时包含了图像（一张笔记本电脑的照片）和一些文字描述（银色的）。能综合处理这样两种输入内容的检索系统，就是“双模态”图像检索系统。

双模态图像检索系统示意图 | 参考文献 [2]

近日，韩国光州科学技术院的研究人员开发了DenseBert4Ret，一种使用深度学习技术的双模态图像检索算法。这项研究由Moongu Jeon教授指导，由博士生Zafran Khan于 2022年9月14日发布于期刊《信息科学》（Information Science）中。

文中提出的模型同时接收图像和文字作为输入。为了从输入图像中提取特征，该团队使用了 DenseNet-121深度神经网络模型，使用的密集连接架构减少了层间信息损耗，允许输入层的信息直接流到输出层，在训练期间需要调整参数量非常少。另一方面，利用双向编码器表示法（bidirectional encoder representation from transformer，BERT）架构从文字输入中提取语义和上下文特征。随后两种输入信息的特征相结合，联合用于图像搜索。为了更好地训练联合特征，研究团队还使用了三重损失函数，减少了训练时间和计算要求，形成了拟议的模型DenseBert4Ret。

该团队使用Fashion200k、MIT-states和FashionIQ这三个真实世界的数据集来训练所提出的DenseBert4Ret算法，并与其他算法的效果进行比较，发现DenseBert4Ret的表现优于其他算法。

“我们的模型可以在任何有在线库存和需要检索图像的地方使用。”Jeon教授总结道。希望很快能看到 DenseBert4Ret 系统在我们日常使用的搜索引擎中的应用！

参考文献

[1]

[2]

编译：牛奶

编辑：靳小明

排版：尹宁流

题图来源：《指环王》

研究团队

通讯作者 Moongu Jeon：教授，光州科学技术大学电子工程和计算机科学学院

课题组主页