前言:
目前朋友们对“多媒体搜索算法是什么”大约比较注意,兄弟们都想要剖析一些“多媒体搜索算法是什么”的相关资讯。那么小编在网络上汇集了一些有关“多媒体搜索算法是什么””的相关知识,希望大家能喜欢,姐妹们一起来了解一下吧!一提到搜索引擎,相信绝大多数人第一个想到的就是百度,但实际上包括字节跳动在内的国内很多一线互联网企业都曾布局过搜索引擎业务。
2020年,字节跳动推出了独立搜索引擎“头条搜索”发力搜索引擎市场,且在2021年2月17日,抖音推出手指视频搜索宣传片,抖音的Boss直聘账号也公开招聘抖音搜索产品经理、搜索运营等职位。不过,由于市场中绝大多数人没有听说过头条搜索,作为一款新鲜搜索引擎,头条搜索仍有很长的路要走。
财大气粗的阿里巴巴在搜索引擎上走的则是一条更简单直白的路线,直接瞄准了百度占有率仍偏低的移动搜索引擎市场,2014年,在阿里与UC联手推出神马搜索后,看中UC在移动浏览器中的市场地位的阿里,便全资将UC收入囊中。2016年“夸克”作为UC与阿里的甜蜜结晶正式诞生,尽管以简洁的页面在小范围内聚集了一批用户,但夸克还是太小了,在搜索引擎市场中的影响如其名称一般只有“夸克”大小。
腾讯也早在2006年就开始运营搜搜(SOSO),2017年推出基于微信生态的微信搜一搜,尽管基于微信生态,搜一搜有着十分广大的用户生态,但也因此,搜一搜并不能作为独立的搜索引擎独立出来。2020年,微信全资收购搜狗在业内引起一片哗然,而市场占有率第二的搜狗业务量仍不足百度二分之一。
反观以搜索引擎起家的百度,却经常因排名竞价与SEO等原因被大众认为“不好用”,很多时候某一关键词下前四条后四条分别为竞价搜索,中间两条再加上百度百科、百度图片与百度知道,搜索首页完全成了百度一家产品的大杂烩。而且在一些想要搜索音频内容、视频内容以及3D内容时,传统搜索引擎都显得十分力不从心。
做一款好用的搜索引擎究竟有多难?从各头部互联网品牌纷纷效仿百度布局搜索引擎市场可以简单看到两点:
1.搜索引擎市场庞大,字节、阿里、腾讯并未与初创公司拉开较大差距;
2.用户习惯已经形成,即便字节、阿里、腾讯级别企业投入大量资源也难以改变现有市场格局。
市场在搜索领域可以说既给了初创公司足够的机会,却没有留给初创企业足够的空间。以极纳科技(下简称“极纳”)为代表的一批初创企业却在神经搜索框架的开发中看到了新的商机。
传统搜索模式为关键字搜索,无论用户希望搜索到何种结果,都需要先在脑海中先将所需内容以文字表现出来,再进行搜索,因此搜索结果很难保证与所需内容达成适配。为此百度也推出了“百度识图”,各家音乐平台也推出了听歌识曲等产品。但其推广程度远不如核心文字搜索引擎,且随着内容维度的丰富,视频材料、3D场景材料的搜索目前市场中仍缺少对应产品。
极纳则瞄准这一市场,推出了多模态开源神经搜索框架。区别于传统的关键字匹配搜索引擎,神经搜索通过神经网络、深度学习去匹配输入内容与数据库中内容的相关性,从而提供并排序搜索结果。
神经搜索最直接的优势在于语义差的消除,以文字内容为例,如搜索“三年时间北京房价浮动变化”传统搜索引擎会将语句拆分,“三年时间”可能搜索到一大批结果,“北京房价”又是一大堆结果,最后结果累计查询到的内容可能多达上百万,甚至包含大量的房屋楼盘广告。而搜索者想看到的可能仅仅是北京房价在过去三年时间内的变化趋势。而神经网络下,可将我们想搜索的内容与查询到的结果映射到同一语义空间中,以消除语义差。
除此之外,神经搜索甚至可以普及到更多方面,包括以图搜图、以视频搜视频乃至跨模态的搜索。在神经搜索框架下,仅需一张剧照便可搜索到你想要的视频,而不是搜索到更多其他剧照,这便是神经网络的神奇之处。
从背后技术来讲,神经搜索不仅仅能够更有效地服务使用者,对于开发者而言,神经搜索也有独特的技术优势。目前市场上的以图搜图、以音搜音仍是将这些多媒体信息进行标签化处理后通过匹配标签找到搜索结果,而神经搜索的优势就在于不打标签,不去进行符号化的标签匹配,而是通过神经网络将所有特征映射到同一空间,在同一空间中进行相似意义的搜索。
极纳联合创始人&COO何烜彬向创业邦表示:“随着媒体表现形式的不断延伸拓展,标签化的搜索模式在很多场景下已经无法满足用户的搜索需求。”以游戏开发工作者为例,许多需要进行3D渲染的场景,其素材是动态的、3D的,传统搜索引擎难以描述,进行2D截图也很难搜索到3D材料,而神经网络的跨模态搜索则可以顺利帮助开发者搜索到对应素材。
商业模式方面,目前极纳仍采用开源项目制的方式来运营。何烜彬表示:“项目开源让我们看到了神经搜索在各个领域新的可能性,也是市场发展的一个最佳路径。”开源项目意味着更多开发者可根据现有框架,在此基础上进行二次开发,以得到更成熟、更偏向应用的落地产品。
法国的一位软件工程师就以极纳神经搜索框架为基础开发了法院判例搜索引擎,输入当前案件描述便可快速匹配到性质相似案件,而非关键字相似案件,因此该款搜索引擎可帮助判例法司法体系快速匹配相似案例,以辅助律师完成辩护工作。
极纳科技是一个具有国际化视野的创业公司,公司团队近30人,分布在中国、美国、德国、西班牙、印度等十余个国家。目前社区成员约为600余人,也同样遍布于世界各地。与前瞻的国际化视野相呼应的是,极纳的竞争对手实力雄厚,包括从 Google、微软、 Facebook内部孵化出的项目,以及从这些企业中跳出而自己选择创业的创业者,在面对如此强大的竞争对手时,极纳作为一个创业公司选择了走开源的道路以取得产品市场发展的速度优势。
在另一方面,传统搜索引擎之所以能够经久不衰很大程度上依赖于用户使用习惯,但教育市场,改变人们的思维模式需要投入的成本是巨大的。极纳通过开源的方式从开发者角度切入,可以更快更有效地、以成熟产品的形态渗透到人们的日常生活中,为产品的最终商业化落地提供市场土壤。
目前,极纳在多媒体的搜索返回场景中,通过通用框架搭建的搜索系统可满足85%以上的用户需求,并且这一数字仍在随着开发工作的不断推进逐步提高;后端数据承载量已达千万级。
何烜彬表示:“极纳的商业化未来会从欧美市场着手,这主要与北美市场对于开源项目的接受程度有关。目前从下载数据来看,极纳的主要下载市场仍以北美为主。”而现阶段,极纳则将更多的精力倾注于社区的搭建,以形成开源项目的社区壁垒。此外,关于融资进展,极纳曾于2020年相继完成由云启资本独投的天使轮融资以及GGV资本领投,SAP.io和种子轮投资方云启资本参与跟投的Pre-A轮融资。对于下一步融资计划,何烜彬表示:“新一轮的融资进度将与人才规模扩充相关,短期内暂无计划。”
图片来源:极纳科技
标签: #多媒体搜索算法是什么