龙空技术网

信创潮下,没有搜索引擎数据库的国产替代岂能安枕?

大数据观察狮 9968

前言:

眼前大家对“基于es的搜索引擎”大致比较重视,朋友们都需要学习一些“基于es的搜索引擎”的相关资讯。那么小编也在网络上收集了一些对于“基于es的搜索引擎””的相关知识,希望我们能喜欢,同学们一起来学习一下吧!

近期,“俄乌冲突”引发了全球局势的重大变化。在真实硝烟背后,一场没有硝烟的科技战已激烈打响,众多美欧科技巨头先后宣布对俄“断供”。硬件方面,英特尔、AMD、联想、戴尔、苹果等科技企业宣布停止对俄罗斯供货。软件方面,SAP、Oracle、GitHub、Elastic等软件巨头宣布停止在俄罗斯的产品销售和服务。这意味使用这些巨头产品的企业、机构业务将面临瘫痪。“科技无国界”的口号可以随时被国家利益所影响,契约可以毁坏,规则可以打破,开源的大门可以突然紧闭。在经济全球化的时代,科技显然已经成为大国博弈的重要利器。

01 搜索引擎数据库的国产替代,任重而道远

数字经济时代,全球数据量激增,各行各业对数据库的需求持续增长。作为三大基础软件之一,数据库是计算机行业的基础核心软件,所有应用软件的运行和数据处理都要与其进行数据交互。

据IDC统计,国外数据库巨头仍占据中国市场重要份额。2021年第一、二季度,甲骨文、微软、SAP、IBM四家国外大厂在中国本地部署关系型数据库市场中合计占据45-50%的份额,国产供应商主要包括达梦、南大通用、阿里、人大金仓等,合计占据约30%的份额。随着国内信创改革推进,国内数据库行业迎来多方利好。2021年国产数据库中标量同比增长140%,中标金额同比增长166%。艾瑞咨询预计,2025年中国数据库市场行业规模将超过500亿元。

国产数据库浪潮已起,但市场上主流的都是关系型数据库。大多数组织都通过关系型数据库很好地管理与利用了结构化数据,但是很多业务的重要见解都隐藏在非结构化数据中。当前行业公认,非结构化数据占数据总量的80%以上,如管理制度、业务报告、研究和法律报告、工程/项目文档、公文、电子邮件、培训文档、视频、图片和社交媒体帖子等。随着我国数字化转型的蓬勃发展,这一差距还将继续扩大。这种非结构化数据的处理需要依赖基于全文检索的搜索引擎技术,而目前市场上开放源代码的最好全文搜索引擎主要是Solr 和 ElasticSearch(以下简称ES)。

我们或许可以思考,目前我国信创数据库目录中只有关系型数据库是不够的,搜索引擎数据库会是信创数据库的下一个爆点吗?

02 搜索引擎数据库应用广泛,市场规模巨大

搜索引擎数据库经过几十年的发展,已经能对数字、文本、地理位置、结构化数据、非结构化数据等所有类型的数据进行综合管理。搜索引擎和机器学习的新技术发展,正在扩展我们使用非结构化内容进行企业知识发现、搜索、业务洞察和行动的能力。新的搜索和人工智能驱动的用例每天都被创新出来,以提供更多的价值和更好的结果。凭借在数据查询效率方面的优势,搜索引擎数据库在数据处理方面的地位越来越高,并在应用程序搜索、网站搜索、企业搜索、智能问答、图像与语音搜索、语义搜索、业务分析和安全分析等方面有着广泛的应用。搜索引擎数据库正成为非结构化大数据处理分析领域中重要的基础支撑软件。

根据IDC测算,当前全球搜索引擎数据库的市场规模已超过450亿美元,其中搜索系统、内容分析和认知/AI软件平台的市场规模约80亿美元;IT运营管理约90亿美元;大数据和分析软件(高级预测分析、空间和位置分析、非关系分析数据存储、分析数据的集成和完整性)约230亿美元;安全分析(安全信息和事件管理、政策和合规、取证和事件调查)约50亿美元。

03 搜索引擎数据库市场ES一家独大,诸多安全隐患令人惴惴不安

ES自发布以来迅速占领了全文搜索引擎市场,目前国内外很多企业已放弃自主研发,逐渐转投ES阵营。根据ES财报显示,公司在2021/2022财年的营业总收入达到8.62亿美金,其市场规模保持30%以上的年均复合增长率。

近几年来,ES数据泄露事件频发给国内各行业用户敲响了数据安全的警钟。今年,漫画阅读平台 Mangatoon 遭遇数据泄露,黑客从不安全的 ES 数据库中窃取了属于 2300 万用户帐户的信息。根据Group-IB报告显示,2021年网络上暴露的 ES 实例超过10万个,约占2021年暴露数据库总数的30%。2019年底发生的一起ES数据库泄露,包括27亿个电子邮件地址,其中10亿个密码是以简单的明文存储,涉及国内多家互联网公司。

开源软件和安全工具受到国外出口法律限制,如2021年美国商务部和安全局发布最新控制措施,禁止美国公司向中国和俄罗斯等国家出口和转售网络安全产品;近日,美国商务部和安全局又发布了一项针对网络安全领域的出口管制规定,未经审批禁止向中国分享安全漏洞,这意味着如果继续使用国外软件,安全问题将完全掌握在别人手里。

开源协议变更也带来商业风险。2021年初, Elastic公司决定将Server Side Public License 和 Elastic License两款开源软件的 Apache License 2.0 变更为双授权许可。其核心条款是“如果将程序的功能或修改后的版本作为服务提供给第三方,那么必须免费公开提供服务源代码”。这意味着不法分子可以获得其源代码并研究其漏洞,给企业用户带来巨大的安全风险。

ES的安全能力不足,开源协议变更,加上大国科技博弈的风险加剧,国内搜索引擎数据库ES一家独大的现状令人惴惴不安。

04 搜索引擎数据库坚持自主研发是国产替代的必由之路

回首十几年前,国内做搜索引擎数据库的厂商也曾百花齐放,如拓尔思、国信贝斯、浙江天宇、中搜等都推出了自研的全文检索系统,广泛应用于图书馆、档案馆等信息化项目,但现在大部分公司很多都退出了搜索引擎市场,甚至公司都烟消云散了。与此同时,互联网平台企业在业务发展中为了灵活性和短期利益,广泛采用开源的ES作为搜索引擎数据库,现在他们把目标扩大到为行业客户进行科技赋能,由于他们巨大的市场资源和影响力,这些基础软件在推向企业市场中存在巨大的安全隐患。目前国内坚持在搜索引擎数据库领域自主研发并保持技术领先的企业已凤毛麟角。

拓尔思信息技术股份有限公司在信创产业和国产数据库行业始终坚持自主研发,肩负时代责任和使命。作为中文全文检索技术的开创者和引领者,早在上世纪90年代,拓尔思就推出了第一代全文检索系统TRS Database Server,并被数以万计的用户采用。30年来,拓尔思不忘初心,通过不同行业的应用牵引持续迭代,一直坚持对数据库自研技术的长期研究。

TRS海贝大数据管理系统(以下简称海贝)是拓尔思自主研发的一款搜索引擎数据库,适用于数字、文本、地理位置、结构化数据、非结构化数据等所有数据类型,为大数据应用提供高效的数据存储、全文检索、分析统计等数据管理服务。

· 自主可控

国内厂商大多数都以开源的ES作为搜索引擎数据库,小部分厂商在开源Lucene引擎的基础上进行封装,而海贝是目前国内少有的从底层分词算法到全文搜索引擎,以及上层系统都完全自研的纯国产搜索引擎数据库。海贝已完成与龙芯、海光、飞腾、鲲鹏等国产芯片以及中标麒麟、统信UOS等国产操作系统的适配工作,完全满足信创要求和国产化替换需求。

· 数据安全

海贝采用多副本机制解决数据的可用性问题,通过数据校验以及WAL技术解决数据的完整性问题,通过完善的权限管理机制、HTTPS、加密存储(支持数据与索引完全加密)等机制解决数据访问和数据存储的机密性问题。加密采用国产加密算法,可以配合国产加密卡达到金融级数据安全。另外,海贝还具有黑白名单、用户隔离、删除保护等安全机制。

· 综合能力

在搜索能力方面,相较于以Lucene(Java语言)为引擎的ES,海贝基于一个纯C内核的TRS引擎,系统资源的使用更加合理可控,复杂搜索响应性能更优,不会出现因为数据索引、超长表达式检索、通配符检索等操作导致系统进入长时间FullGC而无法响应的情况。海贝提供了更加专业的段、句、位检索、XML检索,支持度量衡数据的数值区间检索等高级功能。具体功能对比如下:

· 生态兼容

海贝具有高度开放性,不仅兼容ES常用接口,还可对接Hadoop、Spark/SparkSQL、OpenStreetMap等。

· 平滑替代

搜索引擎数据库作为一款大数据重要支撑软件,用户在国产化替代的规划与实施博弈中,经常出现知易行难的问题,替换成本和替换效果都是重要的考量因素。

众所周知,“信用中国”网站是由国家发展改革委、人民银行指导,国家公共信用信息中心主办的政府褒扬诚信、惩戒失信的总窗口。平台早期部署在某共有云,由知名搜索引擎公司基于ES架构提供搜索技术支持。“信用中国”网站提供全国1亿多家企业的信用信息、信用代码公开查询服务,属于高频公共服务。经过一段时间运行,“信用中国”遭遇高并发瓶颈,当查询流量突增较大时,系统经常卡顿,导致用户满意度下降。2019年,我国政府正式提出发展信创产业,各地政府也纷纷采取实际行动支持信创产业的发展。“信用中国”也在2019年初启动了升级改造,将系统迁移到国家电子政务外网。同时,通过市场优选,拓尔思成为其新技术服务商,用海贝完成了ES的平滑替代。迁移改造后的“信用中国”,只用了12台PC服务器搭建,便支撑了每秒5000+次的高并发查询,且长期运行稳定,得到了国家公共信用信息中心的高度认可与赞赏。

从2015年开始到现在,某部科技信息化局每年都举办一次全国“某部云搜索”技术交流比赛。成功入围前10名的选手会被授予应用之星的荣誉称号。在这几年期间,全国涌现了众多“某部云搜索”优秀选手,他们善用“某部云搜索”进行情报线索分析研判服务实战,多人因此受益还曾多次荣立三等功。“某部云搜索”的幕后技术英雄正是拓尔思!这是海贝成功实施的第一个PB级大数据搜索引擎。在该项目中,海贝对接了Oracle、ES、DB2、MySQL等多款主流数据库,汇聚了基础信息、背景信息、活动轨迹信息等100多种信息,涵盖了结构化、半结构化、非结构化数据所有类型,总数据量达500亿+,每日实时更新约5000万条各类信息。“某部云搜索”为全国数万专业人士提供一键搜索、轨迹分析、关系分析,支撑了系统内部核心业务,提高了工作效率。“某部云搜索”上线多年,运行稳定,服务实战,已然成为大数据分析转化为侦查破案的“倍增器”!

多年来,海贝已广泛应用于公安大数据、政府大数据、知识产权大数据以及媒体大数据等众多细分领域。公安部、新华社、市场监督管理局、海关总署、专利局、商标局等一系列国家级用户都选择了海贝作为安全可信赖的海量数据搜索引擎。经过大量国家级基础数据库项目的实践和经验,拓尔思积累了一套成熟的、标准化的ES平滑迁移方法,全程保障数据与业务的平滑迁移。

海贝作为一款纯国产自研的搜索引擎数据库,支持所有数据类型,功能完备,安全可靠,兼容ES常用接口,对接主流生态,具备良好的产品力。拓尔思作为国内A股上市公司,技术实力雄厚,具有丰富的国家级重要数据库项目的实施经验,分支机构遍布全国,能为全国用户提供专业的原厂服务,保障用户售后无忧。综上所述,纯国产自研的海贝具备足够媲美的产品力,拓尔思公司具有众多国家标杆项目成功经验以及本土化服务能力,完全可以平滑替代ES。

展望未来几年,我国在加快推进数字化转型,随着将数字和物理领域融合在一起的AI、机器人、物联网和其他技术日益发展,非结构化数据的倍增规模将进一步扩大。数据库在云计算、大数据、人工智能等加速发展下,也必然会有侧重不同应用的分叉过程。尤其是深度学习技术崛起后,非结构化数据被神经网络转成向量、矩阵、张量等数据,对这些数据的搜索、查询、分析也将成为一个新需求。在这个新兴的领域,搜索引擎数据库作为大数据支撑软件的重要性越发突显,其应用场景也越来越多,如帮助客户轻松创建各种场景的AI应用,包括计算机视觉、图像检索、视频分析、NLP、推荐引擎、定向广告、定制搜索、智能聊天机器人、欺诈检测等。信创风起,未来已来,搜索引擎数据库坚持自主研发是国产替代的必由之路!

标签: #基于es的搜索引擎