龙空技术网

谈谈在B端落地第三方大模型的步骤

人人都是产品经理 409

前言:

当前同学们对“c程序设计第四版和第五版有什么区别”大概比较看重,兄弟们都想要分析一些“c程序设计第四版和第五版有什么区别”的相关资讯。那么小编在网上网罗了一些关于“c程序设计第四版和第五版有什么区别””的相关文章,希望朋友们能喜欢,我们快快来了解一下吧!

在B端系统落地应用大模型的过程中,企业可能会遇到哪些问题?又可以遵循怎样的落地步骤,以避免或减少问题的发生?这篇文章里,作者便对在B端落地第三方大模型的步骤进行了总结,一起来看一下。

一、引言

奇绩创坛创始人兼CEO陆奇博士曾经提出过“三位一体”的结构模型:“信息 + 模型 + 行动”。其解释了人类、组织等有机体的运作方式,也可用于概括互联网产品的组成结构:

图片引用于陆奇《我的大模型世界观》

在B端系统中,我们可以采用“信息 + 模型 + 行动”的结构来规划和应用人工智能的能力。利用业务所产生的数据作为输入,经过模型的规则总结,然后系统根据模型的预测结果来采取相应的行动。例如,我们可以利用AI的语言处理能力实现翻译功能,或者通过AI对客服问答进行总结,实现智能机器人客服。最终的目标是通过AI技术实现B端业务的成本降低和效率提升。

在当前生成式人工智能蓬勃发展的背景下,许多中小型企业希望结合第三方提供的大型模型能力,将自己的产品“重新用AI打造”。大多B端产品经理也在领导的要求下,被要求利用现有的大型AI模型来满足相关需求。

然而,我们需要思考AI是否真正适合自身的业务,如何选择适合的大型模型,以及如何在确保业务效果的前提下规避当前AI所面临的不可控问题。本文将对在实施AI落地过程中的一些思考进行梳理。

二、落地难点

事实上,大多数中小企业并没有自行训练大模型的能力,因此只能依赖第三方提供的大模型来进行需求开发。而这种情况下存在一些影响企业应用AI的问题:

1)AI的黑盒特性导致的不可控问题

目前的AI技术仍处于第二代系统阶段,远未达到AGI水平。因此,AI的能力仍然存在一定的局限性,主要表现在以下几个方面:

答案的可信度不确定:由于AI是基于已有信息的提炼和总结,对于新出现的问题和场景,AI可能无法提供有用的答案。尤其是在垂直领域的AI应用,可能无法产生有用的信息。答案的合规性不确定:AI是一种基于统计学的结果预测,本质上没有明确的是非判断能力。因此,在涉及道德、法律等层面的问题上,AI无法进行甄别或判断,容易给企业带来负面影响。

2)“大模型百家争”下的技术方案不确定性

目前,国内外的知名企业都在积极发展大模型,国内有文心一言、通义千问、盘古、星火认知大模型等数十家厂商。对于这些大模型的能力和边界,我们了解甚少,因此在决策企业AI技术落地时,面临着诸多问题,例如“应该选择哪些大模型”和“如何使用这些大模型”,这增加了企业决策AI技术落地的成本。

图片来源于网络

三、实施步骤

AI技术在B端的应用场景十分广泛,但本文将专注于研讨如何在发现一个可行的场景时,有效地实施落地的步骤,以解决企业在依赖第三方AI技术时面临的不可控性和不确定性问题。以下为个人总结的落地步骤:

1. 快速验证可行性

在明确B端系统要应用AI的具体任务后,需要进行快速的可行性验证。尽管尚未确定最终选用哪个大型模型,但可以先使用一种评价较高的大型模型进行验证,并请技术团队和业务团队进行评估。为了快速验证,您可以尝试搭建一个演示版本,以便迅速进行业务验证。为避免浪费开发成本,建议优先选择一些开源的技术实现方案,仅需支付部署费用即可。这样能够有效降低开发成本并提高开发效率。

其中测试的时候有两种验证方法可供尝试:

1)角色扮演法:测试者扮演B端系统的用户角色,模拟业务的交互流程并输入信息,以评估AI的返回结果是否符合业务要求。例如,可以模拟用户向智能机器人提问,观察AI返回的问题是否能够满足业务要求,从中判断AI是否能够在该场景中提供解决方案的方法。

2)数据模拟法:通过在线业务数据获取真实的样本数据,并进行人工筛选以确定具有代表性的数据案例。随后,批量输入这些数据到AI模型中以获取输出结果,并进行大规模的评估。

2. 建立指标体系进行模型选型

当确定AI技术可在B端上落地后,需要确定接入的模型能力。这里需要基于业务梳理模型评估体系,使用量化的指标便于多个大模型之间的对比,以便综合考量最终选取合适的大模型提供方。一般指标会包含以下内容:

1)召回率

召回率是模型训练中的概念,又称“查全率”,是一个常用的衡量数据挖掘模型在查询回归程度的指标。用简单的话介绍就是“原本需要系统判断出来的内容中,大模型真的抓出来了多少”,用来判断大模型能够准确判断的范围。

2)准确率

准确率同是模型训练中的概念,用于衡量模型预测正确的结果所占的比例。通俗地讲,就是模型判断正确了多少。

在大模型能力有限的情况下,召回率和准确率一定程度上是冲突的。为了判断得全,就会加大判断错误的概率。为了判断得正确,又会有案例没有没判断到。

召回率和准确性直接决定了大模型的服务能力。

3)安全性

由于是第三方服务,B端企业需要考虑到数据的安全问题,评估模型能否保护用户数据的隐私和安全,并符合相关的数据保护法规和标准。

4)可解释性

可解释性是指模型的结果能否被理解。可解释性高的模型,其黑盒程度相对更低,更具有可控性。

对B端业务来说,模型的结果需要能够被解释和理解,以便用户和业务决策者能够理解模型的工作原理和结果依据。

5)稳定性

结合自身业务端量级判断评估模型的性能,包括响应时间、吞吐量和并发处理能力。模型需要能够在合理的时间内处理大量的请求,并保持高效的性能和稳定的服务。

6)成本

使用大模型是有成本的,例如使用ChatGPT需要按照token进行收费。此外,不同版本的大模型收费标准也不同,例如ChatGPT4.0版本虽然效果更好,但成本却是3.5版本的40倍到60倍。因此,在选择大模型时,需要结合业务量级进行成本评估,以确保AI需求真正能够实现”降本”的目标。

7)发展潜力

评估大模型提供方的潜力,后续是否有可能提供更好的服务能力。

基于上方指标进行多个大模型之间的对比,按照指标权重综合考虑,最终选择最合适的大模型以接入。

3. 海王思维,两手准备

随着人工智能的快速发展,企业在选择和应用大型模型时面临着不确定性。原本使用的大型模型可能随时被新出现的更优秀模型所取代,以满足业务需求。这种替换可能会导致额外的成本,对企业的B端系统建设进度产生不利影响。因此,在实施企业的人工智能需求时,需要具备一种“海王”思维:

1)做好随时“分手”的准备

确保基于大模型的需求实现方案不要过于定制和耦合,明确好自身系统和第三代模型的边界。把第三方大模型当作一个可随时替换的“插件”,做好随时替换的准备,当目前使用的大模型技术由于成本或者能力问题需要替换的时候,可以随时抽身而退。

2)确定模型评估方案,定期勾搭市面上的其他模型

由于当前AI发展日新月异,为了不让企业落后,产品团队需要定期接入最新的模型进行测试和验证,利用前面搭建的“模型评估体系”判断最新的模型与原有模型的差异,以用于判断“是否替换”或是“保持使用”。

4. 确保兜底逻辑,规避AI的不可控风险

由于AI输出的答案存在不确定性问题,在涉及面向C端用户的业务场景中,直接应用AI输出结果可能导致无法控制的影响。因此,为规避相关风险,我们需要采取以下措施:

1)建立自主AI结果检测程序,拦截无效输出结果:我们可以通过建立AI结果检测程序来识别可能对业务产生影响的内容。通过使用词库和正则匹配等方法,我们可以甄别并拦截AI生成的错误结果。对于出现错误的结果,我们将重新执行AI生成逻辑,直至获得正确的输出内容。

2)引入人力兜底方案以应对影响用户的内容:对于不直接影响用户的内容,我们可以直接采用AI的判断结果。

然而,对于可能对用户产生影响的内容,最好由人力进行兜底控制。例如,在审核环节中,我们可以引入“机审”和“人审”的组合,使用“机审”对内容进行初步筛选,而“人审”则负责处理AI无法准确判断的内容。又例如,在智能对话客服环节,我们可以引入“人工入口”,以确保在机器无法解决问题的情况下,引导用户寻求人工帮助,避免对用户体验造成影响。

四、总结

总体而言,使用第三方大模型可能会引发一系列问题,由于第三方技术的不可控性,这可能会影响中小企业在B端的实施。

为了避免这些问题,确定落地方案时需要快速进行可行性验证,并建立指标体系来进行选择。同时,还需要做好两手准备和兜底逻辑,以应对市场的快速发展和AI技术带来的风险。

本文由 @柠檬饼干净又卫生 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

标签: #c程序设计第四版和第五版有什么区别