5款主流国产大模型PK：谁最好用？谁更懂你？我们帮你试了试

上观新闻 04-16 4010

前言：

此刻咱们对“请问模型”大致比较重视，你们都想要了解一些“请问模型”的相关资讯。那么小编同时在网上网罗了一些关于“请问模型””的相关内容，希望咱们能喜欢，同学们一起来学习一下吧！

近日，包括百度、百川智能等8家国产大模型通过首批备案“持证上岗”。用户可在对应平台上申请账号，与AI智能对话。

那么，这些大模型是否真的无所不知？真的能帮助用户解决问题？还是一个放大版的Siri呢？

记者选取了其中五款模型，包括豆包（字节云雀大模型）、通义千问（阿里通义大模型）、讯飞星火（星火认知大模型）、文心一言（百度文心大模型）、智谱清言（智谱 ChatGLM 2大模型），从搜索能力、上下文理解能力、情感分析力、编程能力四个方面来考察，出了一张20道原创考题的“试卷”，看看哪款模型最好用。

谁能代替搜索引擎？

信息搜索是普通用户最有可能使用大模型的场景，那么，它们真的可靠吗？

从结果来看，豆包的信息搜索能力较强，其余大模型存在信息过旧、信息错误、无结果的问题，远无法代替搜索引擎。

记者询问的是“请告诉我《解放日报》的地址”。只有豆包准确地说出正确答案，而文心一言、智谱清言或许是数据库并未更新，提供的地址均为旧址，读者按照这个地址可找不到报社。

讯飞星火和通义千问更是离谱。讯飞星火捏造了一个错误的地址；而通义千问则建议记者在搜索引擎搜索，或是去官网寻找，可谓是“问了也白问”。

豆包的信息最为准确。

如果是涉及法律、经济等专业知识，大模型的表现会更好吗？

记者询问了第二个问题，“从法律的角度分析，妈妈和女朋友同时掉进水里，你会救谁？”

这一问题虽是坊间常见的谈资，但题目限定在法律角度下，因此考验大模型对法律法规的理解。这种极端的情况下一般没有标准答案，通常认为（非法律实操层面），子女对直系亲属有救助义务，但恋人并非直系亲属。

从结果来看，豆包与讯飞星火较为可靠，逻辑清晰且无明显漏洞，似乎可以给男士们提供参考。

通义千问没有注意到法律限定词，回答较为笼统，属于“正确的废话”；而文心一言的答案更妙，看似非常的专业，引用了刑法，但核查后会发现存在较多事实性错误，属于一本正经地瞎说。

文心一言的回答有较多事实性错误。刑法第二百三十一条规定“单位犯本节第二百二十一条至第二百三十条规定之罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照本节各该条的规定处罚。”同时，回答中“无论你先救哪一个都可能被指控违法行为”有误。

不仅仅是文心一言，通义千问也存在专业信息失实的问题。

在询问“人民币的发行机构是什么？”后，通义千问虽说出正确答案，但引用的《中国人民银行法》也是错误的，第二十一条规定并非如它所说。

看来法律知识依旧是大模型越不过去的坎啊。

《中国人民银行法》第二十一条规定“残缺、污损的人民币，按照中国人民银行的规定兑换，并由中国人民银行负责收回、销毁”。

谁能和你顺畅聊天？

对话是大模型产品与用户联系最紧密的功能之一，能听懂、答得上、会接梗都是大模型的“必修课”，国产大模型在这堂课上能打几分？

“上周他去了医院”“这周他回到了工作岗位”，说出这两句话，大模型能猜出这两周发生了什么事情吗？虽然两句话缺少直接的因果关系，但这五个大模型几乎都能答得出——“他”可能生病了，去医院看病康复了之后，这周开始重新上班。

不过，文心一言的回答似乎更加全面，将可能性分成了三部分：其一是生病或受伤，经过治疗康复后重返岗位；其二是与慢性疾病有关，只是去医院做了检查或手术；其三是没有生病，去医院只是进行体检或打疫苗而已。由此可看出，文心一言用了“穷尽式”的方法，虽然回复比较啰嗦，但更为精确。

紧接着，记者再问一句“那他上周为什么不来上班”，为了考察大模型是否能联系上下文理解。令人吃惊的是，豆包、讯飞星火、通义千问、智谱清言都能答得出“上周去医院”，只有文心一言完全忘记了上轮对话，“无法确定上周为什么没来上班”，再次“穷尽式”回答出缺席上班的原因。

在情感分析方面，记者通过文本分析、情感强度对比，以及用西班牙语等方式表达情感，结果证明五个大模型都是“情感大师”，对记者说话时的“微情感”把握非常准确。

为了更好测试日常对话中的非常规对话的理解，记者讲了“网络冷笑话”——林黛玉为何倒拔垂杨柳，结果难倒了一批大模型：豆包判断出林黛玉和倒拔垂杨柳出自不同的典故，解释了两者的原始出处，并指出两者毫无关联，但没有找出这句话背后的“网梗”，而通义千问和智谱清言敏锐地发现了“网梗”，还将原文出处和网友们的联想全部展现出来。

也就是说，多数大模型在应付日常交流对话已经基本没多大问题，但要学会幽默“接梗”还为时尚早。

谁能帮你写代码？

在ChatGPT发布后，部分程序员就曾感慨“要失业了”，因为大模型在编程、找漏洞方面有一定优势。

那么，在上述五款国产大模型中，谁的编程能力更佳呢？谁又能教你写代码呢？

记者从基本算术运算、条件语句、IF循环、函数和数据结构五个方面入手，以编程初学者的身份来试试大模型。

从编程能力上来看，五款大模型并无较大区别，代码正确且能运行，不存在前文中遇到的“瞎编法律条文”的情况。

如果硬是要挑一些问题的话，星火的代码简洁性欠佳。因为即使是最简单的加法，星火都套用了def函数，而其余模型皆为直接运算。

星火在计算简单的加法。

但并不是每一款大模型都适合当编程老师。

从代码的可读性上来看，文心一言比较适合初学者学习编程。因为它不仅在代码中插入了#号说明，标示出每一步的含义，同时在文末附上文字总结，以帮助用户理解代码的逻辑。更贴心的是，文心一言还点明注意事项，例如在询问判断数字正负的问题中，它提醒编码者注意用户输入的信息，建议添加错误处理代码的语句。对于初学者而言，十分友好。

相较之下，星火的可读性最弱，说明性文字较少，编程小白容易看不懂。

文心一言的代码与文末总结。

从上述测试结果来看，各大品牌模型各具特色，用户可根据实际需求进行选择。

此外，除了文字问答外，大模型还有其他功能。根据新华社研究院中国企业发展研究中心今年8月发布的《人工智能大模型体验报告2.0》，星火还可用于数据自动分析、可视化工具等，辅助人类提高工作效率；文心一言则善于处理深度的语义理解和文本生成；商汤商量则在情商上表现优秀，具有读懂日常沟通中一语双关的能力，也能在人际关系处理中出谋划策。

整体而言，我国AI大模型发展火热，上半年相关融资事件超过20起，不仅有超过20款通用大模型，也有与教育、金融、医疗紧密结合的垂直大模型应用。产业生态已初步形成，在政府、企业、学界等各方的共同努力下，我国人工智能产业将实现跨越式进步、发展。

附：记者设计了20道大模型测试题，部分测试结果包含主观因素，仅供参考。

知识理解

1、网络流行语：林黛玉为何倒拔垂杨柳？

“林黛玉倒拔垂杨柳”是著名的“网梗”，来自网友们的恶搞，类似的还有“猛张飞病补雀金裘””宋公明三打白骨精”“刘姥姥醉打蒋门神”等。

这不仅能考验大模型对四大名著的理解，还能判断出大模型对当前网络俚语的理解程度。

豆包

通义千问

文心一言

讯飞星火

智谱清言

2、信息搜索与联想：上观新闻地址在哪里？解放日报地址在哪里？

上观新闻是解放日报旗下新媒体，通过询问解放日报和上观新闻的地址，既能考验大模型的搜索能力，还能判断出大模型能否将二者联系在一起。

通义千问

文心一言

讯飞星火

智谱清言

3、法律知识：从法律的角度分析，妈妈和女朋友同时掉进水里，你会救谁？

豆包

讯飞星火

智谱清言

4、政务知识：人民币的发行机构是什么？

豆包

通义千问

文心一言

5、道德悖论：假设你是火车司机，面临两条分叉铁轨，一条上躺着5个人，另一条躺着一个人，你无法刹车但是可以控制方向，你会选择驶向哪条铁轨？

经典的“电车难题”考验大模型的道德思维和逻辑表达能力。

豆包

通义千问

文心一言

讯飞星火

智谱清言

上下文理解

1. 故事连贯性：给定以下两句话“他打开了冰箱。冰箱里没有食物。” 请问，这两句话之间是否存在逻辑上的连贯性？

豆包

通义千问

文心一言

讯飞星火

智谱清言

2. 信息引申：给定一段文本描述了一个人正在炖汤，然后突然提到他切了一些新鲜的蔬菜。请问，你认为这些蔬菜将被用于什么？

豆包

通义千问

文心一言

讯飞星火

智谱清言

3. 词汇联系：给定一句话“她买了一本有关星座的书。”请问，这句话中的“星座”一词通常与什么相关联？

豆包

通义千问

文心一言

讯飞星火

智谱清言

4. 时间序列：给定以下两个事件“上周他去了医院。这周他回到了工作岗位”。请问，这两个事件之间发生了什么？

豆包

通义千问

5. 引用上下文：那他上周为什么不来上班

情感分析

1. 文本情感分析：给定以下句子“我今天过得很开心”。请问这个句子表达了什么样的情感？

2. 多语言情感：请分析以下句子的情感，该句子以西班牙语编写“Estoy muy emocionado por mi próximo viaje.”

3. 情感强度：给定两个句子“我很高兴”和 “我非常高兴！” 请问，哪一个表达了更强烈的情感？

4. 情感变化：分析以下文本段落中的情感变化“他一开始感到害怕，但后来变得勇敢起来。”

编程能力

编程基础：编写一个简单的程序，将两个数字相加并输出结果。例如，输入5和3，输出8。

2. 条件语句：编写一个程序，接受用户输入的数字，并判断该数字是否为正数、负数或零，然后输出相应的消息。

3. 循环：编写一个程序，计算并输出1到100之间所有偶数的和。

4. 函数：定义一个函数，接受一个字符串作为参数，然后返回该字符串的反转版本。例如，输入“hello”，返回“olleh”。

5. 数据结构：创建一个列表（数组）包含一组整数，然后编写一个程序，找到列表中的最大值和最小值，并输出它们。

栏目主编：李晔题图来源：上观题图图片编辑：雍凯

来源：作者：连俊翔查睿

本文地址：http://www.longkongtuishu.com/caf0bBA1sDVcFD1E.html

标签： #请问模型