龙空技术网

ChatGPT 正在冲击科学世界观的核心

AI算法实战 291

前言:

现时姐妹们对“算法就是计算机程序”大约比较重视,姐妹们都需要分析一些“算法就是计算机程序”的相关资讯。那么小编也在网络上网罗了一些有关“算法就是计算机程序””的相关知识,希望同学们能喜欢,小伙伴们快快来学习一下吧!

【字节跳动推荐算法工程师,定期给大家分享算法以及人工智能领域的干货,共同成长进步!欢迎关注欢迎交流!同时一直招聘推荐算法、工程岗位,欢迎投递!】

这种 AI 具有适应性并且可以产生复杂的输出是技术上的胜利。但本质上,它仍然只是模式识别。

--布莱恩哈格特

ChatGPT是OpenAI开发的自动语言处理人工智能工具。(Joao Luiz Bulcao/Hans Lucas 来自 REUTERS)

在过去的一年里,技术崩溃接二连三,从加密货币的内爆到埃隆·马斯克的名誉扫地,再到马克·扎克伯格奇怪的赌注,即人们会对他的第二人生般的元宇宙中的化身添加腿感到兴奋。直到 2022 年底,这似乎是硅谷最终 “一头扎进现实”的一年。

然而,对美国营利性公司 OpenAI 的 ChatGPT 于 11 月底发布的压倒性反应表明,硅谷对公众想象力的控制仍然一如既往。记者、学者和权威人士对这项技术着迷,它可以对自然语言问题和提示提供清晰、语法正确的回答。

正如一位同事提醒我的那样,这项技术并不新鲜。多年来,政府和公司一直在机器学习上投入数十亿美元。ChatGPT 等进步以及 OpenAI 的其他产品 DALL-E-2(一种 ChatGPT 类程序,但用于从文本描述生成艺术和逼真的图像)值得注意但并不令人惊讶。

对 ChatGPT 的迷恋源于人们相信他们可以从这些聊天机器人中获得什么。作家们虽然担心自己会被取代,但看到了 ChatGPT 可以权威地告诉他们如何组合想法的承诺。对于大多数人来说——可能除了斯蒂芬·金,如果周六夜现场可信的话——写作很难。仅本文的第一段就花了我好几个小时来编写和完善。想象一下它立即交付,就像变魔术一样。

对于读者来说,承诺是轻松获得权威知识,打包且清晰易读,触手可及。教育工作者担心学生可能会冒充 ChatGPT 输出作为他们自己的作品。尽管很多人都评论说机器人看似有说服力的输出往往充满错误,但人们普遍认为,随着技术的进步,错误的数量将会减少。

科学之死

但与这些影响一样重要的是,对 ChatGPT 的愤怒指向了更重要的事情。近年来,在人类努力的几乎每个领域,数据收集和处理方面的专业知识常常被等同于对该领域的深刻理解。示例包括数字接触者追踪(健康)和加密货币(金融)。

ChatGPT 延续了这一趋势。它进一步证明了实际上是后理性、后科学世界观的兴起:一种信念,即如果你收集足够的数据并拥有足够的计算能力,你就可以“创造”权威知识。在这个世界上,技术人员而非科学家被认为是最有知识的。在这个世界中,知识权威不属于主题专家,而是属于那些能够创建和操纵数字数据的人。简而言之,知识本身正在被重新定义。

尽管教师要监督支持 ChatGPT 的作弊行为会很不方便,但他们所面临的麻烦说明了我们可以预期的剧变中的一小部分:我们甚至还没有开始应对这一转变的全部影响。

将科学视为理所当然

几个世纪以来,大多数人在大多数时候都认为知识和科学是等价的。因此,很难理解科学思维只是看待世界的一种可能方式。

极大地简化,科学作为一种知识形式,赋予理性和理论构建以特权。理论是我们关于世界如何运作的心理图像或想法;它们构成了塑造我们在世界上的行为方式的环境。科学涉及针对我们的社会和物理世界测试和完善这些想法。它的目的是产生对世界的理解。最重要的是,科学是谦逊的。我们的理论总是受到我们有限的人类感知的影响。我们不能指望克服偏见和极端局限性,但通过批判性地审视我们的理论和方法,我们可以希望改善我们对世界始终有限的理解。

其他了解方式

但是,尽管现代人将知识等同于科学知识,但还有其他认识方式。例如,在欧洲启蒙运动之前,宗教和天主教会是欧洲知识的最终来源。或者考虑政治知识,其中知识的目标不是理解而是结果。在其最极端的形式,即极权主义中,领导者是合法知识的来源。

不同形式的知识可以共存。启蒙运动并没有消灭欧洲的宗教。今天的伊朗等政教合一的国家仍在从事科学,而科学家则可以同时从事宗教活动和政治活动。重要的是这些不同形式的知识的层次结构,它决定了我们向哪些群体寻求最终指导。

相关性和理论的终结

与科学思维及其对理论构建和特定情境知识的强调相反,ChatGPT 及其背后的思维不将知识等同于理解,而是等同于相关性。它反映了技术人员的想法,而不是科学家的想法。

通过相关性获得知识是大数据和人工智能的最终承诺:只要有足够的数据和足够的计算能力,计算机就可以识别不言而喻的相关性——不需要任何理论。

与科学不同,技术人员的世界观关注的不是理解,而是相关性。与所有机器学习模型一样,ChatGPT 将单词、句子、段落和文本分解为数据,旨在寻找在特定情况下往往同时出现的单词和句子的模式。它具有适应性并且可以产生复杂的输出是一项技术上的、资金充足的胜利。但从本质上讲,它仍然只是模式识别。

换句话说,正如学者 danah boyd 和 Kate Crawford 在2012 年基础期刊文章中指出的那样,“大数据改变了知识的定义。”

相关性不是科学理解

但是相信数据可以说明一切的想法是荒谬的。学者何塞·范·戴克 (José van Dijck ) 将这种意识形态称为“数据主义”。正如 van Dijck、boyd 和 Crawford 所说,数据从来都不是独立于人的:关于数据的一切——从选择什么应该算作数据,到它的收集、它的存储,再到它的使用——都受到我们有限的感知和理解的影响和能力,以及收集和使用数据的环境。

(人类生成的)数据的自然和不可逾越的局限性意味着计算机只能给我们一种理解的错觉,至少在科学意义上是这样。毕竟,图灵测试涉及对一台计算机进行编程,让人们认为它具有感知能力——它并不能确定实际感知能力的存在。

ChatGPT 本身就突出了关联即知识世界观的知识空虚。许多人评论说,该工具产生的输出看似合理,但主题专家告诉我们的结果通常是“胡说八道”。工程师几乎肯定会设计出更具说服力的聊天机器人。但评估准确性的根本问题仍将存在。数据永远无法说明一切。

这是基于相关性的大数据信念的核心悖论。在科学世界观中,一项知识的合法性取决于科学家是否按照约定的方法得出结论并推进理论:创造知识。相比之下,机器学习过程非常复杂,以至于即使对于运行它们的人来说,它们的内部结构也常常是个谜。

通过相关性获得知识是大数据和人工智能的最终承诺:只要有足够的数据和足够的计算能力,计算机就可以识别不言而喻的相关性——不需要任何理论。

因此,如果您无法评估过程的准确性,您唯一的选择就是评估输出。但要做到这一点,你需要一种世界理论:超越相关性的知识。数据主义心态的危险在于,世界理论会不加思索地强加给算法,就好像它是自然的而不是某人的选择一样。无论它们来自何处,无论它们是什么,这些理论都会塑造程序认为合法的知识,并做出选择,将某些信息优先于其他信息。

想一想 ChatGPT 最受称赞的成就是什么:与其他聊天机器人不同,它的响应不会在 10 分钟内变得“完全纳粹”。这对以前的聊天机器人来说是一个严重的问题。其中最臭名昭著的可能是 Tay,一个命运多舛的 Twitter 机器人,来自微软——它本身就是 OpenAI 的投资者。在 2016 年发布后的 24 小时内,Tay 的用户在推特上多次提及纳粹主义和其他可恶的意识形态,Tay 故意巧妙地开始重复这些内容,同时还提供自发的怪异,例如“ricky gervais 从阿道夫·希特勒那里学到了极权主义,发明家无神论”,以回答“瑞奇热维斯是无神论者吗?”的问题。

确保 ChatGPT 不仅仅反映在线讨论中通常令人难以置信的卑鄙下流,这几乎可以肯定是 OpenAI 团队的明确设计目标。他们不相信他们的相关性,不仅仅是因为这会让他们看起来完全荒谬。OpenAI 是一个拥有大量资金支持的组织,而 ChatGPT 的运行成本几乎肯定不低。OpenAI 的初始投资为 10 亿美元,投资方包括 Elon Musk 和著名的特朗普支持者 Peter Thiel 等。2019 年,微软向OpenAI投资 10 亿美元,目前正在洽谈再向 OpenAI 投资 100 亿美元依靠 ChatGPT 炒作的力量。OpenAI 知道,如果他们的工具在发布后变得“完全纳粹”,他们数十亿美元的投资就会付诸东流。

关键不在于 OpenAI 在其(未完全成功)压制种族主义和仇恨意识形态的努力中取得了意识形态平衡的错误或正确。这是因为设计师对输出应该是什么有一个想法——一个被他们自己先入为主的观念、商业利益和意识形态所告知的想法。显然,他们调整了他们的系统,直到它产生他们想要看到的输出。它的输出完全取决于其“培训师”的选择——他们决定哪些数据和数据集是重要的,并设计算法以遵循他们自己决定的相关规则。谁控制了聊天机器人的设计,谁就能塑造它的产品。

知识的层次

科学不会在数据主义世界中消失。重要的是层次结构:哪些群体在推动讨论,最重要的是,被视为拥有最重要的知识。在神权政治或极权主义国家,科学从属于宗教或政治知识。

科学技术也是如此。数字技术使 1980 年代的全球金融体系成为可能,但主导局面的是金融部门。可以说,信息技术技术人员被委托到商店的后面。科学家或主题专家提出建议,工程师处理。

现在这些角色已经互换了。我们有 Apple 品牌的支付系统。我们有 PayPal 和 Venmo,它们首先被视为科技公司,其次是金融公司。当然,我们有加密货币,这是技术驱动的狂妄自大的最终表现。在我们越来越多地生活在技术人员的世界里,一家科技公司假设对金融有足够的了解以取代全球金融体系,这是完全有道理的。

信仰的重要性

数据主义对知识的定义从根本上来说是不科学的。但正如天堂是否真实对我来说并不重要一样,机器学习的重要之处不在于数据是否会说明一切,而在于我们是否表现得好像它可以。我们对世界的假设和信念决定了我们在世界上的行为方式。

许多数据治理辩论都集中在有权访问我们大量个人数据的公司如何使用这些数据——正如 Shoshana Zuboff 在她颇具影响力的论战“监视资本主义时代”中所论证的那样——对我们进行洗脑并改变我们的行为。实际上,真正的问题不在于谷歌和 Facebook 等公司现在拥​有引发“第七次灭绝”所需的工具,正如 Zuboff 所描述的那样,即人类精神本身的死亡。相反,政府、公司和个人将接受数据主义的意识形态,并将模式识别程序的结果视为绝对可靠的,并据此进行监管。

值得重申的是:换句话说,问题不在于这些机器能做什么,而在于我们相信它们能做什么,以及这如何改变我们的行为方式。问题主要是意识形态的,而不是技术的。在对大数据的数据主义信仰的推动下,政府和整个社会正在将无数重要活动自动化和外包给个人和组织,这些个人和组织有权指挥和操纵我们认为对我们的生活必不可少的数据。我们这样做并不是因为机器学习本身能够产生独特的见解,而是因为我们相信它可以。

不理解的自动化

在决定创造和使用什么知识以及为了什么目的时,不同形式的知识使不同的群体处于权力地位。不同类型的知识工作者——无论是牧师、科学家还是技术亿万富翁——将以不同的方式定义和使用知识。

在大数据世界中,掌握知识的力量在于那些可以调配资源来收集和部署数据和计算能力,并创建使机器学习发挥作用所需的算法的个人和组织。

他们的权威来自数据主义者的信念,即数据及其收集过程是中立的,他们创造的机器将产生权威和有用的知识。

OpenAI 创造知识的方法反映了数据主义的知识观。它背叛了技术人员的心态:在没有理解的情况下实现自动化。自动化总是涉及将一个流程分解成它的组成部分并对可以变成数据的部分进行例行化,并抛弃不能变成数据的部分。

有时,自动化会产生可接受的结果。其他时候,它可以完全改变活动的性质。

例如,在 COVID-19 大流行的早期阶段,科技公司通过承诺数字接触者追踪,使用人们智能手机的位置跟踪来代替报告与感染者的个人接触,从而迅速将自己融入公共卫生系统。然而,正如政治哲学家 Tamar Sharon所认识到的那样,这种自动化剥夺了长期建立的手动接触者追踪过程中实际使接触者追踪有用的方面,例如个人之间是否有近距离墙。毫不奇怪,从公共卫生的角度来看,数字接触者追踪的作用微乎其微。

ChatGPT 和学生论文也展示了无需理解的自动化。正如每位老师都会告诉你的那样,学生的论文几乎无一例外地都是乏味和重复的。无数专栏文章强调了 ChatGPT 如何复制死记硬背的高中作文。从一个角度来看,它似乎使学生作文自动化了。

然而,在实践中,它只是自动化了其中最不重要的部分。作文是一种已有数百年历史、经过验证的技术,不仅可以教人们事实,还可以教人们如何思考。暂时忽略 ChatGPT 是一个巨大的自动完成机器,它会产生废话:没有理解的文本。ChatGPT 仅自动化论文的输出方面。作为一项技术,它——以及 OpenAI 的扩展——忽略了学生论文的主要目的不是呈现信息,而是通过遵循撰写论文的步骤来教会学生如何思考。我们今天写不好的文章,是为了明天能写出好文章。

通过潜在地破坏作为一种教学工具的论文,OpenAI 直接瞄准了我们以科学为基础的教育系统的基础,所有这些都是以破坏的名义,创造一种真正的人工智能,旨在塑造和创造一种新的知识形式.

危在旦夕:控制知识本身的力量

聊天机器人或搜索引擎简洁的界面可以让它的输出看起来像是凭空出现,由一台中立的机器提供。但是算法、计算机程序和机器学习过程是由人们明确设计来做某些事情,而不是其他事情。设计创造知识的机器的力量是一种终极力量,可以控制什么才算是知识本身。

当你考虑到我们这些未洗过的人只能评估输出,而不能评估导致输出的步骤时,这种力量就更令人敬畏了。不像一本书,它提供有关出版商、作者和作者来源的信息,您可以查看这些信息以确定其可信度,ChatGPT 是一个神谕——而且,一个可以被操纵以产生其创作者认为是“正确”的东西的神谕结果。

正如学者 Mary L. Gray 和 Siddharth Suri提醒我们的那样,所谓的人工智能系统总是涉及幕后工作者,他们在旨在对内容或数据评估做出选择的系统内做出决策。根据定义,这些选择偏爱某些群体和结果而不是其他群体。天平上总会有一个拇指。

那是从里面来的。从表面上看,由于缺乏科学验证,对神谕的依赖使我们其他人沦为自动化智慧的不幸接受者,他们只需要相信神谕是正确的——在后科学世界中确实如此,因为它就是神谕。这是一种知识形式,需要敬畏和接受,而不是理解。实际上,它将知识贬低为一种魔法。它剥夺了个人理解、质疑和挑战的能力。这是婴儿化。

数据主义,而不是机器学习,才是真正的威胁

但机器学习本身并不是问题所在。我正在使用 Microsoft Word 撰写本文。虽然它的拼写和语法检查器并不完美,但它们仍然很有用。一般而言,技术也是如此。根据安全研究机构 Dawn Patrol 的说法,特斯拉所谓的全自动驾驶模式可能有导致碰撞的不幸倾向,但驾驶员辅助技术似乎可以提供帮助。

相比之下,OpenAI 的技术,以及一般的机器学习技术,只有通过挪用数十亿人(艺术家、作家、普通人)的作品,将其转化为数据,并在没有创作者明确知情同意的情况下使用这些数据,才能成为可能。构建模型。如果按预期使用该工具,可能会剥夺艺术家和教育工作者谋生或开展工作的能力。

ChatGPT 的设计者本可以旨在创建一个考虑到经过验证的真实性的工具,或者至少通过这是否可能来判断他们的进展。但这样一个目标,需要科学的、学科专家的判断,违背了数据主义的核心,在数据主义中,真理仅由相关性决定。

虽然科学方法赋予了力量,但像 ChatGPT 这样的神谕工具会产生两个问题。首先,它们让非专家更难进行自我评估和推理。(有些人建议教师可以指派学生评估 ChatGPT 输出的准确性。这可能会奏效一段时间,但代价是将学生变成事实核查员,而不是训练他们产生知识。)更重要的是,它假定一个世界其中科学方法仍然占主导地位。但是当一个社会被数据主义所束缚时,就不能再假设了。如果没有办法区分科学文本和无稽之谈,人们会向谁求助?

其次,相信相关性只是将背景意识形态、偏好和信念纳入数据和算法设计中。一个又一个基于机器学习的系统被发现会产生种族主义和性别歧视的输出是有原因的:当你依靠相关性来产生知识时,你最终会得到传统智慧和流行的(有时是令人讨厌的)意见,而不是准确性。但是,如果我们首先信任相关性,那么我们有什么理由可以说这台机器是“不恰当的”种族主义者呢?

做得比足够好

底线:就像硅谷的许多宣传一样,ChatGPT 承诺的比它所能提供的要多。这是众所周知的停止时钟,一天两次。它承诺理解;它提供了听起来很权威的废话,但在可信之前仍必须由实际专家进行评估。它消除了我们所知道的创造科学知识和教会人们如何思考的死记硬背的步骤(阅读实际研究、写糟糕的论文)。它假装一项旨在促进其支持者商业利益的技术是为了公众利益而创造的。它向不知情的公众释放未经测试的技术,作为一种市场研究形式。想象一下如果一家制药公司对一种未经测试的药物做同样的事情会有什么反应。

ChatGPT 不会自动化写作或研究过程。它正在创造一种全新的知识形式,其中相关性赋予合法性,并且对这些相关性真实性的评估发生在幕后,嵌入在编程决策和隐藏的劳动中。这种方法将科学理解置于次要地位,充其量只是一种评估作用。ChatGPT 提出的问题不仅仅是一项技术。Meta 和特斯拉的股价可能正在下跌,但掌握机器学习和在政府和行业部署相关技术的竞赛凸显了根深蒂固的数据主义已经变得多么根深蒂固。正如 José van Dijck在她 2014 年的文章中所说、企业、政府和学者都深深地相信数字数据源为我们提供了一种客观、中立、甚至是“革命性”的方式,通过这种方式可以更好地了解社会、获利和开展国家业务。

我们——作为公民、教育工作者、政治家和商人——是否有意愿保持对科学的承诺,让技术为理解服务,这是人工智能辩论的核心问题。

这些根深蒂固的利益对确保机器学习的发展符合公众利益构成了重大障碍。然而,将数据主义理解为一种意识形态会让我们养成一些可以让机器学习为人们服务的习惯,而不是相反。

首先,由于机器学习过程的复杂性和不透明性,所有这些过程都必须涉及作为直接、负责任的决策者的人,决策者和受影响的个人都必须能够解释和理解“由”做出的任何决定” 自动化流程。机器学习应该补充而不是取代人类代理。

其次,在创建大型数据集时,数据权利讨论需要超越对个人身份数据的关注。我们需要认真对待艺术家、作家和普通人的权益,他们的表达和作品构成了这些大型语言模型的基础,他们的生活将直接受到它们的影响。作为这次对话的起点,对个人权利的关注是完全不够的。

最后,我们必须防止像 OpenAI 这样的公司将公众当作实验品来进行有效的营销活动。一连串的 ChatGPT 专栏文章表明,即使是专家自己也在努力理解像 ChatGPT 这样的技术的含义。迄今为止唯一的共识是该技术将颠覆任何领域。现在是时候让这些公司受到与其重要性相称的一定程度的监管关注了。

这样的提议,以及像联合国教育、科学及文化组织关于人工智能伦理的全球协议这样的善意努力,肯定会面临阻力。政府和公司以效率和经济竞争的名义在机器学习上投入了大量的金钱和时间。一个数据驱动的社会是基于这样一种信念,即如果你不最大限度地收集数据,你就会把钱留在桌面上。

数据主义是一种意识形态,一种塑造人们看待和理解一切事物方式的世界观。这是一种世界观,被混淆相关性和科学真理的工程师所拥护,也被应用模型并相信它反映现实、足够好的官僚所拥护。

世界观就像根深蒂固的习惯一样,不容易被抛弃。几个世纪以来,我们一直将科学视为一种将知识形成与理性思考等同起来的意识形态,强调我们的理论,坚持严格和透明的过程来创造和验证知识。

但那种世界观也是一种习惯。习惯可以保持、坚持和加强,也可以被打破。我们——作为公民、教育工作者、政治家和商人——是否有意愿保持对科学的承诺,让技术为理解服务,这是人工智能辩论的核心问题。ChatGPT 无法回答,但我们对 ChatGPT 的反应会。

【字节跳动推荐算法工程师,定期给大家分享算法以及人工智能领域的干货,共同成长进步!欢迎关注欢迎交流!同时一直招聘推荐算法、工程岗位,欢迎投递!】

标签: #算法就是计算机程序