前言:
此刻姐妹们对“易语言用途”大体比较珍视,同学们都需要学习一些“易语言用途”的相关资讯。那么小编同时在网摘上网罗了一些对于“易语言用途””的相关资讯,希望看官们能喜欢,看官们一起来学习一下吧!03 语言、创造力和情感
人工智能的一些领域似乎特别具有挑战性,如语言、创造力和情感。如果人工智能不能模拟它们,要实现强人工智能就好似做白日梦。
无论就上述哪一方面而言,我们所取得的成就都早已超出了人们的想象。即便如此,一些困难仍然显著存在。这些典型的“人类”特征只是在一定程度上被模拟(人工智能系统是否能够具有真正的理解力、创造力或情感,我们将在第6章中讨论。我们在此关注的是人工智能系统是否有可能拥有它们)。
语言
无数的人工智能应用程序使用NLP(自然语言处理)。大多数程度关注的是计算机对呈现给它的语言的“理解”,而不是计算机自己创造语言。因为对于NLP而言,创造比接受更困难。
其中的困难包括主题内容和语法形式。例如,我们在第2章中看到,熟悉的动作顺序(“脚本”)可能用作人工智能故事发生(哄孩子上床睡觉的母亲改变惯常动作)的缘由。这并不是说,背景知识表示就一定包含足够的人的动机,所以它不一定能使故事变得有趣。要就一家公司不断变化的财务状况写一份年度报告,买个系统就完事了,但是可以看出这个系统创造的“故事”非常无聊。计算机创作的小说和肥皂剧情节确实有——但是任何以细微的地方处理得好为评判标准的奖项往往都与它们无关(用人工智能进行翻译或总结人类创造的文本,得到的译文和总结在内容上可能更丰富,但还是因为源语文本是人类完成的)。
至于语法问题,计算机创作的散文有时在语法上就不正确,而且通常很不恰当。人工智能对画圈打叉游戏(井字游戏)的描述能够包含从句或子从句结构,很好地讲述游戏的具体步骤。但是,我们也能充分理解画圈打叉游戏的概率和策略。不过,要人工智能清楚地描述很多人类故事中主角的一系列想法或动作就没那么容易了。
再谈谈人工智能接受语言,有些系统十分简单,甚至让人觉得无聊:它们仅需要识别关键字(想想电子零售网站上的“菜单”),或者预测字典里所列出的单词(想想在编辑短信时自动弹出的匹配词或句)。还有一些系统要复杂得多。
有些系统需要识别语音:要么是单个词(如自动电话购物),要么是连续语音(如实时电视字幕和电话窃听)。更有意思的是,后者的目标可能是挑选出一些特定词(如炸弹和圣战),以此抓住整个句子的意思。这绝对是NLP:首先必须区分出单词本身,这些单词是由不同声音发出来的,而且可能带有不同地方的口音或外来口音(区分单词在印刷文本中是免费的)。深度学习(见第4章)已经促使语音处理技术取得了巨大进步。
对整句的理解也有一些令人印象深刻的例子,如机器翻译;从大量自然语言文本中挖掘数据;总结报纸和期刊上的报道;以及回答一些自由提问(频繁用于谷歌搜索和iPhone的Siri应用程序)。这些系统真的可以欣赏语言吗?例如,它们能处理语法问题吗?
在人工智能早期,人们认为语言理解需要解析句法。于是研究人员花了很大力气去编写程序,以实现这一目标。20世纪70年代初期,特里·维诺格拉德(Terry Winograd)在麻省理工学院写的SHRDLU[1]就是一个典型案例。在此之后,无数先前没听说过或认为人工智能不可能实现的人开始关注人工智能。
该程序接受英语指令,该指令告诉机器人用彩色积木搭建结构,并计算出如何移动这些积木才能实现目标。它之所以影响深远,原因很多,其中部分知识已经应用到了一般的人工智能领域。与此相关联的点在于它能够赋予复杂的句子详细的语法结构,例如:如果你之前不知道奶奶的食谱是错的,你打算在蛋糕中加多少鸡蛋。(尝试一下!)
就技术层面而言,SHRDLU不尽如人意,其中有许多程式错误,所以只为少数技艺精湛的研究人员使用。当时还出现了其他各种句法处理程序,但也没能推广到现实文本当中。总之,研究人员后来很快发现,复杂的句法分析对现成系统来说太难了。
除了句法外,在人类语言中,语境和相关性也很重要。当时没有显著成就表明人工智能能够做好这两点。
1964年,美国政府的确在自动语言处理咨询委员会(Automatic Language Processing Advisory Committee,以下简称ALPAC)的报告中宣布机器翻译不可能实现。报告预测,看好其“钱”景的人为数不多(尽管机器辅助人类翻译也许可行),认为计算机将与句法作斗争,被语境击败了,而最为重要的是,对相关性一无所知。
这就像是给机器翻译(实际上,它的资金来源一夜之间干涸)和人工智能丢了一枚炸弹。大家普遍将报告解读为:人工智能研究做了许多无用功。畅销书《计算机和常识》(Computers and Common Sense)也声称(1961年)人工智能研究是在浪费纳税人的钱。报告的发布似乎也证明了政府的高层专家同意这种观点。当时两所即将开设人工智能学院的美国大学也跟着取消了其计划。
不过人工智能的研究工作并未因此中断。几年后,精通句法的SHRDLU闪亮登场,为GOFAI做了一次成功的辩护。但是质疑很快悄然而至。NLP研究的焦点也因此逐渐转向语境而非句法。
20世纪50年代早期,一些研究人员开始重视语义语境。英国剑桥大学的玛格丽特·玛斯特曼(Margaret Masterman)研究小组用同义词词典而不是字典来处理机器翻译(和信息检索)。他们认为句法是“语言中非常肤浅和冗余的部分,被匆忙的人完全忽略了”。他们专注于词丛,而不是单个单词。他们没有尝试字对字的翻译,而是搜索同义词的相关文本。这样就可以正确翻译模糊词(如果找到了同义词的相关文本)。因此,bank可以(用法语)表示为rive或banque,这取决于语境是否分别包含诸如water(水)或money(钱)等词。
有些词的词义不同(例如鱼和水),但是常常同时出现。这些词可以强化以同义词词典为基础的语境法。时间证明事实的确如此。今天的机器翻译除了区分各类词汇层面的共性——同义词(empty/vacant)、反义词(empty/full)、归属关系(fish/animal)和包含关系(animal/fish)、同类关系(cod/salmon)以及部分/整体关系(fin/fish),还能识别主题共现关系(fish/water,fish/bank,fish/chips等)。
由此可见,总结、提问或翻译自然语言文本不一定非得处理复杂的语法。今天的NLP更多依赖于“体力”(计算能力)而不是大脑(语法分析)。数学,特别是统计学,已经取代逻辑,机器学习(包括但不限于深度学习)已经取代句法分析。这些NLP的新方法(从书面文本到语音识别)非常高效,所以在实际应用中,95%的成功率是可接受标准。
在现代NLP中,功能强大的计算机统计搜索海量(“语料库”)文本(在机器翻译中,这些是由人类配对的翻译),以找到常见的和意料之外的单词模式。它们可以知道鱼/水、鱼/蝌蚪、鱼和薯条、盐和醋的统计结果。NLP现在可以学习构建“词向量”(如第2章中所述),来表示既定概念下该词所有含义出现的概率云。不过此处的关注点通常是词和短语,而不是句法。语法没有被忽略:文本在接受检测的过程中,其中一些单词将被(自动或手动地)赋予形容词和副词之类的标记。但是句法分析却很少使用。
详细的语义分析也不多。“组合的”语义用句法分析句子的含义;这种做法仅限于研究实验室,没有大规模应用。“常识”推理器CYC对概念(词)的语义表示相对完整,因此能更好地“理解”它们(见第2章)。但这种应用也十分有限。
当前的机器翻译倒是风生水起的。有些系统包含主题很少,但有些系统则包罗万象。谷歌翻译每天为超过2亿名用户提供各种主题的机器翻译。SYSTRAN翻译系统每天为欧盟(24种语言)、北约、施乐公司和通用汽车公司服务。
许多机器翻译的译文都近乎完美,如欧盟的文件(因为在源语文本中只用到有限子集的单词)。尽管大多数机器翻译存在问题,但还是很容易理解,因为博学的读者可以忽略译文中的语法错误和生硬的单词——就像听非母语人士说话一样。有些机器翻译出来的译文只需人类稍作编辑和修改(而日语在翻译前后需要大量编辑。如英语的过去时态vot-ed,日语没有分段的单词。而且日语的短语顺序是颠倒的。匹配不同语系的语言对机器来说并非易事)。
简而言之,人类用户可以很好理解机器翻译出的译文。同样,总结期刊文章的单语NLP程序经常能够反映论文是否值得全文阅读(完美的翻译基本不现实。例如,用日语说“要一个苹果”需要反映对话者的社会地位,但在英语中没有同类区别)。
人工智能应用程序上的实时翻译不太成功,如Skype。因为系统必须识别语音,而不是书面文本(单个词被清楚分开)。
NLP的另外两个突出应用是信息检索——加权检索(由玛斯特曼的研究小组在1976年发起)和数据挖掘。例如,谷歌搜索引擎搜索词条的时候,通常用相关性对要搜索的词条进行加权——这是在统计学层面而不是语义层面评估(即没有“理解”)。数据挖掘可以找到人类用户未意识到的单词模式。它长期用于研究市场中的产品和品牌,现在(使用深度学习)用于“大数据”,即搜集起来的海量文本(有时是多种语言)或图像,如科学报告、医疗记录、社交媒体和互联网上的词条。
政府、政策制定者和社会科学家用大数据挖掘开展侦查和反间谍活动,以及监测公众的态度,以此来了解不同群体变化的观点并对其进行比较:男/女、年轻人/老年人、北方人/南方人等。英国智库Demos(与萨塞克斯大学的NLP数据分析团队合作)分析了数以千计有关厌女症、种族群体和警察的Twitter消息。通过搜索特定事件(twitcidents)发生之后突然发出的一些推文,可以发现公众对“警方回应”的态度发生了什么样的转变。
大数据NLP给出的结果是否有用尚无定论。数据挖掘(使用“情绪分析”)不仅能度量公众兴趣度,还能度量其评价语气。然而,语气这种东西不会直接说出来。例如,一则推文包含具有明显贬损语气的种族歧视字眼,机器由此解读为“负面”情绪,但事实上可能并不表示贬损。法官在读到它的时候可能会认为这个词被用作(在这种情况下)群体身份的一种积极标记,也可能觉得它是中性描述(例如,拐角处巴基斯坦佬开的商店),并非侮辱或辱骂。根据迪莫斯(Demos)的研究发现,只有一小部分包含种族或民族术语的推文真正带有挑衅意味。
人的判断在这些情况下依赖于语境,例如推文中的其他词。调整机器的搜索标准,以减少“负面情绪”归属可能是行得通的,但也可能行不通。搜索标准也往往颇具争议。即使人和机器的标准一致,也很难确定语境中的哪些方面能证明人类的解读合理。
在计算(甚至口头的)方面确定相关性很难,这只是其中一例。
乍一看,两个知名的NLP应用程序似乎与刚才的说法相矛盾,即苹果的Siri和IBM公司的沃森。
Siri是基于规则的私人助理,是一款能说话的“聊天机器人”,可以快速回答许多不同的问题。可以访问互联网上的一切资源——包括谷歌地图、维基百科、不断更新的《纽约时报》以及出租车和餐馆等当地服务列表,甚至还可以访问功能强大的在线自动回答系统WolframAlpha,后者利用逻辑推理“想出”而不只是“找到”各种事实性问题的答案。
用户口头对Siri(逐渐适应语音和方言)发问,然后Siri利用网络搜索和对话分析回答问题。对话分析研究人类如何就对话中的主题进行排序,以及如何安排它和人类之间的互动(如解释和协商)。利用对话分析,Siri将思考“对话者想要什么”“我应该如何回答”等问题,同时在一定程度上适应个人用户的兴趣和偏好。
简言之,Siri似乎不仅对主题相关性敏感,而且对个人相关性也很敏感。从表面上看,它真的能让人印象深刻。然而,它很容易给出荒唐的答案,如果用户偏离事实的轨道,Siri也就会跟着失去方向。
IBM公司的沃森也专注于事实。它是处理大数据的现成资源(有2880个核心处理器),已经用在一些呼叫中心,通过改良,还用到了医疗领域中,如评估癌症治疗。它不仅能像Siri一样回答直截了当的问题,还可以处理在常识游戏《危险边缘》(Jeopardy)中出现的谜题。
在《危险边缘》中,玩家不会被问到直接的问题,而是根据以答案形式提供的各种线索,以问题的形式做出正确的回答。例如,玩家被告知“1921年5月9日,这家‘尽善尽美的’航空公司在阿姆斯特丹开设了第一个客运办事处”,那么他们的答案应该是“KLM(荷兰皇家航空)是什么?”
沃森还可以应对很多其他挑战。它的《危险边缘》游戏版本不像Siri那样能访问互联网(虽然它的医疗版本可以),不懂对话结构,也不能通过逻辑推理找到答案,然而它能对庞大但封闭的数据库进行大规模并行统计搜索。数据库中有各种文件,如无数评论和参考书,还有《纽约时报》等,里面提供了各类事实,从麻风病到李斯特(匈牙利钢琴家、作曲家)、从氢到九头蛇等。在玩《危险边缘》的时候,它的搜索由数百种反映游戏中固有概率的特殊算法作指导。它还可以从其他人类对手的猜测中受益。
2011年,沃森在玩《危险边缘》的时候,“明显地”战胜了两位人类冠军,这可以和它在IBM公司的表兄弟深蓝(Deep Blue,见第2章)的表现(打败了国际象棋大师卡斯帕罗夫)相媲美(“很显然”,因为计算机瞬间作出反应,而人类需要一些反应时间,然后才会按蜂鸣器)。但它和深蓝一样都不能稳居冠军宝座。
沃森有一次比赛失利的原因是,虽然它正确地将注意力集中在某位运动员的一条腿上,但是它忽略了在它的存储数据中有一个关键事实——这个人少了一条腿。沃森不会再犯这个错误,因为程序员现在已经标记“缺失”这个很重要的词,但它还会犯其他错误。即使在普通事实搜寻语境下,人们通常依赖的相关性判断都超出了沃森的能力范围。例如,凭一条线索找到耶稣的两个门徒,他们的名字既是十大首选婴儿名,又都以同一字母结尾。答案是“马修”(Mathew)和“安德鲁”(Andrew)——沃森立即给出了答案。人类冠军也得到了这个答案。但他的第一想法是“詹姆斯”(James)和“犹大”(Judas),他回忆说,自己之所以排除了这个答案,是因为出于某种原因,他认为犹大不是一个流行婴儿名。沃森就做不到这一点。
人类的相关性判断往往没有上面的例子那么明显,对于今天的NLP来说,这个判断太微妙了。相关性是语言/概念版的“框架问题”(见第2章),都是难啃的硬骨头。许多人会觉得让非人类系统完全掌握它简直是天方夜谭。难道仅仅因为包含的信息量过大且过于复杂,还是因为相关性是人类特有的生命形式?我们将在第6章对此展开讨论。
注释
[1]SHRDLU是一个用自然语言指挥机器人动作的系统,由维诺格拉德于1972年在麻省理工学院建立。——译者注
创造力
创造力——产生新颖的、异乎寻常的以及有价值的想法或人工制品的能力——是人类智慧的顶峰,对实现人类水平的强人工智能也是必不可少的。但人们普遍认为它很神秘。现在我们连人类是如何产生的新颖想法都没弄明白,更别提计算机了。
目前,对创造力的识别甚至都没有统一的答案:人们对一个想法是否具有创造性通常会持不同意见。有些分歧点在于:它是不是真的很新颖,以及它在何种意义上是真的很新颖。一个想法可能只是对相关个体来说是新颖的,也有可能对整个人类历史来说都很新颖(分别是“个体”和“历史”创造力的典范)。无论哪种情况,它可能多多少少和前述观点类似,会引发分歧。还有些分歧点是有关估价(包含功能意识,有时会是现象意识,参见第6章)。同一个想法,有的社会群体可能重视,而有的却不一定(比如现在的年轻人会嘲笑任何仍然喜欢看瑞典流行演唱组合乐队Abba DVD盘的人)。
人们通常认为没有什么有趣的人工智能可以体现创造力。但人工智能技术产生了许多在人类历史上属于新颖的、异乎寻常的以及有价值的想法。例如,它们被用在了发动机、药品和各类计算机技术的设计过程中。
此外,人工智能概念还有助于解释人类的创造力。借此,我们可以分出三种类型的创造力:组合型、探索型和变革型。三者包含不同的心理机制,能带来不同的惊喜。
在组合型创造力中,常见的想法以不常见的方式组合在一起。例如,视觉拼贴、有诗意的图像和科学类比(将心脏比作泵,原子比作太阳系)。新组合在统计学层面带来意外发现——这在以前是不大可能做到的事情,就像一个冷门选手不大可能赢得德比(Derby)。但它浅显易懂,所以有价值。价值大小取决于如何评判前文讨论的相关性。
探索型创造力较为常见。它充分利用了一些有文化价值的思维方式(例如,绘画或音乐的风格、化学或数学的子区域)。使用风格法则(主要是无意识地)可以产生新想法,就像英语语法可以生成新句子一样。艺术家或科学家可能无条件地探索该风格的潜力,也可能刻意大力推行它的应用或对其进行测试,以了解它可能生成哪些想法。它甚至可能因为某一规则的些许变化(例如弱化/加强)而发生小变动。尽管这个结构很新颖,但仍然属于常见的风格。
变革型创造力继承了探索型创造力,如果现有风格受限,变革型创造力就会发生。一个或多个风格限制将被彻底改变(删除、否定、补充、替换、添加……),因此生成了之前不可能生成的新结构。这些新想法堪称异类,因为它们的出现像是天方夜谭。最初,它们可能晦涩难懂,因为以惯常思维方式很难完全理解。然而,如果新想法要被接受,它们就必须贴近惯常思维方式(有时这种接受要花很多年)。
三种创造力都发生在人工智能中——观察者通常认为创造力是人类确定的(实际上是通过图灵测试,见第6章),但可能没有像人们预期的那样多。
像组合系统就十分罕见。人们可能认为模拟组合型创造力很容易,毕竟没有什么比让计算机在已经存储的想法之间产生不常见的关联更简单了。这些关联(在历史上)通常很新颖,(在统计学上)也令人惊讶。但如果它们要有价值,就必须彼此相关。当然,我们也清楚,相关性没那么容易得到。例如,我们在第2章中提到了一些笑话生成程序,它们用笑话模板来帮助提供相关性。同理,符号人工智能基于案例的推理利用预编码的结构相似性来构造类比。因此,这些程序的组合型创造力还结合了探索型创造力。
同时,人们可能认为人工智能无法模拟变革型创造力。这种想法也是错误的。任何程序确实只能做它可能有能力做的事情,但是进化程序是可以进化自身的(见第5章)。它们甚至可以评估自己新进化的想法,但前提是程序员提供了明确的挑选标准。这样的程序通常用在追求新颖的人工智能应用上,例如设计新科学仪器或药物。
然而,变革型创造力不是一条通向强人工智能的神奇之路。它几乎不能保证产生有价值的结果。我们可以相信(在数学或科学中的)有些进化程序能够找到最优方案,但许多问题不能由最优化来定义。变革型创造力之所以有风险,是因为以前已经接受的规则被打破了。所有新结构都必须进行评估,否则就会出现混乱。但是当前人工智能的拟合函数是由人类定义的:程序不能独立改变/推断出它们。
探索型创造力最适合人工智能。这类例子不胜枚举。工程学中一些探索型的人工智能创新(如CYC的设计者设计的程序所生成的创新,见第2章)已被授予专利。对于技术熟练人员来说,他们不一定觉得获得专利的想法就属于创新,但这个想法可能是他们想要探索的风格。有些人工智能的探索能与人类取得的杰出成就相媲美——如按照肖邦或巴赫的风格创作音乐,又有多少人能做到这一点?
然而,即使是探索型人工智能也在很大程度上依赖于人的判断。因为必须有人识别并清楚地说明风格化的法则。这通常很难。有位世界级专家在研究弗兰克·劳埃德·赖特(Frank Lloyd Wright)的“草原式住宅”时,不再描述建筑风格,宣称它们“难以理解”。后来,一个可计算的“形状语法”生成了无数个“草原式住宅”的设计,包括四十多个原创——这没什么不可信。但系统成功的根本原因还是人类分析师。只有当强人工智能自己能够分析(艺术或科学中的)风格时,它的创造性探索才是“自己的作品”。尽管最近有一些(但不多)深度学习识别艺术风格的案例(见第2章和第4章),但它的确是一项艰巨的任务。
利用人工智能,人类艺术家开发了一种新的艺术形式——数字艺术(computer-generated,CG)。它涉及建筑学、图像、音乐,以及编排和运用不太理想的文学(因为NLP面临句法和相关性方面的困难)。在数字艺术中,计算机不只是个工具,可以将其比作一支新画笔,帮助艺术家们做他们自己本来可以做的事情。相反,如果没有它,这项工作就不可能做到,或者甚至想都不用想。
数字艺术体现了上述三种创造力。由于上述原因,几乎没有任何数字艺术是组合型的。英国法尔茅斯大学教授西蒙·克尔顿(Simon Colton)的The Painting Fool软件制作了与战争相关的视觉拼贴画,但是它也收到了特殊指令,被要求搜索数据库中与“战争”相关的图像。大多数数字艺术都是探索型或变革型的。
计算机有时通过执行艺术家编写的程序,可以完全独立地生成艺术品。哈罗德·科恩(Harold Cohen)的AARON程序独立生成了线条图和彩色图像(有时创造的颜色绚丽多彩,所以科恩说,AARON是一个比他更优秀的五彩画家)。
相比之下,在交互艺术中,艺术作品的最终形式部分取决于观众的输入,当然,观众可能是无意间控制了发生的事情。有些交互艺术家将观众看作同他们一起创作的人,还有一些交互艺术家认为观众以各种方式无意间影响了艺术作品,于是将他们看作作品产生的起因[欧内斯特·埃德蒙兹(Ernest Edmonds)等艺术家同时采用了这两种方法]。在以威廉·莱瑟姆(William Latham)和乔·麦考马克(Jon McCormack)为代表的进化艺术中,计算机不断生成/改变结果,但通常是由艺术家或观众挑选的。
总之,人工智能的创造力有很多应用。在科学或艺术的一些小角落里,它有时可以和人类的创造力一决高下,甚至超过人类。但在一般情况下要和人类创造力匹敌就另当别论了。强人工智能仍然离我们很遥远。
人工智能与情感
和创造力一样,情感也被看作与人工智能格格不入的东西。除了直观上觉得不可能,想想情绪和情感依赖于大脑中散布的神经调节剂这一事实,构建情感的人工智能模型也似乎不太现实。
多年来,人工智能科学家们似乎也赞同这个观点。他们忽略了情感,只有在20世纪60年代和70年代出现了几个例外,如西蒙,他认为认知控制包含情感;还有肯尼斯·科尔比(Kenneth Colby),他为神经症和偏执狂构建了有趣的模型,虽然这是一个超级有野心的目标。
如今情况发生了变化。神经调节(在GasNets中,见第4章)已经被模拟。此外,许多人工智能研究小组都在研究情感。尽管大部分研究在理论层面很肤浅,但大多数都“钱”景光明,它们致力于打造“计算机伴侣”。
还有些人工智能系统是基于屏幕的机器人,有些是门诊用机器人,在与用户的交互中,不仅实用,还关注用户的舒适度以及满意度。大多数服务对象是老年人或残疾人,包括初发性痴呆病患者。还有一些是婴儿或交互式“成人玩具”。总之,包括电脑护工、机器人保姆和性玩伴。
另外,人机交互的例子包括:提醒用户购物、吃药和拜访家人;帮助编写个人日志;安排和讨论电视节目,如每日新闻;制作美食和饮料;取东西;监测生命体征(和婴儿哭泣);说一些色情话语以及做一些色情动作等。
这其中的很多任务都包含人类的情感。人工智能伴侣就体现在它们能识别人类用户的情感或以明显带有情感的方式回应用户。例如,用户承受丧亲之痛时,可能会得到一些机器的同情。
人工智能系统已经能够用多种方式识别人类的情感。有些是生理的,如监测人的呼吸频率和皮肤电反应;有些是口头的,如注意说话的速度、语调和用词;有些是视觉的,如分析面部表情。当前的方法都相对简陋。用户的情感不仅容易被遗漏,而且容易被曲解。
计算机伴侣的情感表现通常体现在口头上。它基于词汇以及语调(如果系统能生成语音的话)。但是,系统不仅密切注意用户常用的关键词,还以极其刻板的方式作出回应。对于用户说过的东西(可能在日记中),它偶尔可能会引用由人类创作的相关言论或诗歌。但NLP所面临的难题意味着计算机生成的文本在细节上很难做好。这些文本甚至可能不会被接受:用户可能会因为机器人伴侣没有人类的外观而被激怒或感到沮丧。同样,一只咕噜咕噜叫的机器猫可能会讨人嫌,而不是让用户觉得放松、舒服或满足。
当然也有惹人疼的机器人伴侣:帕罗(Paro)是一只可爱的交互式“海豹宝宝”,它有着迷人的黑眼睛和浓密的睫毛,是许多老年人和痴呆症患者的好伴侣(未来版本还可以监测人类的生命体征,并据此向人类看护人员发出警告)。
有些人工智能伴侣可以利用自己的面部表情,也可以用眼睛凝视,以看似富有情感的方式回应用户。有些机器人有弹性“皮肤”,覆盖在人类面部肌肉模拟物的上面,它的外形可以(向人类观察者)显示出多达十二种基本情感。基于屏幕的系统通常显示虚拟角色的面容,其表情根据(他/她)可能经历的情绪而发生改变。然而,所有这些事情都有可能(原文如此)陷入所谓的“恐怖谷理论”[1]中,即人们在遇到与人类极其相似但仍存在些许差异的生物时,就会觉得不舒服,甚至极为反感。因此,机器人或屏幕虚拟化身如果拥有似是而非的面孔,可能会让人类觉得自己正在受到威胁。
为情感空虚的人提供上述类似人类伴侣关系的做法是否符合道德标准,目前尚无定论(见第7章)。当然,有些人机交互系统(例如帕罗)似乎能够为一些人带来快乐,甚至是持久的满足感。如果没有这些系统,有些人可能会觉得生活很空虚。但是这样就足够了吗?
“伴侣”模型缺乏理论深度。专家们开发人工智能伴侣的情感是为了赚钱。他们没去想怎样让“伴侣”用情感解决自己的问题,也没有去了解情感在整个大脑运作过程中发挥什么样的作用。他们觉得情感是可有可无的附加物:他们忽视情感,除非在某些棘手的人造情境下,他们才不得不考虑。
这种不屑的态度当时弥漫在整个人工智能领域,直到最近,情况才相对有所改观。“情绪计算”之母罗莎琳德·皮卡德(Rosalind Picard)的“情感计算”把情感从20世纪90年代末期的“冷宫”中解救出来,不过她也没有深究。
一直以来,情感被人工智能忽视(与西蒙富有洞察力的评论命运相似),其中一个原因是它没有得到很多心理学家和哲学家的重视。换句话说,他们认为智能不需要情感。相反,他们觉得情感不利于解决问题,会破坏理性。“情感可以帮助一个人决定做什么以及做这件事的最佳方法”的想法不合潮流。
情感最终会越来越重要,部分得益于临床心理学和神经科学的发展。但它能进入人工智能领域离不开马文·明斯基和亚伦·斯洛曼这两位人工智能科学家。他们一直把大脑看成一个整体,而不是像大多数同事那样,将自己的想法局限在智能领域内的某个小角落中。例如,斯洛曼正在进行的CogAff项目就关注情感在大脑计算架构中的作用。CogAff影响了于2011年发布并仍在推广中的LIDA的意识模型(见第6章),也启发了20世纪90年代末由斯洛曼研究小组带头开发的MINDER程序。
MINDER程序模拟了独自照顾几个婴儿的护士心中所产生的焦虑(功能方面)。“她”只有几项任务:给婴儿喂吃的;别让婴儿掉进路边的沟里;如果有婴儿掉进去,“她”得将婴儿送到急救中心。“她”只有几个动机(目标):给一个婴儿喂吃的;如果已经有一个婴儿在防护栅栏后面,“她”要再放一个;将一个婴儿从沟中抱出并送去急救站;在沟边巡逻;筑围栏;将一个婴儿移至离水沟较远的安全位置;如果当前没有其他动机被激活,“她”就在托儿所周围漫步。
所以,她比真正的护士简单得多(虽然比典型的规划程序更复杂,因为后者只有一个终极目标)。然而,“她”容易感到不安,而这种不安可以算得上是焦虑。
这位模拟护士必须对所处环境中发出的视觉信号作出适当回应。有些信号触发(或影响)的目标比其他目标更紧急:如果一个婴儿正在爬向水沟,而另一个婴儿只是饿了,那么“她”得先管爬向水沟的那个;此时如果刚好有一个婴儿快掉进水沟了,那么“她”的注意力得先转向这个。但是就算有些目标当时被搁下了,可能最终还是必须解决,它们的紧迫程度可能会随着时间的推移而不断增强。所以,如果有一个婴儿在水沟附近,那么“她”可以先把饿了的婴儿放回婴儿床;但是“她”应该先给喂食等待时间最长的婴儿喂吃的,然后再喂不久前刚喂过的婴儿。
总之,模拟护士的任务有时可能被中断,要么被放弃,要么被搁置。MINDER程序必须决定当前的优先级。“她”在完成任务的整个过程中必须做这种决定,这样“她”的行为可能会因此而被不断改变。事实上,任何任务在完成过程中都会被中断,因为环境(婴儿们)对系统提出了很多相互冲突且不断变化的要求。模拟护士和人类护士一样,会因为婴儿(每个婴儿是不可预测的自主智能体)数量不断增加而变得越来越焦虑,表现得也越来越差。不过这种焦虑很有用,护士因此能成功地照顾婴儿。不过这个过程并不顺利:冷静和焦虑相距甚远。
MINDER程序表明了一些情感控制行为的方式,从而智能地安排相互竞争的动机。毫无疑问,人类护士会因为情况发生变化而经历(原文如此)各种焦虑。但这里的重点是情感(emotions),不只是感觉(feelings)。前者还涉及现象和功能意识(见第6章)。具体来说,它们是被安排了竞争动机的计算机制,如果没有这些机制,我们就无法运作。所以,影视剧《星际迷航》中没有情感的斯波克(Spock)先生就无法进化成真正的人。
如果要实现强人工智能,那么我们必须考虑和利用情感因素,如焦虑。
注释
[1]恐怖谷理论(uncanny valley)是一个关于人类对机器人和非人类物体的感觉的假设,它在1969年被提出,说明了当机器人与人类相像超过一定程度的时候,人类对它们的反应便会突然变得极为反感,即哪怕机器人与人类有一点点的差别都会显得非常显眼刺目,从而对整个机器人有非常僵硬恐怖的感觉,犹如面对行尸走肉。——译者注
标签: #易语言用途