芥末翻｜通过大脑预测误差来进行社会学习

芥末堆看教育 06-27 191

前言：

眼前朋友们对“r语言mh算法”大约比较关注，你们都想要学习一些“r语言mh算法”的相关知识。那么小编也在网上网罗了一些对于“r语言mh算法””的相关知识，希望我们能喜欢，大家一起来了解一下吧！

【芥末翻】是芥末堆全新推出的一档学术栏目，由芥末堆海外翻译社群的小伙伴们助力完成。我们致力于将全球经典或是前沿的教育理念、教育技术、学习理论、实践案例等文献翻译成中文，并希望能够通过引进这类优质教育研究成果，在全球教育科学的推动下，让更好的教育来得更快！

图片来源：谷歌图片；论文来源：Social learning through prediction error in the brain, npj Science of Learning 2, Article number: 8(2017)；作者：Jessica Joiner 1, Matthew Piva 2,3 , Courtney Turrin 1 and Steve W. C. Chang. 译者：马亮.

了解这个世界对于生存和成功至关重要。作为一类社会物种，了解他人是融入社会的必要组成部分，并最终有助于提高进化的适应性。人类和非人类动物如何发掘其他动物的内在状态和经历，长期以来都是传统发展心理学在涉及自我和他人的学习和决策领域的研究热点。本综述中，研究者探究了心理学如何概念化表征他人的过程及神经科学如何揭示强化学习原理，从代表自我和他人奖励相关信息的角度探索社会学习潜在的神经机制。特别是，研究者讨论了多个大脑结构中的自我参照和他人参照的奖励预测误差类型，探究了如何有效运用强化学习算法调解社会学习。基于预测的大脑计算原理在自参照信息和其他参照预测误差信息之间可能明显地有保守成分，这也意味着研究有章可循。

表征他人的历史观点

了解世界并做出适应性决策是认知的关键特征。人类和非人类动物也正是利用这一重要连接来改造环境并求得生存。如果动物并非独处一隅，即与其它同类生活在同一群落，决策就更加复杂多变。研究者非常了解人类和非人类动物如何从自己的行为和结果中学习，熟知这些自参照预测误差在大脑中再现，然而却对他人大脑计算原理的探寻方式知之甚少。在这篇综述中，研究者研究了大脑中存在代表他人行为和奖励结果的其他参考预测误差。

首先尝试了解他人这一概念的学科之一是发展心理学，相关研究人员经常探究婴儿了解世界的方式。理论-理论观点指出，儿童就像小科学家一样验证因果关系，他们不断收集世界的数据，再对收集到的数据做出预测，并加以验证。在观察、直接和替代经验的基础上，他人可以被视为学习对象。

相反，模拟理论假设人们通过自参照理解他人，运用个人思维过程机制将知识投射到他人行为。随后将这种模拟他人的概念与个体皮层运动神经元的镜像神经元活动联系起来，进而也解释了猕猴通过观察某一动作后做出相同动作。

值得注意的是，这些理论针对其他参照信息在大脑的表征过程做出了不同预测。6 根据一位仿真学家的叙述，“他人”这一概念来源于个人自我意识，也就是以自我为中心。关于他人的概念发端并依赖于自参照的自我中心机制。然而，理论-理论指出处理和评估他人的信息，如同从周围环境获取其他参照信息一样，都可能会遇到多中心型系统。过去这两个概念表达了大脑表征他人的核心问题。

观察学习与社会学习

人类和非人类动物都依靠观察来认知世界。鼠、鸟、黑猩猩通过观察其他同类，了解他们在特定环境或社会背景下的行为表现。最早的观察学习形式中就有模仿。模仿学习通常是未成熟生物体模仿规范的运动行为。婴幼儿和幼猴在发育早期模仿照顾者所有面部表情，只要成年人伸舌头，他们也会反射性地伸出舌头，这很可能是大脑通过简单运动反应来提升社交技能的一个例证。在观察学习或更广泛的社会学习研究中，儿童的模仿行为是最典型的例子。

学习者观察智能体行为时，社会学习就此发生。而且，无需任何实践或直接重要强化，学习者即可完成之前所观行为。这表明学习者能够通过观察其他成熟的结果，也可能通过替代强化获得新知或技能。社会学习的功效取决于几个社会变量。例如，观察者和被观察者之间的相似性可以提高学习效率。此外，共情和社会学习之间有着密切联系。共情会对对方特征信息十分敏感，例如观察者和被观察者是否平等，或被观察者属于观察者圈内还是圈外。此外，在灵长类动物中，社会地位直接影响基于其他同类的这类学习，其中地位高的个体更易被模仿。

人类的观察学习可能是建立社会和文化规范的核心。在班杜拉（Bandura）行为建模的经典研究中，如果儿童看到成人模型对大型玩偶的攻击性行为，当儿童有机会与同一玩偶互动，也会表现出相同的攻击性行为。观察学习在儿童成长及后来的社会交往和社会认知中发挥举足轻重的作用。自我学习和他人学习如何在大脑结构中表征，及自我和他人相关学习信号是否参与相似或迥异的神经计算，皆是社会学习过程中的重要课题。

研究者给本综述定义的社会学习重点在于观察学习。在这种学习中，一个主体通过行为观察及奖励结果了解另一个主体。然而，社会学习与社会交往本身一样存在多面性。人们可以了解他人的不同方面，例如个性或心理状态。社会学习也可以体现向他人学习的奖励结果（例如，教师反馈学生作文成绩）。

高层次社会认知

了解他人后即可构建其他个体的内心状态。解构他人信念的能力称之为心智理论（ToM）。心智理论可以称之为了解其他个体最复杂的一种形式，涉及大量其他参照及加工处理。婴儿可以解读他人的信念就说明了婴儿对世界的理解从一开始就非常复杂而丰富，也难怪长期以来人们对心智理论机制的学习兴趣十分浓厚。心智理论到底代表单独的社会过程还是许多广义过程的融合18，这仍然存在争论。心智理论往往通过执行假想信念任务来衡量，该任务可以19检测测试者能否在社会模型下对一个物体的位置形成假想认知。低龄段幼儿，甚至如11个月大的婴儿，竟能解读他人的内心信念，并且能“通过”假想信念测试20，这表明大脑的参照他人处理功能在人类个体发育的早期就已出现。

然而，心智理论在非人类动物上的研究结果更加复杂。例如，婴儿可以通过的假想信念任务，猴子却无法通过。灵长类动物已经出现运营其他理解方式理解其他同类。猴子通过跟随注视表现出集体关注。猴子会追随另一个主体凝视的对象或方向，表明它们可以理解这个主体的视角，或通过固有神经机制反射性，分配自己的注意力来理解其他人的凝视，处理与他人的凝视角度，兴趣及价值之间的联系。与此类似，研究者已证明猴子和黑猩猩可以理解对一个独立个体来说什么视觉信息是可被利用的，如果有偷食机会，它们倾向于从没有视觉接触的个体开始偷食。这表明即使灵长类动物不一定能模拟其他个体的想法信念，但也理解其有不同的视角。

总而言之，人类和非人类动物都具有复杂的社会认知能力，但其复杂程度可在进化过程中区分。了解其他参照信息的运转模式及自我和他人的信念呈现，将进一步协助我们认识大脑是如何将有关信息升级到更高层次的社会认知。

强化学习原则

无论是人类还是非人类动物，都是以强化学习理论为基础的各种学习和决策任务的绝佳模型。为了对有机体的行为（特定情境下有机体的行为方式，以及在考虑动机和主观价值等内部状态下进行决策）作出明确和可测试的预测，通过数学模型描述学习和学习成果是一种强有力的方式。27强化学习原则可以用比较简单细致的规则来捕捉看似复杂的行为，如著名的Rescorla-Wagner模型。28虽然不同的强化学习模型在不同的认知现象描述方面有所不同，但它们有几个共同的核心要素，如学习的速度或刺激的显著性，进而更好地适应学习和具体决策过程。

强化学习根植并应用于工程学和心理学。理查德·贝尔曼（Richard Bellman）致力于研究强化学习的核心基础，他因贝尔曼最优方程和动态规划而闻名于世。强化学习广受重视的根本原因是，生物体从环境中收集信息来学习并做出决定，这种方式被强化学习概念化。强化学习需要智能体主体在特定环境中通过根据不同状态或情境做出反应。其他必要组成部分还包括奖励信号、价值功能和策略。奖励结果是所有形式强化学习的中心，由智能体主体在环境中的行动结果构成并形成一定数量。然后智能体主体使用该奖励结果来计算价值函数，推测特定状态/环境的期望值以及特定状态和动作的连接。智能体主体使用这些价值函数来开发一组优先行动，称为决策。环境模型是强化学习可选的部分，可以为生物提供状态转换的指导。

贝尔曼为工程应用开发的动态规划需要一个完整的环境模型。除了假设未来状态29下潜在行为总期望增益之外，这个想法要求智能体主体的行为由此行为期望增益来指导。此原则同样适用于时间贴现（TD）模型，强化学习模型的主要形式应用于人类和其他动物的心理学研究。时间贴现学习和动态规划存在显著不同——时间贴现不需要任何环境模型。相反，学习通过比较期望奖励和实际奖励，在一定的时间过渡之后得到实现。这个差异就是奖励预测误差，用于更新值函数，并最终用于智能体与其环境交互的决策。预测误差信号确实是原始学习模式的基本属性。28简而言之，预测误差会计算动物在给定的事件或试验中预期发生与实际发生的行为差异。这也可以称为误差信号。

大脑预测编码与强化学习

预测误差被有效地用作驱动自参照学习的信号。生物体在试验的基础上更新自己的行为，以此说明这种期望和结果之间的差异所提供的新信息。特别是计算预期回报与获得回报之间差异的奖励预测误差已被确定为神经生物学中数学学习规则的重要关联知识。

在大脑中编码的经典型的奖励预测误差与时间贴现学习所需的类型一致。由于奖励对适应性行为的本质属性，奖励编码的区域是除了参与感觉运动转换的大脑区域之外的一些最佳研究区域。根据经典学说，多巴胺能黑质和被盖腹侧以及背侧和腹侧纹状体已被证明是处理奖励接受和评价的主要区域，多巴胺与奖励的关系现在被称为神经递质关联的最具代表性的行为之一。你可以预见，这些区域提供了奖励预测误差编码的强有力示例。

在大脑的其他地方也发现了奖励预测误差信号（Reward prediction error signal）。灵长类动物外侧缰核神经元编码关于奖励结果的互惠信息，与先前描述的中脑多巴胺神经元有关。值得注意的是，外侧缰核神经元的活动先于多巴胺神经元的活动，表明外侧缰核神经元作为在中脑中检测到的预测误差信号的输入源。此外，对人体的功能磁共振成像( fMRI)揭示了大脑皮质内遍及众多奖励相关结构，存在多种预测误差和其他学习相关信号，表明预测误差信号是一种广泛的连接学习和决策的广义机制。将这些模型应用于界定行为和神经活动的概念化，在学习和决策研究中已证明卓有成效，也许最著名的发现是中脑多巴胺神经元代表时间贴现奖励预测误差（TD reward prediction error）。

如今至少有两个研究强化学习（RL）的重要神经科学分支仍在继续。第一个分支涉及模型无关（基本时间贴现学习）和模型相关（类似于动态规划）学习的神经基质之间的潜在平衡。这些研究共同发现了模型相关状态转移误差的神经基质，模型相关的表征是除了纹状体和腹内侧前额皮质中的模型无关预测误差范围之外的，以及在模型相关和模型无关的方法之间充当判优器的大脑区域。第二个分支是替代强化，它也可以在强化学习框架中建模，从而说明如何通过运用替代类的预测误差，将他人的行为用来更新我们自己的学习和决策过程。强化学习可能在关于他人的行为和奖励的社会学习中加以实现。

强化学习原则中的这种替代性强化将直观地以相关模型运行，因为在对其他行为主体的潜在思想和未来行动的模型不加以创造和更新的情况下，我们不清楚模型无关的强化学习系统如何尽可能了解另一个行为主体。因此，关于人类如何使用强化学习机制来学习和推断他人的研究，已经应用了涉及被模拟者的经修改的Q学习框架。尽管强化学习创造了解释和概念化社会学习的重大机遇，但却存在可应用于社会认知的其他计算模式。例如，一些人认为，形成强化学习理论基础的假定强化学习奖励预测误差，反而可以被解释为预期违反或显著性，特别是与皮质区域的活动有关。在相对缺乏明确的强化学习原则的情况下，其他专门设计用于通过博弈论方法阐明心智化能力的模型在探索社会行为方面非常成功。这些方法主要包括无限递归生成其他行为个体的迭代算法。这些方法不仅解释了猎鹿博弈中典型的人类行为，而且还发现了自闭症谱系障碍患者递归社会认知的具体缺陷.

对于要学习的各种不同事件，例如动作值、奖励值和奖励定时，可以会出现预测误差信号。此外，预测误差不限于奖励域。预测误差计算的证明甚至存在于大脑的感觉运动区域，这些区域处理诸如小脑和额页眼动区（关于预测误差的类型和相关脑区，参见表1）的精细调谐动作。因此，批评信号负责纠正大脑各种功能区域的行为输出和认知表征，而且认可预测编码是大脑的关键特征的观点。

随着人们在描述日益复杂的人类行为方面取得长足进步，试图将对自我学习和决策的研究纳入他人行为的学习和决策范围中，现已成为一个备受关注的课题。对于社会有机体来说，对特定事物做出适当的反应并正确地预测它们的行为是必要的，这就要求它们依赖于了解彼此，就像它们依赖于了解在何处觅食以生存一样。正如预期的那样，了解他人以及自我和他人的表征是由几个与奖励相关的大脑结构所传递的。

自参照和他人参照强化信号的神经基础

在本节中，研究者将讨论选定的研究成果，这些成果提供了关于大脑如何在强化学习和决策领域发出自我参照和其他参照信息信号的新见解。如果适用，研究者将重点关注其他参照预测误差信号，这些信号与行动和奖励结果相关，奖励结果又同社会学习联系密切。

大脑纹状体

神经科学领域的最新进展为运用强化学习机制向他人学习提供了各种支持。虽然纹状体长期以来一直是大脑中自我参照奖励信息和预测误差的焦点，但纹状体在学习中的作用并不限于自我参照处理。在一项关于多巴胺释放的观察性学习和替代性强化的研究中，当观察到另一只老鼠接受奖励，相比奖励品被投放至某个空盒子里时，观察鼠在腹侧纹状体中发出更多的声音并释放明显更多的多巴胺。58这些结果将多巴胺释放与预测误差信号相关的作用扩展到了社会领域，暗示着类似的强化学习机制参与了他人的奖励结果的信号传递。值得注意的是，与自己的奖励相比，对他人奖励结果的多巴胺释放程度仍然明显较弱，这表明虽然使用了类似的机制，但其方式可以区别于自我和他人。58在参与自我和他人的动作和奖励结果的任务环境的猴群中，纹状体中的神经元在发信号通知他人执行动作的同时，发信号通知自己所接收的奖励而不是他人所接收的奖励，59这表明纹状体中可能存在发信号通知自我参照和其他参照信息的特化器官，并且这种区分可能进一步取决于对另一个体的动作和奖励结果的编码。

还有证据表明，纹状体代表人类功能磁共振成像研究的其他参照奖励和预测误差。当由同伴进行社会评估时，先前与个体的积极的社交互动导致个体与积极的结果相关联，所述积极的结果与纹状体中的活动以及眶额皮层的活动相关。这表明社交互动同样可以激活大脑区域，通常表示主要强化因素的增强值。纹状体似乎也参与了奖励的相对评估，可将他人的表征与自己的表征加以比较。在最后通牒博弈的实验中，受试者将钱给同伴并能拿回一部分钱，纹状体的激活也与预测误差相关，这些预测误差反映了受试者从同伴那里得到的提议与他们期望同伴给予的提议之间的差异，而不是受试者期望的感觉与他们实际感觉之间的差异，似乎反映在腹内侧前额皮质( vmPFC)和后扣带皮质中。

此外，关于期望形成的类似于强化学习的预测误差形成了关于他人怎样看待与纹状体、眼窝前额皮质（OFC）、前喙扣带皮质（rACC）和前脑岛活动相关的主体。需要了解他人的行为和结果和/或他人的内部状态建模的各种经济博弈风格的任务已经表明，纹状体包含在这些过程中。例如，他人观察到的行为会影响自己的经济决策，这反映在纹状体血氧水平依赖脑功能（BOLD）响应中。此外，如果社会学习的额外回报被去除，只需要对他人执行纯粹的观察任务，那么在纹状体中仍然会发生人际预测误差。类似地，互惠博弈证明学习信任或不信任他人的行为是由尾状核中的预测误差信号传递的

有趣的是，纹状体中的这些其他参照预测误差甚至可能与社会规范相关联，因为它们在依赖他人反馈的经济博弈中被激活。与违背小组意见相关联的预测误差类型信号也表明与下述内容的相关性，即受试者如何改变其行为，从而在随后的判断中与该组保持一致性.

在信任博弈中，投资者给受托人资金后，受托人可向其返还一部分资金，参与人所预估的受托人的还款率与受托人实际偿还的金额之间的差异导致了受试者中纹状体的预测误差，这种误差是因为他们依靠了合作伙伴的学习行为。此外，在同一研究中，投资者的投资比例与投资者建模（他人对投资者所执行行为的建模）之间的差异形成了第二级预测误差。值得注意的是，研究发现，未能深入模仿同伴的大脑的受试者将体会更多第一类预测误差中的纹状体相关性（即，更多地依赖于他人的行为），而受试者模仿同伴的大脑的内容越多，他们就越有可能激活纹状体，从而产生第二级预测误差（即，更多地依赖于他人的心理表征）。

前扣带皮质

多种行为和认知状态均与前扣带皮层( ACC)有关，可以概括为一个与动机、发起奖励导向或目标导向行为有关的综合领域。从这个角度看，前扣带皮层可能是整合不同的自我参照信息流和其他参照信息来产生适应性行动计划的核心轨迹（参见图1，其他参照奖励和大脑行动区域的可视化）。前扣带皮层参与社会决策的大量证据支持了这一点，前扣带皮层的神经元信号反映了关于自我、他人或两者的信息处理。在观察性学习领域，前扣带皮层特异性钙电流缺失可以有效地消除小鼠通过观察同种个体冲击的学习能力。与此相关的是，疼痛的观察方面已经成为研究人脑中同感的主要焦点。观察另一个人受伤和经历疼痛的迹象会引起移情关切，并积极参与前扣带皮层的特定部分活动。经历疼痛时，前扣带皮层也同样被激活。这种共享的机制支持观察导向的替代疼痛处理被限制或重新用于处理自己的痛苦。

前扣带皮层可能代表皮层通路中的一个关键接合点，从自我和他人的角度通过处理动机来代表和区分自我和他人。当猴子执行社会奖励分配任务时，监测个体前扣带皮层神经元的峰形活动，其中，行为动物可以选择向接受者递送或扣留果汁奖励，这表明在发出自我和他人的奖励结果的信号方面存在着特殊性。更具体地，在前扣带回ACC( ACCg)的脑回中，一些神经元专门编码自我奖励，而另一些神经元专门编码他人的奖励，还有一些神经元编码自我和他人的奖励结果。81值得注意的是，损伤前扣带回而非前扣带沟，消除了对猴群的社会评价，表明前扣带回在社会认知中的因果作用。类似地，在人脑中，头侧前扣带皮层神经元与上述前扣带回神经元有所叠盖，在需要观察性学习的纸牌游戏中，从他人那里获得信号奖励结果。

图1. 涉及与另一个体相关的表征信息的关键大脑区域。这些脑区往往与下述内容相关联，如心智化能力，检测他人的信念，或发出有关另一个体的决策变量的信号。请参阅文本，了解这些领域如何与表征另一个体的信息相关联。冠状磁共振成像的插图表明各个截面（红线）与尼式染色的矢状切片相对应。某一脑区周围的虚线轮廓表明该区域从外侧表面向中间投射，目的是使该区域成为大脑更内侧的一部分。根据网站和许可进行改编，得到美国国家科学基金会和美国国立卫生研究院的支持。ACCg前扣带回, ACCs前扣带沟, dlPFC背外侧前额叶皮层, dmPFC背内侧前额叶皮层, IPL顶下小叶, MTG 内侧颞骨回, PCC后扣带回皮质, PrCu楔前叶, STS 颞上沟, TPJ 颞顶联合区, vmPFC 腹内侧前额叶皮层

此外，ACC中的神经元已被证明是在猴子进行囚徒困境博弈时调停集体奖励引导的行为，从而提供强有力的证据表明自我和其他过程被整合到ACC中。自我和其他融合到ACC的证据还得到了一个解剖梯度的支持，这个解剖梯度沿着人类的扣带在一个信任博弈中绘制自身和他人，如果没有回应的合作伙伴，该游戏则不存在。此外，已经假定ACCs和ACCg代表不同的信息流。

准确的社会学习需要多种类型的预测误差信号（参见图2，大脑中自我参照和其他参照预测误差的表征）。例如，观察行为预测误差表示另一个人实际行为与预期行为之间的差异，而替代结果预测误差表示另一个人实际结果和预测结果之间的差异。此外，为了判断他人的动机，替代性的动态预测误差表示他人在他们的动作期间的实际和估计的活动运动学之间的差异48。在ACC中已经报告了自我参照行为值的预测误差，并且ACC的沟和回部分都涉及自我奖励评估和决策。ACCs因涉及众多功能而被深入、充分研究，包括误差检测和动机以及认知控制和反应选择。最近，关于ACCs是否涉及计算价值引导的行为适应或认知控制，存在着广泛的争论。

值得注意的是，在脑回和脑沟之间似乎有信号功能分离的自我参照信息和其他参照信息。例如，与另一个人做出的选择有关的预测误差可以在ACCg中找到，但在ACCs中找不到。此外，ACCs神经元在社会决策任务中以自我参照方式编码奖励结果，而ACCg神经元的亚组以其他参考方式进行。同样，在竞争竞争博弈中，自我参照的奖赏结果预测误差与腹侧纹状体的活动相关，但关键的是，有关基于信念的竞争伙伴行为的预测误差在头端ACC（rACC）中进行编码。此外，在涉及利用另一个人建议的社会决策任务中，ACCs和ACCg分别对自己和他人的学习率进行了差分计算。总体而言，尽管已经在ACC中检测到社交信号，但是根据跨越全脑神经影像学、电生理记录和解剖专业累计的证剧，ACCg与其他参照信息处理具有最明确的联系。

前额叶皮质

前额叶皮层有许多子区域，通常被认为是与决策有关的高层认知过程的场所。因此，前额皮质的许多部分处理其他参照信息是凭直觉完成的。当观察另一个人的误差选择时，通过在成对的猴子轮流进行决策任务期间通知特定目标与可能奖励之间的关联，背内侧额叶皮层中的神经元编码这对猴子所犯的误差，作为社交误差监控功能，这依赖于其他参照信息。同样，腹内侧前额叶皮层（vmPFC）编码人类观察另一个人在寻求奖励任务行为中的价值，并与该个体向符合社会规范的行为相关联。其他类型的预测误差在前额叶皮质也发现了其他类型的预测误差。当参与者通过直接经验或观察另一个人的行动和结果学习刺激与奖励结果之间的偶然性时，与奖励有关的不同前额结构表明自我和他人的学习相关事件。在这种情况下，腹侧纹状体表示自我预测误差，背外侧前额叶皮层（dlPFC）表示他人行为的预测误差，vmPFC表示他人的结果预测误差。

图2显示的关键大脑区域与行为（a）和奖励/价值结果（b）中的自我参照信息预测误差（黄色）或其他参照预测误差（紫色）或两种预测误差（绿色）有关。对于运动学习相关的误差，研究者只提供在大脑中具有代表性的区域，因为它们超出了本综述文章的范围。值得注意的是，这些自我参照或其他参照预测误差信号的分布区域自然地受到检查不同类型预测误差的研究量的限制。带有冠状磁共振图像的插图指示对应的大脑矢状面尼氏染色（红线）部分。虚线轮廓区域表示该区域从侧面向内突出，目的是将该区域包括在大脑更内侧的区域上。根据，http：//brainmuseum.org的许可进行改编，得到美国国家科学基金会和美国国立卫生研究院的支持。ACC前扣带皮层，ACCg前扣带回，ACCs前扣带沟，dlPFC背外侧前额叶皮层，dmPFC背内侧前额叶皮层，LHb外侧缰核，LIP侧颅内区，MTG内侧颞骨回，OFC眶额叶皮层，SC上丘，SN黑质，STS颞上沟，TPJ颞顶联合区，vmPFC腹内侧前额叶皮层，VS腹侧纹状体，VTA腹侧被盖区。

此外，Suzuki等人研究了学习刺激-奖励结果突发事件的神经相关性，在参与者直接了解该关联以及参与者预测另一个人可能选择哪种刺激时的两种情况，鼓励参与者塑造或精神模拟其他个体。这种操作需要使用其他参照的预测误差，这个误差计算了另一个人做什么和参与者认为另一个人会做什么之间的差异。同样，前额皮层的不同部分作为自我参照和其他参照计算功能被使用。腹内侧前额叶皮层以与自身相似的方式跟踪模拟他人的预测误差，而模拟他人动作的预测误差在背内侧前额叶皮层（dmPFC）和背外侧前额叶皮层（dlPFC）显示。值得注意的是，猴子背内侧前额叶皮层中的神经元活动已经显示出对手在竞争奖励任务中密切反映的策略，进一步加强了背内侧前额叶皮层在模拟其他方面的专门作用。这与Behrens等人的研究结果是一致的，其中前扣带回和前扣带沟分别计算了可分离的奖励信号以用于其他参照和自我参照的奖励信息，并且这些信号被整合到腹内侧前额叶皮层中。

最后，眶额叶皮层（OFC）是显示奖赏价值的关键皮层区域，并且与显示值预测误差信号相关联。尽管眶额叶皮层神经元对涉及自我和他人的社会奖励环境敏感，但是这些神经元的奖励结果编码似乎是自我参照的，这表明眶额叶皮层可能更局限于调节行为适应，包括在自我参照的框架下适应社会环境。

关于他人的各种预测误差的编码是许多与奖励相关的大脑区域特征，这表明自我学习与学习他人或向他人学习之间存在紧密的生物联系。特别是这些结果支持这样一种观念：理解和学习另一个人的经验是根据共同的预测编码原则进行处理的，这些原则包括自我和其他领域的特定区域专业领域。

颞顶联合区和心智化网络

引用心智理论时，需要另一个人的建模，比起他人而言，尤其要激活一个人的楔前叶（PrCu），后扣带回（PCC），以及颞上沟（STS），颞顶联合区（TPJ）和内侧前额叶皮层（mPFC）他人。长期以来，颞上沟和颞顶联合区一直被认为是像心智理论这样的高级认知和建模他人精神的神经热点。颞顶联合区尤其被认为是一个独特的社会认知重点领域98，有证据表明颞顶联合区是代表他人信念的必要条件。对心智理论相关领域的元分析确定了最可靠的牵连区域是颞顶联合区和侧前额叶皮层，楔前叶和颞上沟的激活对于各种心智理论方法背景下的心智理论类型较敏感。值得注意的是，研究人员发现侧前额叶皮层中自我指涉的思想与他人的心智化有着密切的联系，表明自我参照和其他参照信息在心智化网络的一个关键区域是如何相互联系的。

值得注意的是，颞顶联合区和颞上沟的组成并不是专门为测量心智理论而设计的。当考虑他人的信息来指导自己的行为时，颞顶联合区和颞上沟也被激活，表明了他们对广泛定义其他参照计算的参与。当参与者考虑到另一个人的建议来获得潜在奖励的决定时，背内侧前额叶皮层、内侧颞骨回（MTG）、颞上沟和颞顶联合区激活信号表示社会预测误差。此外，当针对人类对手和计算机算法进行简化的扑克游戏时，颞顶联合区作为预测行为相关的社会决策的独特区域而出现。另外，颞上沟在视觉线索的社会认知中扮演着重要角色。因此，跟踪和解释社会相关信息可能是构成所谓的心智化网络区域的基本组成部分。最近提出的一个简明提案称颞顶联合区是一个计算中心，其中注意力、记忆力、感官知觉和语言等不同的认知过程都汇聚在一起，产生行为相关的社会背景的表征。

与这个想法相对应的是，这一心智化网络中的许多节点已被观察到执行额外的功能，这些功能与社会行为的其他方面有潜在关联。例如，已经提出后扣带回计算主观价值以及其他相关的社会过程，包括人的感知、更新和第一印象.

结束语

黑尔（Hale）和（萨克思）Saxe109提出，心智化可能是一个基本的预测过程。虽然研究者目前对大脑如何实现理论-理论或模拟理论中描述过程的理解并不完整，但似乎被神经表征的其他参照预测误差以神经学的形式展现，这一事实表明，存在用于社会学习和强化学习的基于预测的共同学习机制。其他参照学习的神经机制可以从用于学习自我的预测机制中选择，其中之一是预测误差信号。将强化学习和决策的术语连接到社会领域可以加强发展研究者如何思考他人的思路和方法。

其他参照学习还有很多额外的维度有待探索。随着实验者继续推动研究社会学习、互动和评估的极限，研究者可能会发现自己正在刷新大脑处理“社会”和“非社会”的极限。除了大脑中其他参照的表征之外，社会处理也可以指代社会主体与非社会主体之间的比较。虽然不同的大脑区域可能会应用类似的计算来解释自己和他人，但社会信息处理背后的神经过程可能并非与其他类型的信息截然不同，而是处于一个连续统一体。例如，当人类参与者与其他个人或与被编程具有不同程度慷慨的老虎机伙伴玩游戏，颞顶联合区、后扣带回、楔前叶、腹内侧前额叶皮层和其他几个区域中的激活相似地反映了人类和老虎机伙伴对慷慨的预测误差.

这一发现和许多观察到社会和非社会信息之间的大脑激活调节差异的发现可能表明，大脑事实上可能并不区分这两种信息，而是根据特定行为约束所要求的实现算法来处理信息。也许社会功能可以被看作是大脑的遗传功能被赋予新的目的，演变成处理有机体的社会环境。那么“社交大脑”的概念应该关注如何使用特定的常用计算算法来指导适应性行为。

致谢：

要感谢A.N.，L.S.和D.L.对原稿所提出的周到建议。这项工作得到了国家精神卫生研究所（S.W.C.C., R00-MH099093, R01-MH110750, R21-MH107853），Alfred P. Sloan基金会（S.W.C.C.，FG-2015-66028）和加拿大自然科学与工程研究理事会PGSD奖学金（M.P.，471313）的支持。

原文链接：

>>声明

本翻译仅作了解之用，并非用于学术研究或商业决策。芥末堆海外翻译社群的小伙伴们力求将关键理念与思想更广泛地传播至中文区域，故部分表达可能与原文有所差异。如需使用，请查证原文。

本文地址：http://www.longkongtuishu.com/cac21BA1sBlIBDFI.html

标签： #r语言mh算法