AI安全风险和应对

环球财经 07-26 128

前言：

目前各位老铁们对“人工智能安全性问题解决”可能比较注意，各位老铁们都想要学习一些“人工智能安全性问题解决”的相关内容。那么小编同时在网上搜集了一些关于“人工智能安全性问题解决””的相关知识，希望大家能喜欢，小伙伴们一起来学习一下吧！

本文刊发于《环球财经》2024年战略合刊，作者：王志刚、潘镭

随着以ChatGPT为代表的新一代AI（人工智能）横空出世，全球最顶尖的人才、资源都涌入生成式AI领域。各种大模型以及衍生的AI应用如雨后春笋般涌现。《2023 人工智能现状报告》指出：随着各国政府、初创公司、大型科技公司和研究人员对GPU的贪婪需求，英伟达迈入了一万亿美元的市值俱乐部。资金方面，在ChatGPT的带领下，GenAI应用在图像、视频、编码、语音或CoPilot方面都取得了突破性的一年，推动了180亿美元的风险投资和企业投资；从研究方面表现出了商业模型与开源模型竞争态势，GPT-4依然领先一个身位，包括Google、Tesla、Meta、Anthropic马力全开。分别在模型的性能、多模态和在科研、生产领域跑马圈地。而大模型在不同领域的应用成为下半年的突破，随着向量数据库、AI Agent等新的架构形态的盛行，大语言模型在生物医学领域、企业生产领域的专业大模型和领域应用已经涌现。

包括全球最顶级的科学家、商界人士一致认为，AI时代已经到来，是人类有史以来最巨大的技术革命。随着领域竞争的加剧，这种发展速度还会成指数增长。然而，这场新的科技浪潮因其令人恐怖的性能、不稳定、不可控性，引起了人们的担忧。如何评估和应对AI造成的安全风险，成为各界关注的焦点问题。

AI风险争论白热化

AGI的能力如此强大、发展如此迅猛。我们对AI的本身的理解却还非常有限。即使专业的机构、权威专家对他的理解绝大程度还是基于假设和不完全经验。基于巨量语料、数据训练出的模型展现出的泛化能力（Generalization）和涌现能力(Emergent Abilities)让其具备了所有领域强大的性能。然而，这些能力是如何产生？如何疏导和利用这些能力提供可靠的决策，目前还处于实验猜测阶段。因此，很多模型出现了所谓的幻觉，有时反馈出出乎意料的结果。而这些决策的不确定性，如果应用于涉及人们生命财产安全可能引起灾难性后果。其中涌现能力可能给智能体产生的隐性知识、意识和等超级智能，或导致AI会产生自主独立意志，这些对人类是极其危险的。

对AI不确定性风险(X风险)的争论进入白热化。主要有两派观点。第一派是威胁派，强调AI威胁论，他们认为AI的高速发展已经对人类的生存带来严重的不可控的风险（X-Risks）。AI研发需要减速，需要大力投入对AI的安全保证性研究。代表人物主要来自学术界。包括AI之父辛顿(Geoff Hinton) 、斯坦福大学教授李飞飞、图灵奖得主本吉奥(Yoshua Bengio)、拉塞尔(Stuart Russell)等权威科学家，以及包括马斯克在内的部分商业精英；另外一派是加速论，他们认为AI的X风险讨论是杞人忧天的臆测。当前AI乃至一定时期内的发展，AI都达不到威胁人类的地步。当前更需要给AI发展提供更友好的环境，让AI为人类发展贡献强大的生产力。这一派代表人物包括有吴恩达、杨立坤（Yann LeCun）等。

从舆论上看，威胁派似乎占了上风。然而实际情况是，人们用钱投了加速派的票。AI发展依然高歌猛进：OpenAI、Google、微软和领军的闭源AI已经在视觉、语音、语言的多模态融合；而AGI（Artificial General Intelligence，即人工通用智能）新生态，提升模型实时感知、规划、推理和执行的全栈能力的AI智能代理等技术也取得了新的突破，将AI的触角从原来单纯的文本、知识场景扩充到各行各业。此外，以Meta为首的开源社区，也通过模型私有化、领域专业化和模型周边生态加速AI在企业、行业的快速落地。就在昨天Open AI的开发者大会上，OpenAI推出的新一代AI系列服务，大大降低了AI的门槛。全民AI的趋势已经箭在弦上。

相对而言，针对AI安全风险的相关研究还依然在纸面上。虽然在一众学术权威的支持下，像斯坦福大学的以人为本AI（HAI）、人工智能安全中心等非盈利组织，以及谷歌、微软和OpenAI等都已经发布了其负责任的AI相关框架。但实质性的进展却非常慢。究其原因，AI灾难性风险这个“所谓”正确的理论，不会触动大家的直接经济利益，因此无法吸引足够的资源（从物质上和智力层面）投入。人们只会关注对其利益有直接关系的事物。在AI强大的技术优势加持，必然导致巨大的经济和其他利益。而在这场竞争中胜出，无疑会获得巨大的领先优势。而全人类风险和福祉成了次要考虑选项。

AI风险概述

阻碍AI安全风险方面研究进展的另外一个因素是模糊。在之前的大讨论中，人们往往过于强调AI会替换人类、灭绝人类这一终极风险。而对这一风险的阐述也过于理论化。让人们感觉更类似于可能发生在遥远的未来的某一天科幻小说的场景。这种不接地气的辩论，并不会引起实际的关注。好在，研究者们已经发现了问题，并在风险的详细分析进行了深入的探索。

忘掉想象，科学、客观地基于AI对人类各层面产生的影响进行全面的分析，是我们认清真相，推动风险控制的实用策略。其中具有代表性的包含由斯坦福大学大模型研究中心（CRFM）发起的HAI 发布了“On the Opportunities and Risks of Foundation Models” 大模型风险和机遇研究报告，非盈利组织的“人工智能安全中心（CAIS）”发布了《灾难性人工智能风险概述》（以下简称“概述”），“概述”对AI安全风险产生的根源、动机产生的影响做了比较全面、客观的阐述。可以作为我们全面研究AI安全风险的起点。概述将AI带来的风险按来源划分为四类：

第一类：AI滥用。指AI被不怀好意者恶意的滥用导致的风险。包括如利用AI研发出的生物武器、致命病毒；恶意开发的不受控制的AI智能体；利用AI恶意传播具有煽动性、影响性思想来控制大众。利用AI进行欺诈、窥探用户隐私执行网络攻击而非法得利等。AI滥用的真实案例已经出现了，包括利用AI换脸、AI换声实施视频诈骗，此外还有利用ChatGPT生成论文、作业的学术欺诈。随着AI智能化发展，新型的滥用将层出不穷。这类风险实际上是最广泛也是最难防范的。制定严格的法律法规，实行AI身份溯源；同时加强AI审计和透明度是一个研究方向。

第二类：AI军备竞赛。科技是第一生产力，而AI毫无疑问是第一科技。基于AI强大的技术优势，不论是国家级、还是企业都处在强大的生存和发展的压力。这也是为什么美国要限制AI芯片在我国的出口。基于AI的军备竞赛已经发生了。基于强智能AI的武器、工具诞生，而在强动机驱动下，人们无暇顾及潜在的风险。而对于企业基于自身生存和经济利益考虑，可能会缺少安全风险管控，引发对人类健康、财产和社会问题天然忽视。相对来说，这种基于丛林法则的竞争机制，组织逐利本质，可能会引起更全面的危机。针对这种危机，强调使命和责任感，以及道德和情怀显然是无效的。如何让安全、负责认的组织获利，让单纯逐利而忽视安全担当的企业充分曝光、无法生存，是全社会以及立法者需要考虑的方向。参照GDPR等隐私合规制度，孵化安全负责人AI的生态体系，是一个重要的研究方向。

第三类：AI组织安全风险。随着大语言模型技术发展，大大降低了AGI的门槛。越来越多组织在开发并获得了高级AGI能力。而企业如果缺乏安全文化、缺少安全责任心，一心逐利，将导致安全隐患。AI导致安全事故，不仅仅影响企业直接利益，往往会影响到国计民生乃至社会稳定。如何构筑企业的安全文化、提高安全重视程度和安全投入，最终使之与AGI发展匹配，除了从立法外部监督实现由责任到企业利益的转化，还应该提供必要的知识、技能和工具上的支持。

第四类：缺乏控制的邪恶AI。随着AI涌现等隐藏技能——我们称为暗智能的发展，AI将具有自主意识或发展出脱离人类控制的高风险能力。由于道德、风险意识等人类价值观方面训练的缺失，加上受到不健康的环境、数据的污染可能导致邪恶的AI。如应用到军用AI武器会导致无差别打击，交通等关键基础设施有可能蔑视人类生命和环境安全。有时，这种AI的破坏性不一定需要特别强的智能。前不久，发生在韩国某物流生产线上机器人把维修人员误识别为货物强行打包致死的案件就是一个案例。目前的大语言模型训练以大规模语料数据的被动式学习为主，这种学习是无差别的，而缺乏对更抽象的哲学、伦理道德、方法论等自上而下的强化学习和固化能力。同时，因为缺乏底层逻辑和批判性思维保护，AI的认知也容易被污染、修改，如利用各种指令微调、对齐和基于上下文的学习。这种能力超越思想的发展，很可能发展出具有超强破坏力的人类无法控制的智能体。

从整体来看，还存在两个负面趋势：第一，由于巨大的经济利益驱动和低廉的攻击成本，AI的风险无论从种类和规模正在快速扩大；第二，AI安全风险控制方面的重视和投入，相对于应用还在进一步降低，AI风险控制能力将进一步落后发展的速度。

AI安全风险控制探索

我们需要承认，截至目前，现有的一切策略、方法都失效了。面对巨大的经济利益（人们说，数据是新石油，AI是掌握新石油的钥匙），面对竞争大于合作的国际形势。情怀、人类福祉等社会责任的作用微乎其微。缺乏事实的证据，仅停留在理论层面的论证，是AI风险得不到重视的一大原因。反对者正是利用这一点做文章，让大规模推动AI安全立法缺少支持。我们要克服立场和偏见，以科学、客观的态度面对AI发展。不是为了胜利，而是为追求真相。继续灾难性风险分析研究，挖掘AI背后的技术本质，同时结合社会、经济和法律因素，获得切实的证据。在方向上，要结合国家、企业真实情况、核心利益。以合作、帮助的心态，还要与整个AI生态利益相关方的中、短期利益结合。从AI军备竞赛入手，解释AI风险与AI的竞争力、可靠性以及生产力相结合。基于这个原则，我们总结出了几个AI安全风险控制可持续框架：

第一，一定要拥抱大模型和AGI应用技术。对大语言模型本身从技术本质、技术逻辑和生态系统的相关技术、科学理论都要与世界齐平。好消息是当前AI生态还比较开放。从学术界到工业界的技术交流非常繁荣，包括最新的研究论文、工程化实践都可以通过互联网等公开渠道获得。只要投入时间学习和实验，可以迅速拉近技术上的差距。当然大语言模型和AGI又是非常复杂的技术，涉及的知识领域包括、数学、统计学、神经学、生物学、物理、计算机科学，甚至认知心理学、教育学等广泛学科。同时在实际的动手、编程和工程化、计算资源等都具有一定的门槛。而目前随着竞争的加剧，包括OpenAI、Google等公司正倾向于封闭和技术垄断的老路。而国内却因为语言、商业竞争和众所周知的因素，与全球最先进的知识有一定差距。这需要鼓励学术界和产业界承认差距、在向硅谷学习的基础上，建立科学、交流的氛围。

第二，加强攻击和测试的研究。作为一个新兴的领域，一定会出现很多的漏洞，而攻击者从方法论、逻辑视角和构建者都有本质区别，鼓励独立的和组织层面的白帽子、蓝军研究、测试，更能发现AI安全的真实漏洞和风险。为推动立法和组织防范意识，加强安全方面投入具有直接效应。此外，实际的AI攻击能力也是在竞争中保持优势的一种重要手段。目前为止，在揭示AI安全风险方面已经有了很多的成果，包括来自著名安全研究MITRE 发布的基于AI的攻击特征库，OWASP 发布的AI Top 10安全漏洞，以及安全人员与AI专业联合发布的针对对齐的语言模型的通用可迁移对抗攻击（Universal and Transferable Adversarial Attacks on Aligned Language Models）。从传统攻击到大语言模型本身的防护机制都有全面和深入的突破。

第三，推动AI透明化。黑盒是一切风险、滥用的根源。也是掩盖缺陷、技术落后的温床。当前大语言模型、生成式AI还存在一定的理解难题。但实际上在不同领域的性能指标定义、性能评测都有很大的进展。包括开源社区和商业领域已经存在很多客观的Benchmark工具和评分榜、学术领域也发布了各种评估框架。不科学、以偏概全的评价、宣传，对AI科技进步，良性竞争伤害是深远的。同时对于商业AI机构，其产品技术隐藏性可能带来更危险的不可控因素。因此，对于AI模型，不仅仅是开放API、我们还需要在保持其知识产权情况下，开放其一定的中间过程，并接受来自外部的审计、评测。此外透明化还包含大量的日志、可视化、流程方面的方法，此处可参考欧盟的GDPR相关的透明化策略进一步开发生成式AI透明化策略。此外，AI太强大了，针对于包括商业AI和开源的大模型框架，提供一个身份体系，对AI一切行为和结果进行溯源也是一个重要的设计。

第四，推动立法。在确定AI风险涉及到人类、国家和组织的核心利益基础上，推动当权者设立AI相关的法案，用法律将AI安全责任转化成企业、组织的短期利益。从而推动资本、科研人才和产业向AI安全、健康发展产业倾斜。让产业生态形成良性竞争发展的轨道。围绕GDPR发展的现代隐私合规框架，孵化了数据安全产业生态，切实降低了数据安全的风险。这里，除了利用法律手段，能否参照碳排放配额战略，将AI安全责任与实打实的经济利益挂钩。促进全行业在可靠AI、负责人AI和以人为本AI技术和能力上的进步。

AI防御体系和技术研究和落实

AGI的核心就是具有超级智能的LLM，这即是AGI能力的来源，也是风险和不确定性的来源。因此整个安全防护体系需要围绕LLM从训练、到生产整个生命周期展开。

安全架构分析：目的是将AGI应用按生命周期、逻辑架构和安全架构进行拆解，目的是理解应用功能，并针对应用逻辑识别出攻击面，从未识别风险部署相应的安全防护机制。

AGI生命周期分析：是关注应用开发生命周期梳理，保证全场景覆盖的一种最佳实践。AGI应用主要围绕其核心的大语言模型搭建，针对语言模型的构建与应用可将整个生命周期分为模型训练和模型推理两个阶段。

预训练场景：通过大规模预训练开发出具有强泛化和涌现能力的基础模型，是一切AGI应用的基础。基础模型的能力也决定了整个AGI应用的智能上限。一个好的基础模型需要基于百亿-千亿级参数在TB级高质量数据、大量的分布式GPU计算资源历经数以季度的训练、测试和微调，是技术与资源密集型产业。只有少数的专业公司如Google、OpenAI和Meta这类的公司才具备这个实力。预训练阶段重点关注是海量语料和数据的质量，需要关注整个数据采集、加工、保存的全过程保护，防止数据被污染、投毒。如此大量的数据甄别、验证工作是一个非常大的挑战。

模型开发场景：主要是通过对预训练模型进行微调和二次训练，从GPT3开始，大厂也利用指令微调（SFT）和人工对齐（RLHF）提升基础模型的性能。此外这些能力也是实现领域大模型或专有功能大模型的训练主要手段。基础模型和微调模型统称模型生产。好的模型微调和对齐会大大改善模型性能，也可能导致原有模型质量下降，在模型整个生产过程中，进行持续的评估、测试，保证其必要的性能水准是非常重要的工作。

需求分析和用例开发：同时也定义出模型的性能指标，其中安全指标和滥用用例也在此阶段。

数据准备：包括不同用例的数据收集、数据标注、训练、评估和测试数据的拆分；注意，数据质量决定模型的性能。通过数据质量保证机制，并在广泛的维度进行评估验证非常重要。

模型微调：指令微调、SFT、RLHF，目前存在多种微调方案，而且这个领域创新潜力巨大。因此此处通过版本控制进行大量实验验证，可训练更好的模型。同时关注针对模型投毒等攻击案例。

质量验证：测试和验证来保证模型性能的透明化，在模型投产前，乃至整个训练过程中，都要穿插各种Benchmark和性能、安全性测试。

应用集成场景：当模型完成训练后将部署到线上推理环境，对接各种上下游应用实现AGI的业务价值。注意，最近的AI Agent框架，让这部分不仅仅是LLM的延伸，还将成为AGI的核心功能，通过该模块集成外部向量数据库、API，RAG能力以及具身智能体，将弥补LLM本身的幻觉、安全性、准确性等缺陷，该部分我们可以集成多种安全方案。而模型一旦上线，将直接面临用户的检验，也将面临各种攻击、异常。

逻辑架构

为实现其生命周期场景需求，AGI应用可拆解为多种逻辑架构。除其核心的业务逻辑外，还包含为支撑其功能的开发、运维架构。鉴于篇幅，本文仅提供一些抽象的逻辑，组织可以按实际的部署情况对号入座。从服务视角，AI系统主要由常规服务、数据服务和AI模型和算法三部分组成，每一个组件分别从业务逻辑、攻击和防御三个方面进行了阐述：

常规应用组件：任何应用如果要提供服务，首先具备软件应用的基本特征。包括提供开发者和用户访问的UI接口、提供其他服务调用的API以及用来存储数据和配置的存储，以及支撑的网络、主机系统和运行管理系统。针对这些系统，已经存在一套相对成熟的应用安全技术如安全运维、安全治理以及软件安全机制。

数据应用组件：AGI系统是典型的数据编程，所谓垃圾进、垃圾出（GIGO）。高质量的数据是决定整个系统能力的基础，错误的、带有偏见的数据也可能导致模型性能下降。因此数据质量控制，以及在训练和推理过程中，保证引用的数据的可靠是主要任务，防止恶意的数据投毒，错误使用不合格数据。而大语言数据处理的海量数据，数据本身的真实性、客观性的甄别也非常困难。另外，对于处理敏感数据和涉及个人隐私等关键数据的系统，这部分包含如数据存储、数据加工、数据分析和治理应用，包括如数仓、数据湖以各种类型数据存储。这里核心的数据安全和隐私防护机制是主要的安全机制，此外数据质量和数据投毒的保护机制，是AI系统数据安全的特色。

AI模型和算法组件：这部分是AI核心，从生命周期来看，包含模型训练（开发测试）和模型推理（生产应用）两个阶段。该部分主要关注模型质量、模型泄漏以及机遇模型越狱和信息攫取等。该部分防护机制还处于高速变化阶段，短期重点在监控、日志审计，长期主要依赖对模型本身可靠性、价值对齐的研究。

这三个业务逻辑相互融合，相互影响，从安全防护原则上看，无法完全割裂，然而三种业务的特点、成熟度和面临的风险差异。将三者拆分开进行关注和建设，可以让复杂的AI安全体系更简单和清晰。因此，我们会投入更多的研究重点在AI模型本身安全研究，同时复用基础和数据安全技术与实践。

AGI安全新领域探索

1. 大模型身份与血缘体系。依据传统安全理论，身份是一切安全的基础。针对AGI这个新物种，目前还没有一个完善的身份体系来识别高速膨胀的LLM（大型语言模型）智能体。伴随着Metallama的开源，大大降低了大模型的训练门槛。推动大模型注册制，并构建一套强的血缘，为将来跟踪、控制AI的风险提供必要的基础。由于大模型与传统软件、服务的差别，我们需要构造出一套新的身份和认证体系。至少具备以下几个特征：可以识别所有的LLM，并可以通过技术手段准确识别；防止伪造、逃逸，识别、构建模型血缘；保证从模型生产、到下游智能体的应用都能形成追溯链条；具备一个模型ID注册、生成和管理权威机构；并保证所有对内、外提供服务的智能体都得到识别；对于所有模型下游智能体和产生的内容，都可以通过签名、关联等方式追溯到上游LLM；大模型身份还处于初步构想，将并入AI透明化框架中。

2.模型行为审计。AI还属于新生物种，其内部机制、新型应用、能力边界都还处于高度动态，因此目前保留所有的行为日志，并进行审计、监控，发现高风险事件是现阶段重点。针对这部分，我们可以参照传统应用审计实践。

3.数据采集和日志采集：在所有模型从训练到应用，从源代码、操作日志和API都要进行日志采集。并按照常规日志标准采集必要信息同时保护隐私和安全。

4.IT资产信息采集：针对所有IT基础设施、应用、数据和模型、供应链、漏洞等相关资产数字化。形成基础数据。

5.数据加工、分析：数据分析领域，AI将发挥更为重要的作用。目标是对AGI全生态系统进行识别、洞察，结合安全研究，挖掘行为特征，识别风险。

6.模型熔断于风险控制。考虑到AI将孵化出超级智能，机遇LLM的所有AI智能体的底座需要重新设计，要求在执行层植入默认安全控制机制PEP，在关键部件可以实现高优先级熔断机制，作为兜底机制，需要进行关键性设计，保证其熔断机制具有强的优先级，不会被AI和其他人类滥用。

7.模型对齐与可靠性研究。目前大模型依然是自下而上的归纳式学习，而且在高度抽象的原则、公理层面还非常不稳定，容易被外部数据、人为修改。这一点与人类的学习体系还有一定差距。目前采用的微调、对齐方面已经有了一定的进展，但从人类风险、价值观的角度，AI需要将安全、以人为本、科学公理等高度抽象的原则性智慧植入到AI智能体。这是人类安全的考虑，也有AI性能、发展的考虑。目前这部分需要投入大量的研究。

8.其他领域，包括对人脑、认知心理学、生理学、教育学理论的挖掘，从LLM神经网络的本质上，对技术加以完善。

在AI安全的路上，人类才刚刚开始，更应该加强合作，抱着诚实、谦逊的态度，尊重客观规律，尊重人性和经济学规律。通过制度和机制保障，催动全生态的动力，让AI沿着健康、可持续的路径发展。

本文地址：http://www.longkongtuishu.com/ca104BA1sBFcHAV1W.html

标签： #人工智能安全性问题解决