龙空技术网

【前沿】刘东亮 闫玥蓉 | 大数据分析中的相关性和因果关系

济南市天桥区检察院 213

前言:

此时咱们对“大数据 相关性”可能比较注重,我们都想要剖析一些“大数据 相关性”的相关知识。那么小编同时在网摘上网罗了一些关于“大数据 相关性””的相关文章,希望各位老铁们能喜欢,朋友们快快来学习一下吧!

刘东亮,西安交通大学法学院教授

摘 要

“大数据分析不追求因果关系而只关注相关性”是一种颇为流行但似是而非的说法。实际上,大数据分析并非完全放弃对因果关系的追求,其所关注的相关性是对因果关系的逼近和靠拢,是在无法确定因果关系时的一种折中,这与法律上的因果关系在大多数情况下属于统计的因果关系(强相关)并行不悖。大数据分析的结果可以在法律程序中适用,但受制于数据质量、建模错误等因素,其可靠性有时比较薄弱,从而导致其适用范围存在限制。大数据在法律程序中的作用主要是预警和佐证,仅在少数情况下才可以直接据以作出法律决定。大数据技术具有两面性,在充分利用大数据带来的便利的同时,也需要在观念上破除“大数据的神话”,特别是对大数据的伪相关性风险进行防范,避免可能的“大数据的悲剧”。

大数据正在深刻改变社会生活以及我们观察、理解世界的方式。利用大数据分析结果改进决策,不仅在商业领域得到应用(如各种各样的算法推荐系统),同时也在重塑法律的运作方式,如在疫情防控中广泛使用的“健康码”“一码通”等,即是政府运用大数据技术进行社会管理的鲜明例证。前不久,在引发社会关注的“獐子岛扇贝逃跑案”中,有关部门甚至使用到北斗导航系统,利用大数据分析比对涉案公司船只的定位信息和采捕作业轨迹,以此作为行政处罚的相关证据。《国务院关于加强数字政府建设的指导意见》更是将落实大数据战略提升到了推进国家治理体系和治理能力现代化的高度予以全面部署。

虽然大数据技术已经渗透到社会治理和法律领域,但还是有很多问题存疑。特别是,由于相关性并不等于因果关系,大数据分析强调的相关性与法律上的因果关系是否相抵牾?这一问题直接决定了大数据分析的结果能否在法律程序中适用及其适用的范围如何。也正因为该问题如此重要,或许可称之为“大数据时代的法律之问”。

一、相关还是因果:大数据应用的前提问题

有“大数据时代的预言家”之称的英国学者舍恩伯格(Viktor Mayer-Sch.nberger)指出,在大数据时代,数据处理的理念有三大转变:(1)大数据的模式是全样本分析,不依赖于随机采样;(2)允许混杂性,不追求精确性;(3)放弃对因果关系的追求,只需要关注相关性或相关关系。这几乎是当下关于大数据的一种通说。

众所周知,因果关系是法律实践中的重要问题。民事侵权行为和损害后果之间存在因果关系,才能要求相关主体承担赔偿责任。危害结果在客观上可归责为行为人的行为,即行为与危害结果之间存在引起与被引起的因果关系,才能对行为人科刑定罪。在行政法领域,行政处罚、行政赔偿等均需存在某种因果关系,才能够追究相关主体的行政法律责任。而相关关系并不等于因果关系。那么,接下来的问题是:大数据关注的相关关系和法律上的因果关系之间,究竟是一种什么样的关系?回答这一问题,首先需要从哲学和科学上的因果律说起。

(一)哲学和科学上的因果律

“凡事皆有因果”的说法在很多宗教、哲学乃至日常伦理观念中都有反映。相信万事万物存在因果关系,这种倾向有其深层的进化心理学基础:我们生活在一个纷繁复杂而充满不确定性的世界,风险与野性总是在伺机而动。为了生存,人类要像丛林中的动物一样保持警觉。出于降低复杂性、掌控外部世界和自身命运的类本能需要,对事物间因果关系的理解与把握成为不确定世界的理性选择。

在哲学上,因果律常常被视为一种普遍的自然法则。从古希腊的德谟克利特到近现代的康德、黑格尔等历代著名哲学家,几乎都参与过对因果关系的讨论。不过,大多数哲学家关于因果关系的理解都是建立在形而上的基础之上,他们的因果观主要是一种信念,是近乎玄学性质的主观判断,对我们研究法律上的因果关系帮助不大。仅有个别哲学家如休谟所说的“因果之被人发现不是凭借于理性,乃是凭借于经验”,因果观念主要是一种“概然推断”, 这些认识对于我们理解法律上的因果关系有所裨益。

在科学上,早期原子论者相信万物都是依照因果律发生的。德谟克利特明确否认任何事物可以由于机缘而发生。另一原子论者留基波曾经说:“没有什么是可以无端发生的,万物都是有理由的,而且都是必然的。”这种观念逐渐演化为在科学史上长期占据支配地位的决定论(determinism)。决定论的思想基于因果律,可以说是因果律的强化版:世界上的任何事件,都有先已存在的充分原因。某原因决定了某事件必然发生。凭借这种原因,我们可以充分解释或理解该事件,不需要再引入其他外在的因素。这种观念是自然教导给我们的常识,也是自然科学不断取得成功的关键。

19世纪初,决定论在有着“法国的牛顿”之称的天文学家、数学家拉普拉斯那里达到了高潮。他放言:只要有适当的参数,就可以计算出宇宙包括其中任何一个原子的过去和未来。这一论断被称为“拉普拉斯之妖”(Laplace’s Demon)。然而,到了20世纪20年代,海森堡等人提出的“不确定性原理”粉碎了“拉普拉斯之妖”的虚幻缥缈:不可能同时精确测量出一个粒子的位置和动量。20世纪30年代初问世的“歌德尔不完备性定理”进一步昭示:不仅过去备受推崇的公理化的演绎方法存在缺陷,就连作为自然科学之基础的确定性最高的数学本身也宣告了“确定性的丧失”。

无所不在的不确定性把世界隐藏在迷雾中。一度被人们深信不疑的因果律,渐显模糊。

(二)经典统计学的相关性转向

有史以来,不确定性问题一直困扰着人类。基于对各种随机现象的观察,人们很早就有了零散的概率和统计思想。也就是说,统计学的起源可以追溯到原始社会。但是,直到近代它才逐渐成为一门在实践中极为重要的学科。

统计学的目的是从数据中获取信息以帮助人类作出决策。统计学的早期历史即以数据为中心。“统计学”(statistics)一词在18世纪中叶被创造出来时其词意为:由国家收集、处理和使用数据。不过,数据揭示的只是数量信息,数据本身并不具备表述因果关系的能力。并且,在统计学产生初期,由于当时尚缺乏一种能够描述和刻画复杂系统中因果关系的数学语言,因此,在经典统计学的奠基人高尔顿(Francis Galton)和皮尔逊(Karl Pearson)首次发现人口统计数据可以揭示一些科学问题的答案时,在这种关键性的时间节点上,统计学很遗憾地与因果关系失之交臂。

皮尔逊认为,在高尔顿之前每个人都没有充分注意到相关性分析。在其为高尔顿所写的传记中,皮尔逊指出:“高尔顿头脑中再三考虑着两个不同的问题,最终使他达到相关性的观念:A不是B的唯一原因,但却对B的产生有作用;也许还有其他多种或几种原因在起作用,这些原因有的我们不了解,有的可能永远也不了解……这种部分因果性的测量便是更大范畴的胚胎,即相关性分析的胚胎,这种分析方法不仅取代了我们许多人头脑中旧的因果关系范畴,而且深刻地影响到我们对宇宙的看法。因果性的观念开始崩解,尽管它曾为物理学家带来无限的利益。……今后,有关宇宙的哲学观将是一种相关的变量系统的哲学观,接近但绝非达到完全的相关即绝对的因果性。”在皮尔逊的眼中,相关性成为唯一值得关注的对象。因果关系被简化为仅仅是相关关系的一个特例。

应当说,高尔顿和皮尔逊对相关性和因果性之关系的理解,的确是值得称道的。他们把相关性理解为部分因果性的测量或者是对因果性的接近。但不幸的是,由于这两位开山祖师对相关性的强调,此后,因果关系从传统主流统计学家的字典中被驱逐出去,他们不关心甚至抵制对因果关系的讨论。这部分是因为,单凭数据无法回答因果关系问题,因果分析要求研究者作出主观判断,有时还需要借助于想象力。这无疑会影响到统计学自我标榜的客观性。自1834年3月15日伦敦统计学会成立伊始,客观性就被奉为统计学家的圣杯。该学会的创始章程规定,在任何情况下,数据都优先于观点和解释。数据是客观的;而观点是主观的。为客观性而奋斗,成为统计学家的信仰和目标。

长期以来,统计学都信奉“相关性不等于因果关系”,并逐步形成了闭口不谈因果关系的局面。直到今天,这种以数据为中心和只关注相关性的观念仍然阴魂不散。有统计学家相信,数据本身已经包含了所有的科学智慧,只要对其稍加打磨,数据便会吐出那些智慧的珍珠。——的确,相关性不等于因果关系。公鸡打鸣与日出高度相关,但其不是日出的原因,公鸡打鸣不会导致太阳升起。然而,经典统计学由于因果的复杂性和难以发现而忌讳讨论因果关系,则是典型的讳疾忌医,并让自己陷入了因果蒙昧的黑暗。

毕竟,因果关系思维是人类区别于其他物种进化出智能的关键。追问“为什么”几乎已成为人类的一种心理本能。即使《大数据时代》的作者舍恩伯格强调大数据对人类思维的变革是“需要放弃对因果关系的渴求,而仅需关注相关关系”,但他仍然同时承认:“人们习惯于从因果关系的视角来理解世界……在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道‘是什么’时,我们就会继续向更深层次研究因果关系,找出背后的‘为什么’。”该书译者、大数据知名学者周涛教授也明确指出:“认为相关重于因果,是某些有代表性的大数据分析手段(如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。从小处讲,要避免‘数据的独裁’和‘错误的前提导致错误的结论’,其解决之道恰在于挖掘因果逻辑而非相关性;从大处讲,放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。”

当代著名统计学家劳(C. R. Rao)亦曾告诫:“统计学家常常要做侦探性质的工作,利用自己的想象力去寻找那些能够阐明数据背后所隐藏之秘密的蛛丝马迹。”易言之,统计学家(大数据时代称为“数据科学家”)绝不能满足于相关性,而需要像法律人一样,努力去寻找数据背后那些隐而不彰的规律及其线索。

(三)法律上的因果关系之内涵

法律上的因果关系既不同于哲学上的因果关系,也不同于科学上的因果关系,而是哈特所称的常识的因果关系。同时,法律上的因果关系是与确定性因果关系相对应的统计的因果关系,在大多数情况下,它都是一种强相关。

1.法律上的因果关系是常识的因果关系

一般认为,违法行为与损害后果之间存在因果关系,是确定法律责任的四项要件之一。法律上的因果关系通常指违法行为引起了某种损害事实。但这只是一般意义上的法律因果关系。广义的法律因果关系,是指各种事实之间的联系,可能涉及人的行为也可能涉及自然事件,并不限于违法行为和损害后果之间的关系。本文所指法律上的因果关系,即是指这种广义的法律因果关系。不难理解,证据法上所要求的环环相扣的证据链是由很多环节组成的,大多数的因果关系都同时包含多个因果链。

根据辩证法的普遍联系原理,世界上的一切事物都是相互联系的。因而,现实生活中的事件往往是多因一果。然而,如果按照普遍联系的观点追溯因果关系,就会陷入“A2是A1的原因,A3是A2的原因,A4是……”这样没有穷尽的链条当中。这就如我们熟知的一种说法:“钉子缺,蹄铁卸,战马蹶;战马蹶,骑士绝,战事折;战事折,国家灭。”法律上的因果关系显然不能按照这种逻辑进行无穷追溯,而必须在某个区间进行截割。英美普通法上的近因原则——“法律审究近因,不问远因”这一拉丁法谚之智慧的体现,即是在这种无穷尽的因果链条上“砍一刀”。这一做法将具有重要法律意义的直接因果关系与不具有这种意义的间接联系区分开来。

法院经常主张,法律考虑的是普通人的因果观念(既非哲学家的也非科学家的)。比如,在火灾案件中,人们不会说起火的原因是由于氧气的存在,尽管缺少氧气就不会燃烧。人们总会把原因归结为人为纵火、电线短路、被丢弃的烟头或者闪电等偶发因素。

法律上的因果关系之所以属于常识的因果关系,源于法律活动的人间烟火气。法律活动不是依靠纯粹理性和形式逻辑进行推理的哲学思辨或科学研究,而是受实践理性和实践逻辑支配的实践活动。简言之,法律上的因果关系植根于社会实践,它来源于普通人的因果观念。对法律上的因果关系这一性质的认识,是哈特等人的巨大贡献。在其理论的基础上,我们还可以将法律上的因果关系归结为统计的因果关系。

2.法律上的因果关系是统计的因果关系(强相关)

在自然界和人类社会中存在两类因果关系:确定性因果关系和非确定性因果关系(或称统计的因果关系)。确定性因果关系出现的概率为1或接近于1。统计的因果关系所表现出的规律性,是对大量偶然事件进行统计平均的结果,与其中个别事件没有必然的因果联系。两相比较,因果关系更多的属于统计的因果关系。物理学家埃丁顿(A. S. Eddington)指出:“迄今为止,作为因果关系所接受的某些重要的法则经过仔细研究后,可认为这些均是具有统计学特征的。”

必须承认,在某些情况下,法律上的因果关系是确定性因果关系。比如“发生在法官眼皮底下的犯罪”(如藐视法庭罪),这类不法行为和损害后果之间的因果关系是确定的,法官不需要其他证据即可直接依据“三段论”定罪科刑。但这类案件通常都是简单案件,并且仅是法律实践中的少数情形,是特例而非常态。法律上的因果关系更多地属于与确定性因果关系相对的统计的因果关系。

在大多数情况下,案件事实都是发生在过去的事实,弄清楚这些事实在某种意义上类似历史学家的考古活动,要证明不法行为和损害后果之间存在100%确定的必然联系非常困难。有学者指出,“预测是非常困难的,尤其是对未来的预测”。与预测相比,“后测”过去的事件并不会更容易。我们无法穿越回过去,正如同我们无法穿越到未来。从认知科学的视角而言,预测和后测是一回事,它们都是根据有限的证据提供的信息进行推断。法律系统作为一种典型的复杂的人文系统(humanistic system),其中的非线性特征、因果关系的隐蔽性和大量混杂因子(confounding bias)的存在,使得所有简单的因果解释都变得行不通。也正因为如此,长期以来,人们在法律因果关系问题上聚讼纷纭、莫衷一是。

法律实践当然不能等到理论争议有了结果才付诸行动。笛卡尔曾经说:“当我们不具备决定什么是真理的力量时,我们应当遵从什么是最可能的,这是千真万确的真理。”的确,法律实践不会一味寻求确定性因果关系,而是灵活运用统计的因果关系,有时还使用非因果关系标准。前述普通法上的近因理论和大陆法系的相当因果关系,实际上都是统计的因果关系的不同称谓。波斯纳法官指出,“事实认定是概率的而不是确定的”;证据法学家威格莫尔(J. H. Wigmore)声称“因果关系通常只是意味着高度的概然性或明显的趋势”,即是对这种统计的因果关系之性质的更明确的解释。

为什么说法律上的因果关系在大多数情况下是一种强相关?无疑,有相关不一定成立因果,但无相关一定不存在因果。统计的因果关系之前提是存在相关性。而相关性是一个等级化的程度概念。相关性描述了两个事物之间的关联强度,它通常用“皮尔逊相关系数”(Pearson correlation coefficient)来表示,并简写为r,其值介于±1之间。r=0时表示两个属性(线性)不相关;r=1表示两个属性具有完全的正相关性,r=-1表示两个属性具有完全的负相关性。解释皮尔逊相关系数的一般原则是:当r≈±0.7时表示属性之间存在强相关,r≈±0.3时表示弱相关,r≈±0.5表示中等相关关系。有人对纽约东部地区法院的法官运用证据标准的情况作调查后发现:尽管不同法官之间存在些许差异,但基本上其概率表示非常接近。“占优势的证据”是50+%,“清楚的、令人信服的证据”是60-70%,“清楚的、明确的、令人信服的证据”是70+%,“排除合理怀疑”是85-90%。将这种四种证据标准的概率表示和皮尔逊相关系数联系起来看,可以明确地说,法律上的因果关系在大多数情况下都是一种强相关。尽管不同案件类型有所差异,但几种证据标准的概率表示基本上分布在70%左右。这也从一个侧面说明,法律推理属于非必然性推理,法律论证并非普通形式逻辑学意义上的有效论证(valid argument),而是一种前提可以为结论提供有意义支持的强论证(strong argument)。著名数学家波利亚(George Polya)将法律推理称为“合情推理”(pausible reasoning),认为它与适用于数学和自然科学领域、受形式逻辑支配的“论证推理”有显著不同。

由于法律上的因果关系是一种统计的因果关系,它在大多数情况下是一种强相关,因而,大数据分析得出的统计学意义上的相关性(强相关)与法律上的因果关系并行不悖。这意味着,大数据分析的结果可以适用于法律领域。并且,由于在行政程序中适用范围最广的证据标准“实质性证据” (“清楚的、明确的、令人信服的标准”)其概率表示为70%左右,与皮尔逊相关系数的强相关非常接近,因此,相较于其他法律程序而言,大数据分析尤其适合于行政程序(后文的分析主要以行政程序为例兼及其他程序)。

需要说明的是,仅仅厘清大数据分析的相关性和法律上的因果关系之关系而止步于此是远远不够的。本文主旨是解析大数据在法律领域的可适用范围,提醒学界在大数据研究的热潮中,不能夸大甚至无限拔高大数据的功能和作用(法律人工智能的研究中已有这种倾向),而必须从实际出发,理性地对待大数据分析结果,尤其要注意防范各种可能的伪相关性,避免形成“数据的独裁”。

二、大数据分析在法律领域的可适用范围

大数据分析结果可以适用于法律领域,但其适用并不是无条件的,而是有适用范围上的约束和限制。这种约束和限制缘于大数据分析结果的相关性不一定是真实的相关性,并受制于数据质量、建模错误等因素,有时存在比较高的偏差可能性。

(一)大数据分析相关性的再认识

1.相关性分析:对不确定性的度量

相关性是涉及多个学科的研究主题。例如证据法学就涉及对证据“三性”之中关联性的研究(证据与待证事实密切相关)。当人们利用信息技术开展信息活动时,相关性是首要的主导因素。

每个人好像都知道相关性,但它究竟是什么,又很难解释清楚。因为相关性是一个同时具有客观性和主观性的概念。或者说,相关性是一个依人而存的概念。信息是否具有相关性取决于人们的评估或者判断,是人们将当前信息与自身所处环境或面临的问题进行关联得出的主观评价。——统计学界有人以强调客观性为由,主张只关注相关性而放弃对因果关系的追求,实际上是对相关性属性的片面理解。

在信息科学领域,人们认为相关性是一种关系,关系的一方是信息或信息对象,另一方是包含认知与情感状态的各种情境。前文指出,人们可以用计算的方法度量这种关系的强度并用“皮尔逊相关系数”予以表示。因此,信息科学领域中的相关性既代表一种关系又代表对关系的度量。

对相关性的度量具有非同寻常的意义。尽管人类根据经验法则(rules of thumb)获得的很多知识都具有不确定性,但在掌握了度量不确定性的方法之后,我们就能将具有不确定性的知识转化成可用的知识。易言之,通过相关性度量,我们可以找到驾驭不确定性的办法,从无序中寻找有序,从混沌中寻找方向。这种新的思维方法将人类从祭司和巫师手中解放出来,不再听任偶然性的摆布。

在致力于不确定条件下的决策这一目标和任务上,大数据分析与传统的统计学并无二致。从分析的角度看,大数据分析是统计分析的延伸。大数据只是利用了机器学习特别是深度学习等先进算法模型来分析在可接受的时间范围内使用传统算法无法处理的海量数据。大数据的科学基础是信息论,其本质是利用信息消除不确定性。即使是相关性信息也有助于消除或减少不确定性。申言之,虽然大数据揭示的相关关系属于非确定性的关系,但仍然有助于降低不确定性,拨开将世界的真相隐藏起来的迷雾。

不过,必须牢记,相关性并不意味着真实性。相关性和真实性没有必然关联。比如,冰淇淋的销量和森林火灾是两个相关变量,两者都会在炎热的夏季出现,但两者之间没有因果关系:当你买了一盒哈根达斯冰淇淋时,并没有点燃蒙大拿的灌木丛。

2.大数据分析的错误可能性:破除“大数据的神话”

近年来,大数据的应用特别是其在商业领域的成功实践,给人们造成了大数据无所不能的错觉。很多人认为,大数据可以揭示一切问题。这显然是一种关于数据科学的“神话”。

大数据分析的结果可能出现错误,其原因是多方面的。数据收集和选择的非客观性,数据本身的质量问题等等,都会造成大数据分析结果出现偏差。其中,尤以大数据分析的建模最易出现错误,这种错误之源也最为隐蔽而不易为人所知。

大数据分析的过程大致可分为六个阶段:(1)业务理解;(2)数据理解;(3)数据准备;(4)建模;(5)评估;(6)部署。其中,建模最为关键。可以说,除了部署应用之外,其他环节都是围绕建模而展开。建模,简单地说,就是对现实世界数据特征的抽象。

著名统计学家伯克斯(George Box)有一句名言:“所有模型都是错的,但有些是有用的。”所有模型都是错的,盖因模型是对世界的简化,而简化难免造成某些重要信息的丢失、遗漏,特别是把非线性问题简化为线性问题时,常常导致事实的扭曲和变形。易言之,模型只是对真实世界的模拟,而不是对真实世界的复制,输出值可能与真实世界中的实际值存在差异,因此我们不能期望模型尽善尽美。也正因为如此,大数据分析结果需要经过严格检验才能付诸应用,并且只能适用于有限的场景。商业领域的算法推荐系统给用户推荐几本书或几条新闻,与法律领域的自动化决策系统对公民人身、财产的生杀予夺,两相比较,其容错性要求显然是不一样的。

(二)大数据分析在法律领域中的作用

大数据技术已经在很多领域得到应用。整体来看,大数据分析的任务基本上可以归类为:分类、聚类、回归、关联规则挖掘等等。与此相应,在法律实践中,大数据分析能够发挥的作用可以划分为三类:佐证、预警和直接作出决定。这三方面的作用,在行政程序和司法程序中的表现有所不同,行政程序中三者均有体现,司法程序中则主要表现为佐证。

1.佐证

由于统计方法无法直接确定因果关系,在法律程序中,大数据分析的结果通常不能作为直接证据,但这并不妨碍其成为逻辑学家图尔敏(Stephen E. Toulmin)所说的佐证(backing),以加强作为法律主张之基础的理据(data)和依据(warrant)的说服力,使法律论证成为可接受的强论证。在前述獐子岛扇贝逃跑案中,中国证监会在行政处罚决定书中指出:“上述违法事实,有公司年度报告和公告、询问笔录、公司相关财务数据明细和凭证、公司扇贝库存图和底播图、采捕船只航行定位信息和采捕面积测算数据、盘点和秋测资料等证据证明,足以认定。”这实际上就是将大数据分析结果作为整个证据链条当中的一项佐证来支持处罚决定的合法性。

相关性为什么可以作为佐证?的确,相关性并不等于因果关系,但这种说法掩盖了一个难以忽视的事实:相关性是潜在因果关系的一个有用指标。如果两个变量有因果关系,即由一个可以得到另一个,那么它们应该高度相关。尤其是,如果另有独立证据支持两个变量之间存在因果关系的可能性,高度的相关性可以加强这项证据。在统计学上,这被称为联合概率的乘积效果。其法律意义是,多个相互独立的间接证据,尽管每一单个证据各自的证明力并不是特别强,但它们的相互印证却可以大幅降低事实认定出错的可能性。

相对而言,法律程序中的直接证据通常数量较少,且不易获取。利用强相关性代替直接证据,在法律实践中逐渐被认可。例如,在20世纪90年代中期之前很长的时间里,虽然长期吸烟和很多疾病本身的相关性已经被注意到,但由于找不到它们之间的因果关系,在美国和加拿大围绕香烟危害的一系列诉讼最后都不了了之。因为,在其他因素都排除的情况下,要找到吸烟者发病的比例比不吸烟者要高很多的证据,这件事做起来远比想象的困难。1997年,美国各州对菲利普·莫里斯等烟草公司的集体诉讼以和解告终,烟草公司同意赔偿3655亿美元。这场历史性胜利的背后,并非是检察官找到了吸烟对人体有害的因果关系的证据,而是采用了统计上强相关性的证据,并为陪审团和法官所接受。

必须强调,除非有其他证据的支持,否则只有统计证据是不可靠的,哪怕是运用大数据分析得出的统计证据。在过往的司法实践中,发生过大量统计证据被误用的案例,这些误用造成了严重的悲剧。

2.预警

大数据分析的核心是预测,它通常也被视为人工智能的一部分。但实际上,很多时候,我们真正想要的并不是预测,而是预警。我们并不是想要预测灾难,而是想采取行动防止灾难的发生。大数据思维的亮点之一,正是用统计规律和个案进行对比,找出违反统计规律的异类,并做到精准定位。

预测或预警功能的突出表现是在金融领域。例如,美国股市每天的成交量高达70亿股,其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的。这些程序运用海量数据来预测利益和降低风险。同样,大数据技术也可应用于对金融市场的监管,通过异常值检测及时发现预警信息。近年来,中国在利用大数据监管金融市场方面发展很快,沪深交易所都采用了大数据监测系统。2014年轰动一时的博时基金经理马某“老鼠仓案”就是利用大数据分析发现了案件线索并移交给司法机关。

在行政程序中,大数据之所以能够发挥广泛的预警功能,既与大数据分析的相关性有关,也与行政权积极主动的特性有关。行政机关对很多社会行为能够在事前获得大量数据,并根据预警指标进行筛选,这一阶段需要考虑的并非严格的因果关系,只要有一般的相关性就可以对风险衡量判断,进而决定采取何种措施先行处置。相比较而言,司法程序中的预警功能并不突出,这既与司法证明要求更高的强相关有关,也和司法权的性质(被动性)有直接关系。

当然,值得注意的是,大数据的预警功能有延伸到传统行政程序之外的趋势。近年来,各地公安机关纷纷加强大数据平台建设,提高预测预警预防各类风险的能力;检察机关提出“以大数据赋能新时代法律监督”;甚至在纪检监察领域,多地也先后开展了大数据监督的探索。大数据预警功能能否继续向司法程序延伸,需要进一步观察。

3.直接作出决定

如前所述,大数据分析的核心是预测。大数据分析的基本原理是:基于过去的数据建立的函数模型,在接收新的信息和输入后,会得到对应的输出,这个输出值(函数值)是对业务场景中的缺失信息进行填补,或者说,是对未来的趋势进行预测。这种“预测”虽然并非毫无根据的揣测,但由于其并非严格意义上的逻辑推理,直接根据此类可靠性基础比较薄弱的预测结果作出法律决定,需要极其慎重。否则,因数据分析错误导致的不良后果,会比个性化的在线广告严重得多。舍恩伯格指出:“大数据为我们提供的并不是最终答案,而只是参考答案。”这就是为什么大数据技术在司法领域早已得到广泛运用,但其作用至今始终是辅助办案,而不能由其直接作出裁判的原因。以采纳了深度学习和大数据技术的著名的“206系统”(上海刑事案件智能辅助办案系统)为例,该系统设计时的定位即是作为司法人员的“AI助理”。

即使在行政程序中,也惟有授益性行政行为或者不会造成难以弥补的损害并且事后容易获得补救的行为,才能够根据大数据分析结果并通过自动化决策系统直接作出决定。比如,高校利用大数据分析识别贫困生并给其发放补贴、政府使用健康码系统对重点人群实行分类管控(赋红黄码)等等。除此之外,大数据分析结果只能用于预警(提供线索)或提供佐证。各类行政自动化决策系统要拓宽其适用范围,还有赖于包括大数据在内的信息技术在未来的进步与发展。

三、大数据分析伪相关性的风险防范

虽然大数据分析的相关性可以在不同程度上为因果关系的推断提供支持,不过并非所有相关性都是可信赖的。某些虚假的相关性常常隐匿在大数据分析的结果之中,尽管其具有统计学意义上的相关性特征,但却经不起因果逻辑的检验。统计学将这种相关性称为伪相关(spurious correlation)。

伪相关的正式概念最早由皮尔逊提出。皮尔逊注意到,在有些情况下,两个变量之间的关系虽然是随机的,但二者却存在显著的相关性,因而将其定义为伪相关。后世统计学家也认识到,伪相关性的存在会对得出正确的统计结论造成干扰。尤其是在法律领域,伪相关会误导因果关系的推断,从而对法律正义产生严重威胁。因此,对伪相关性的甄别和防范,是大数据分析及其应用实践中不可忽视的重要问题。

(一)伪相关性的来源

伪相关产生的原因是多方面的。在大数据分析过程中,数据收集、数据预处理、建模等任何一个环节处理不当,都可能为伪相关的生成埋下隐患。仅就数据层面而言,伪相关产生的来源主要可以概括为两个方面:样本数据不具有代表性以及存在未被察觉的第三变量。

1.样本数据缺乏代表性

一般而言,样本数据的代表性取决于样本容量的大小和抽样是否随机两个因素。当样本量不足或抽样不随机时,由于样本数据难以反映数据整体的分布情况,就会大大增加伪相关产生的几率。

一方面,基于样本容量过小的数据集进行分析得到的相关性,通常只能说明数据之间的关联存在巧合。例如,如果只对短期内的数据进行分析,或许会发现股票价格的波动和股票名称之间存在相关性,但这种巧合非常容易被打破。另一方面,数据的抽样需要具备随机性,否则亦难以保证样本数据的代表性。例如,只关注部分数据会导致幸存者偏差(survivorship bias),得出的相关性结论在考察群体之外就缺乏可迁移性。此外,如果人们在样本选择过程中带入了歧视、偏见或者证实性偏差(confirmation bias),也会影响数据分析结论的客观性。实践证明,很多人事招聘模型、银行借贷模型等自动化筛选系统中所选择的变量往往隐含着建模人员固有的歧视和偏见。

即使在当下的大数据时代,也并不意味着能够当然地确保样本数据的代表性。尽管有人认为大数据的模式是全样本分析,但机器学习过程通常是基于有限的样本训练集进行的,在数据准备阶段也常常需要数据清洗,因此,大数据分析的一个真相是:数据永远是从理论上无限的总体中抽取的有限样本。以司法大数据为例,很多研究者喜欢使用的中国裁判文书网并不是一个全样本数据库,数据缺失甚至是系统性缺失问题相当严重,并不能反映司法实践的真实全貌。这意味着,当下的司法大数据分析只能是基于相对有限的数据进行分析,依然需要警惕因数据缺乏代表性可能引发的伪相关风险。

2.潜伏的第三变量

伪相关性的产生,还可能因为受到未被观察到的第三变量的影响,从而得出具有误导性的变量之间的相关系数。因潜伏的第三变量发挥影响而产生伪相关,主要体现为混杂偏倚(confounding bias)和中介谬误(mediation fallacy)。

混杂偏倚,是指两个变量间的关系受到其他外部因素的歪曲或干扰,是第三变量相混淆的结果。例如,在前述冰淇淋销量和森林火灾的案例中,二者之所以呈现出统计上的相关性特征,是因为在考察二者关系时忽视了其共同原因“天气炎热”这一混杂因子(参见图1)。

中介谬误,是指变量之间的关联是由被忽视的中介物导致的,若去除中介物完全可能反转分析结果(参见图2)。维生素C的发现是一个非常典型的中介谬误的例子。过去,人们认识到柑桔类水果可以预防长期出海的水手常见的坏血病,但一直以为是其含有的酸性物质在起作用,后来才弄明白真正的中介物是维生素C(维生素C至今被称作“抗坏血酸”)。在法律领域,中介物也是一个重要概念:如果我们问一家公司支付给女性员工的薪酬相对于男性员工比较低是否构成性别歧视,我们就是在问一个中介问题,其答案取决于观察到的薪资差距是直接由员工性别引发的,还是间接通过雇主无权控制的中介物比如职业资格等因素引发的。也就是说,在法律因果关系的认定中,剖析中介物产生的间接效应,会对确定法律责任及责任大小具有重要影响。

(二)伪相关性的识别

在大数据情境下,数据的海量性、高维性大大增加了产生伪相关的可能性。而且,数据的海量性、高维性特征也使得伪相关的发现更为困难。从前述伪相关产生的来源来看,由于样本数据的代表性问题相对容易判断,因此识别伪相关的关键主要是对第三变量(可以是单个变量,也可能是多个变量)的探寻。无论是在经典统计学还是大数据分析中,识别出第三变量都被认为是发现伪相关的有效方法。而在大数据情境下,从复杂、庞大的数据集中快速、准确地发现第三变量颇为不易。不过,借鉴经典的统计抽样思想,设计有效的拆分、融合策略,仍然能够在一定程度上保证计算的效率并实现研究目标。

在经典统计学分析方法中,偏相关系数(partial correlation coefficient)是发现伪相关的重要手段。例如,在一项关于服刑境况的研究中,研究人员根据数据分析发现,服刑人员在服刑中的奖励加分与重新犯罪风险呈正向关系。这与事实和人们的常识都明显相悖。研究人员再将个体第一次犯罪实际执行刑期作为控制变量进行偏相关检验,发现加分多少与重新犯罪风险偏相关系数为0.162,这说明两者之间的相关性纯粹是一种伪相关,应予排除。申言之,偏相关系数是指当两个变量都与第三变量存在关联时,剔除掉第三变量的影响而只考察原变量之间的相关系数。利用偏相关分析,通过控制可能存在的混杂因子,对两个变量之间的相关性是否受到第三变量的影响进行检验,可实现识别伪相关的目的。著名人工智能专家珀尔(Judea Pearl)曾引入因果图方法,消除混杂因子的影响对变量之间的相关性进行计算。因果图的一个主要优势是让假设变得透明,以供专家和决策者探讨和辩论。并且,在假设正确的情况下,即使没有混杂因子的数据,也可以用数学方法消除混杂因子的影响。例如,对吸烟与癌症之关系假设的因果图,如图3所示:

结合经典统计学中识别伪相关的方法,另一人工智能专家西蒙(Herbert A. Simon)此前也从第三变量的视角提出了伪相关的识别路径。西蒙认为,为了识别两个变量之间的相关性是真实的还是虚假的,需要引入第三变量和经验假设,在新的变量系统中对原有两个变量间的相关性进行检验。值得注意的是,西蒙提出的伪相关识别方法并不是纯数学或纯统计学的。西蒙认为,对伪相关进行识别的前提,是在引入第三变量之前对原变量之间的关系进行假设。这种假设并不源于统计证据,而是源于经验主义的常识。在伪相关识别过程中,需要结合经验性常识,对潜在的第三变量和变量之间的关系进行初步验证。这意味着,法律领域中常识性的因果知识也可以作为先验假设,成为甄别相关性真伪的重要标准。例如,在利用大数据分析方法考察影响量刑结果确定性的因素时,可依据经验引入假设(法定量刑情节应当是影响量刑结果的主要因素)和中间变量(如悔罪态度、当事人身份地位、公众舆论等非法律因素),以验证哪些非法律因素影响量刑结果及其影响大小,哪些非法律因素可能只构成伪相关。

(三)伪相关性的风险防范

如前所述,在大数据情境下,数据的海量性、高维性特征更易引发伪相关风险。而一旦将具有伪相关性的大数据分析结果应用于法律程序,则可能带来灾难性的后果。因此,必须结合大数据分析过程,构建避免产生伪相关的风险防范体系。

1.业务理解和数据准备阶段:确保有效的样本数据

将大数据分析应用于法律领域,首先要由法律专家提供业务理解、数据理解和数据准备上的指导。也就是说,在开展大数据分析之前,就需要法律专家的参与,给数据科学家提供帮助,包括业务理解和数据理解,特别是对待解决问题所需要的数据进行恰当的人工标注。以大数据税务监管为例,近年来,税务部门通过大数据技术发现的偷税、漏税案件相当可观。而大数据税务监管的前提,是税务机关根据稽查工作的要求,对大数据分析必备的数据种类(例如发票轨迹等各种税务征缴信息)进行准确地识别。否则,大数据分析就难以起到精准监管的作用。

在这一阶段,为了得到有代表性的样本数据,需要通过数据清洗(data cleaning)获取 “干净”的数据,以消除数据中潜在的偏差。在此过程中,数据清洗策略和规则都需要依靠法律专家的经验支持,帮助处理数据异常值、无效值、缺失值等,保证数据的一致性和完整性,将混乱无序的数据转化为满足质量要求的样本数据,从源头避免伪相关性的产生。

2.建模阶段:将法律因果关系融入大数据分析模型

通常情况下,在对事物进行建模之前,会依据数据分布、预期要求和分析经验提出一个模型假设,这个假设是建模的重要基础。易言之,假设的目的是为问题解决和模型建立提供思路。比如,在前述西蒙识别伪相关的方法中,就提出了关于因果关系的常识性假设。将法律因果关系(常识的因果关系)以假设的形式引导大数据分析模型的建立,在一定程度上可以有效规避伪相关的风险。

具体而言,将法律因果关系融入大数据分析建模可以实现两个目的。一方面,基于法律因果常识的假设可以降低大数据分析过程中产生伪相关的几率。因为,法律因果知识可以为变量间存在的关系提供参考,在建模过程中结合具体问题进行变量、模型的选择及参数计算,避免由于建模技术不当引发的伪相关。例如,用大数据分析方法对侵权责任难以认定的复杂医疗事故进行佐证时,在建模过程中需要重点关注“医疗机构是否存在过失”,并围绕这一目的选择合适的数据分析模型,同时注意 “患者身体状况”“患者病情变化”等可能产生混淆的第三变量。

另一方面,在大数据分析建模中考虑法律因果关系,可以使大数据分析以一种更容易为法律人理解的逻辑运行,在一定程度上减弱当下大数据分析常常面临的知其然而不知其所以然的尴尬,进而提高大数据分析结果的可接受性。例如,基于大数据技术的健康码系统,如果依据当事人在疫区停留和有关交通出行的信息生成健康码,就可以明确判定是否应当根据红色赋码进行分类管控。

3.评估阶段:基于法律因果逻辑的解释

大数据分析只有经过合理的解释才能够被信任。解释的重要目的之一,是通过解释机制实现对大数据分析合理性的进一步检验,以确认是否存在伪相关性。那么,在法律领域,如何建立大数据分析的解释机制以实现对伪相关风险的防范呢?

首先,对大数据分析的解释,应当将法律因果知识作为底层逻辑。如同法律总是承载着理论一样,虽然大数据分析力求客观性,但数据有多种可能的意义和用途,需要理论和解释才能得以应用。但大数据分析通常只讨论“是什么”,不关注“为什么”,针对数据本身的解释难以发现伪相关,因而需要借助其他学科的知识进行辅助解释。同时,由于大数据分析并不遵循严格的逻辑推理,为了进行有效的解释,需要运用法律因果知识对“什么是伪相关”进行定义。易言之,法律因果关系可以为相关性真伪的判定提供支持。因为,围绕常识的因果关系对大数据分析进行解释,在实践中更易于理解,其说服力也更强。例如前述某公民质疑其健康码被赋红码的案件中,西安市大数据资源管理局作出该公民当时的注册信息地为中风险地区的答复和解释之后,当事人未再进一步提出异议。

其次,针对大数据分析的解释,应当涵盖大数据分析的全过程。前文指出,大数据分析的各个环节都可能引发伪相关风险。因而,对大数据分析的合理解释,应当涵盖其全过程。例如,在前述獐子岛案中,中国证监会为证明其大数据证据的合理性,对大数据分析的各个重要环节(定位数据如何采集、产量计算参数如何形成等)均作了简要说明。需要注意的是,对大数据分析具体过程的解释,应当尽可能运用简洁易懂的语言,避免过于专业化、公式化的表达,避免“解释”适得其反。

最后,在法律论证过程中对大数据分析结果进一步验证。如果大数据分析结果存在伪相关,往往会与其他证据存在逻辑上的不一致。因此,需要在具体的法律论证中对大数据分析结果进行质证,唤醒大数据应用主体的反思理性。尤其是当大数据分析结果在法律程序中用作佐证时,应当特别关注大数据分析结果能否实现与其他证据的相互印证。

结 语

大数据突破了人类传统的思维方法,拓展了可利用知识的范围。在法律领域,这场变革尤为深刻,并引发了法律因果关系是一种什么样的因果关系的探讨。如前所述,大数据分析的相关性和法律上的因果关系在本质上是契合的。在法律领域,大数据分析可以发挥佐证、预警甚至直接据以作出决定的作用。当然,大数据给法律实践带来的不只是机会,大数据分析也会发生错误,会带来伪相关性风险。只有提高对伪相关性的识别和风险防范能力,才能保证大数据技术造福于社会。这在我国当下全力打造数字政府的热潮中,其重要性尤为突出。因为,无论是运用大数据强化经济监测预警,提升经济调节能力和市场监管能力,还是推动数字化治理模式创新,提升社会管理能力和公共服务能力,或者是建立大数据辅助决策机制,提升政府决策科学化水平,都需要建立在有效防范伪相关性风险的基础之上。

质言之,在法律领域,建立伪相关性风险防范体系,尚需要结合佐证、预警和直接作出决定的不同应用模式进行细化。例如,在大数据分析结果作为佐证时,应当如何制定证据法规则,从证据制度上对可能产生的伪相关性进行排除?在运用大数据分析结果直接作出决定的场景下,如何通过解释和说理机制反向促进大数据分析的可靠性,保证法律决定的正当性和可接受性?这些问题都有待进一步研究和深化。

来源国家检察官学院学报

标签: #大数据 相关性 #大数据相关性原理的例子及解释 #大数据的相关性和因果性 #大数据应用中数据之间的因果关系比关联关系更重要 #大数据分析强调因果关系而不是相关关系