江溯的个人空间

博客

大数据在刑事司法体系中的应用及其问题

  大数据是随着人类社会资讯总量的不断扩大,因资讯整合、处理的需求而诞生的数据处理及分析工具。在这个资讯爆炸、人类储存资讯量的增长速度已经远超越世界经济的增长速度的时代,大数据技术能够纳入尽可能多的数据信息并对其进行高效处理。当杂乱无章的数据透过大数据工具呈现出多维度的关联性和发展规律,便从信息上升为知识,而知识将以越来越智能地形式指导每个行业领域的重大决策。正如有学者所指出的那样,未来刑事执法和司法决策的发展趋势注定和大数据紧密相连。大数据对刑事司法体系的影响亦不容小觑。事实上,从目前世界各国的情况来看,从犯罪前的预测到犯罪后的量刑建议直至行刑运行时间的假释决定,我们都可以看到大数据的身影。但是,与此同时,大数据在刑事司法体系中的应用引起了一些极需解决的法律问题。本文将在描述大数据于刑事司法体系中的各种应用的基础上,分析其对传统法律原则的各种挑战,并尝试对这些挑战作出初步的回应。
 
  壹、刑事司法体系的思维转型
 
  在大数据背景之下,海量的数据不再仅仅呈现为静止状态,而是透过分析处理工具不断传递信息,我们会发现,欲使各类数据在这个全新的发展态势中释放有效信息,指导相关决策,发挥应有的效能,要求我们顺应大数据所倡导的理念,实现传统思维向大数据思维的深刻转型。随着大数据在刑事司法体系中的广泛应用,刑事司法体系的思维将发生重大转变。
 
  一、从局部到全面、从抽样到总体
 
  大数据时代的数据分析不再依靠对少量随机抽样数据的分析,而是以全体数据为分析对象,实现对于事物的全景式观察。随机抽样调查是信息处理能力受限的时代的产物,是小数据时代数据采集、储存和分析技术能力受限的情状之下的统计学发明。尽管统计学家们强调决定采样分析精确性的并非样本数据的数量而是采样的随机程度,然而,无论多么优质的随机采样方法都无法避免随机性特征所带来的固有弊端。一方面,人们很难保证采样过程的绝对随机性;另一方面,随机抽样必然意味着人们对大量非样本数据信息的直接放弃,而这些数据中不免包含可能的异常数值以及对于最终结论而言非常重要的微观细节。大数据时代的到来,使得人类所能采集、储存和分析的数据量已然大大增加,某一时间相关的「全数据」的分析已成为可能,随机抽样的固有弊端将被避免,因此人们将得到更完整的事实还原。
 
  例如,传统刑事司法体系受到小数据时代抽样思维之影响,从侦查、起诉到审判,司法机关倾向于透过单个证据以及离散式系列推理获得证据的证明力,因此必然产生小数据时代随机抽样方法的固有弊端,即大量司法机关未掌握的证据中极有可能存在足以推翻现有案件事实的异常资讯,而此类信息对于刑事审判结果来说至关重要。在大数据时代,当先进的数据处理技术能够保证司法机关获得与案件相关的「全数据」,案件事实将得到全景式的还原,其赋予司法机关从「大事实」中甄别出与案件相关的「小事实」的二次分析能力,而此时大事实中可能出现的微小细节和异常偏差将不会被司法机关所遗漏。由此,大数据背景下的刑事司法便实现从单一证据获得「抽样事实」到根据全数据从「大事实」中区别「小事实」的思维转型。
 
  二、从因果到相关、从回溯到预测
 
  大数据不关注因果关系而重视相关性,其核心在于预测。相关性的核心在于两个变量间所存在的数理关系,即一个变数将随着另一个变量变化而随之产生相应的变化。大数据技术所带来的强大的机器分析能力能够充分发挥相关性的预测作用:一方面,计算器能够透过数据模型的检测,辨认出某一抽象事物最好的具象代理变量,从而避免人工选择关联物所可能带有的主观偏见;另一方面,大数据模型能够更加高效地监控变量的动态变化趋势,根据相关性更准确地预测未来。人们一般认为,只有明确因果关系才能获得更为有效的信息,实现对于事物的深入认知,然而,若直接以因果关系为认识对象,即从一开始就决意对所有问题作精细化考虑,将意味着效率的低下,而决策者的主观判断也将贯穿问题思考的始终。与之相比,现有大数据技术已经能够对于数据间的相关性作出方便迅速而又准确客观的把握,以此为基础展开进一步的因果关系分析,既能节约成本,又能避免直觉的不合理性和偏差,从而形成一种更为便捷可靠的认知和预测结论。
 
  就刑事司法体系而言,当犯罪行为难以直接认定,嫌疑人的犯罪风险以及被告的再犯可能性无法透过观察直接得出结论,根据大数据的相关性原理,便可透过找寻合适的具象性关联物,推测侦查对象的状况、犯罪行为的具体表现,并对犯罪风险作出预测。大数据算法可以在看似无关的海量数据库中找出最合适的代理变数,高效地完成对所得代理变量的动态监测,并提供更加客观的预测和判断,指引警务部门和司法机关采取更加合理的侦查、审判和量刑方案。传统司法实践往往从案件发生后与之相关的线索中寻找犯罪证据,重点在于对犯罪进行回溯性的惩罚。然而,很多犯罪往往并非突发事件,犯罪的发生存在时间和空间上的规律。根据这些规律,我们便可以提前捕捉犯罪可能发生的信号,并采取相应的预防措施。
 
  贰、大数据在刑事司法中的应用
 
  从当今世界的情况来看,从侦查、起诉、审判到刑罚执行的整个刑事司法流程,大数据已经得到广泛的应用,以下是大数据在刑事司法各个阶段的应用状况。
 
  一、大数据警务
 
  与刑事司法体系的其他部门相比,大数据在中外警务和侦查活动中的应用是最为广泛和成熟的。例如,美国各地的执法部门和司法部门开始实施各类大数据警务计划。在中国大陆,以「智慧警务」为代表的新型警务模式,为警务部门解决各项棘手问题提供有效的途径。大数据警务实现了对传统物理侦查空间的突破,透过更专业的数据获取和分析手段。为改善警务工作提供有力的技术保障。
 
  1)大数据监控
 
  大数据监控能够实现对于城市的全方位监管,并通过实时的数据比对有效收集侦查情报。透过收集来自面部识别软件、摄像头、CCTV、社交媒体帖子、数字图像、车牌扫描仪、DMV记录、犯罪数据库、恐怖分子监控名单、授权信息库、DNA数据库和手机信号塔5等多方监控资讯,大数据算法能够将各类信息迅速联结成情报网络,协助警方识别定位嫌疑人及其同伙,以便警方实时立案、处理犯罪、作出相关决策。此外,警方还可透过分析软件扫描互联网和社交媒体上的电子数据,根据行为人在社交媒体使用的特定词汇或短语,判断目标对象犯罪的潜在危险。
 
  除了事后调取监控外,大数据监控能够实现侦查人员行动过程中的实时信息传递,提高侦查活动效率,保护工作人员人身安全,同时起到规范侦查人员执法的作用,避免暴力、威胁等非法取证行为的发生。传统侦查方式之下,若后方人员长时间监控闭路电视摄像机,难免可能因疲劳导致「疏忽性失明」的现象,从而无法对于侦查人员作出及时的指示和回复。而如今大数据警务侦查中所用的算法工具可以在智能手机、桌面计算机等任何现代可携式装置上运行并进行实时计算,相关数据几秒钟内便可立即被发送到现场侦查人员的手持设备中。由此,现场侦查人员能更迅速地回复相关指令,更准确地定位嫌疑人及同伙,同时及时获得周边环境资讯,在前来援助的后备人员赶到前避免犯罪危险,并在犯罪发生时迅速将信息传送回总部,确保及时战略调整和警力调配。
 
  2)预测型警务
 
  在侦查领域,大数据促使传统侦查活动透过事后收集的证据还原犯罪事实、打击犯罪活动的回溯型执法转向犯罪的主动预测和积极预防的预测型警务,即将实际现象转化为数据,并透过算法预测严重犯罪可能在某时间段、在某地区发生的概率,以犯罪未来发生的风险为导向,完成物理场域与网络场域之贯通,从而实现犯罪应对的主动化和长效化。根据经济学上著名的「二八定律」,犯罪活动同样具有不平衡性:大部分犯罪活动总是集中在少部分地区,少数犯罪人实施了绝大多数的犯罪行为。目前,预测型警务主要体现为以地区为中心的预测型警务和以行为人为中心的预测型警务。
 
  通常,犯罪活动并不是均匀地分布在一个城市的每个地区,而是集中发生在某些特定地区,这些地区产生的犯罪数量占犯罪总数的绝大部分。「以地区为中心的预测型警务」透过对各地区未来犯罪发生率的预测,定位犯罪热点地区,对其潜在分布规律进行统计分析并据此调整警务行动。在美国,从1994年纽约警方研发的COMPASTAT(computer statistics)开始,大数据犯罪热点分析在警务中得到充分广泛的运用。目前比较典型的有PredPol软件,该软件采用圣塔克拉拉大学莫勒教授提出的「地震预测算法」,其原理在于将重大犯罪事件(如团伙活动和盗窃)造成的影响与地震后的余震模拟,警方犯罪的地理位置、犯罪的具体时间以及犯罪类型输入PredPol系统,透过计算得出重大犯罪事件发生后的「犯罪余震」会在何地发生。
 
  在中国大陆,北京市怀柔公安局的「犯罪预测时空定位信息管理系统」(FZYC-1.0)已经能够对历史案件数据进行时空分析,呈现犯罪热点的分布和发展趋势且颇具成效。确定「犯罪热点地区」后,警方将在获得犯罪预测结果后对热点地区进行特别干预,例如增加监控强度和警力巡逻力量,部署专业人员定向打击某种犯罪,并提醒该地区居民加强防范意识,从而实现对警力资源的有效调控以及巡逻时间的有效分配,确保警力资源的配置符合犯罪打击和侦查战略的需求。
 
  「以行为人为中心的预测警务」的原理在于:城市中仅有少部分人具有犯罪倾向,若警方能够提前知道哪些人是高危犯罪人员,便可提前预防其可能实施的犯罪。警方透过收集个人各方面数据(如逮捕纪录、帮派成员状况、假释状况、社会联系、社交媒体通信纪录、就业状况、是否有吸毒和酗酒史、家庭稳定状况等),将其输入相应算法系统,便可得出个体对社会的可能威胁程度。之后,警务人员以及小区工作人员将对小区安全威胁等级较高的个体进行访查,告诉他们警方和社区已然知晓其对社会治安的潜在威胁,而且警方今后将高度关注他们的一言一行。与此同时,小区可以透过提供教育、治疗和多种形式的自我改善方法帮助这些个体降低自己的危险性。
 
  二、审前羁押与保释
 
  在作出审前羁押或保释决定之时,大数据可以说明法官更为精确地对被告人进行审前风险评估。审前风险评估工具将基于被告个人被捕纪录、酒精和药物使用状况、就业状况、首次被捕的年龄等变数生成风险评估结果,并根据风险结果对被告进行类别划分:若其社会风险较低,则在审判期间被保释的可能性越高;若被告对社会具有高风险,则将在审判期间将被羁押,以确保社会公众安全。在美国,用于保释决定的风险评估工具在联邦和各州均大受欢迎。2009年,美国司法部发布一份名为「联邦法院审判前风险评估:为扩大羁押替代手段之行使」的文件,该文件从统计学和技术意义上确定了相关预测因子,用来判断对被告采取保释的社会危险性程度及司法完整性影响。
 
  三、大数据量刑
 
  透过预测被告的再犯可能性,大数据还可以说明法官作出量刑决定。目前,风险再犯评估软件已经有能力相当准确地预测罪犯的再犯危险性。这种算法透过预测和概率计算,生成反映罪犯未来犯罪可能性的相关变量,并根据再犯可能性变量的数值对罪犯进行分类。在美国,COMPAS是一种被广泛应用于量刑决定的软件程序,其主要评估5个变量;犯罪史、个性特征、生活方式、家庭关系和社会隔离状态,此外还包括137种子项个体变量。COMPAS透过这些变量确定罪犯再犯的风险,透过编程掌握各种犯罪类型。有关研究表明,COMPAS的预测准确率约为65%。这种风险评估工具透过大数据演算法预测那些适合判处缓刑的低再犯风险罪犯,以便将他们置于小区矫正之中,还可以根据所有罪犯的再犯风险和社会危害性提供量刑建议,确保对罪犯罚当其罪,降低那些低再犯风险罪犯被长期监禁的可能性。
 
  四、假释决定与罪犯管理
 
  传统风险评估方法一般是由临床医生以及刑罚执行机构的工作人员根据个案标准进行经验判断,运用主观理解和本人所具有的专业知识作出风险预判,并为减刑、假释、康复计划、监禁类型等方面的决定提供建议。在监禁刑执行中,大数据可以说明监狱管理人员评估罪犯的风险级别,从而对不同等级的罪犯实施监控力度不同的管理,针对罪犯的不同需求制定相应的矫治方案,选择有利于其重返社会的矫正措施,从而提高矫正质量。定罪后风险评估系统(PCRA)就是美国联邦民政事务总署编制的一套风险精算工具,它根据大约10万名罪犯的数据开发出风险评估和需求评估标准,以此确定对罪犯采取的矫正措施。
 
  参、大数据刑事司法的疑问
 
  从大数据在刑事司法中的应用来看,其具有如下3个优势:第一,提高决策的准确性。相比传统刑事司法工作人员根据直觉和经验所做出的执法和司法决策,大数据算法工具通过完全结构化的流程和精算方法,减少人为决策过程中所固有的偏见和主观判断。第二,提高犯罪治理能力,维护公共安全。全方位监控信息和风险预测评估结果,将为改善警务工作提供有力的技术保障,实现更有效的犯罪打击和社会治理。第三,降低执法和司法成本。大数据风险预测工具能够让执法资源、司法资源更有针对性运用于高风险地区和高危人员的监控之上,降低犯罪防治以及羁押监禁成本。但是,尽管大数据在刑事司法中已得到普遍应用,其仍然面临着诸多质疑:一方面,在大数据刑事司法中,算法的公平性与合法性难以得到保障,另一方面,大数据是否真正能够发挥其促进准确决策、打击犯罪以及作为量刑依据的效用仍然存疑。
 
  一、公平性问题
 
  公平是刑事司法的重要价值追求,人们期待透过大数据算法的应用,有效地避免刑事司法过程中可能存在的主观偏见和固有歧视,实现更加客观中立的实体正义。然而,当前的大数据司法实践证明,试图透过大数据算法实现刑事司法的非歧视化仍旧存在诸多难题。在刑事司法活动中,我们一直希望避免司法工作人员在作出决定时带入主观偏见和刻板印象,而大数据算法确实能够提供一个无偏倚的选择架构,减少决策中的人为干预因素,实现决策的客观中立。然而,数据库和演算法皆为人为产物,无论是数据库的编译,还是预测算法和统计模型的创建,都取决于开发人员和管理人员的决策,因而不可避免地带有社会偏见和主观歧视,难以真正实现客观中立。
 
  一方面,自然语言本身包含着主观偏见。算法程序设计的固定化、机械化和语言使用的灵活性和个人主观色彩,意味着我们很难获得一个有效与公正的界定方法,所得出的结果极有可能产生严重偏颇。举例而言,在对网络活动中社交媒体帐户进行信息扫描时,需要对何为「危险信息」进行界定,据此确定扫描的标准,而对于弱势群体来讲的确为「危险资讯」的语词,对于一般人来说可能并没有任何警惕的必要。
 
  另一方面,大数据技术采用的分析工具,即算法程序本身同样会出现偏差。算法程序的运用离不开人为的主观选择和操作,不可避免地带有设计者和操控者的主观偏见。算法和分析模型的设计一般由相关技术人员和司法工作人员共同完成。从技术人员的角度来说,其对于司法程序和法律规则的不了解将导致他们过多地将技术性思维和自身的潜在价值需求编入到算法之中。从司法工作人员的角度看,对于采用何种算法和分析模型的建议来自于相关工作人员自身司法经验的积累,而其经验的局限性以及本身的选择性执法倾向及司法偏见会自然地影响其对于算法功能和分析模型的把握。
 
  在设计风险预测算法中的代表变量时,对于敏感语词的排除并不能根本消除数据中所隐含的歧视内容。即使我们将「种族」、「宗教」等变量从算法系统中排除,譬如收入水平、居住地、犯罪纪录等变量,其背后却仍可能体现出一定的种族或宗教内涵。在美国,犯罪纪录便是公认的最典型的种族代理变量,黑人与白人的历史监禁率在数据库纪录上存在的悬殊差距,往往导致风险评估算法根据先前犯罪纪录犯罪对黑人的犯罪风险以及黑人罪犯的再犯可能性作出与实际相比明显过高的预测。大数据应用于刑事司法体系,极有可能在计算机模型中不断复制和放大这些既有的人类普遍或者深层次的偏见,最终造成贫困人群以及种族间永久的歧视循环。
 
  与此同时,大数据算法程序的科学外观为此类隐藏的价值偏见披上合理正确的外衣,刑事司法机构使用的原始数据中所含固有的种族偏见将被算法保留并且放大,而司法工作人员对机器结果准确性的盲目信任,常常会使其放弃对所得出之结果的核对和质疑。当这些隐藏的价值偏见以科学方法的形式编入算法程序,将进一步加剧司法过程的不公平而却丝毫不为人所察觉。
 
  二、合法性问题
 
  1)程序正义
 
  程序正义是整个刑事司法体系公正性和权威性的可视化体现,具有保障犯罪嫌疑人或被告人基本人权的重要价值。无论是否实施危害社会利益的行为,犯罪嫌疑人或被告人的人格权均应受到平等的尊重和保护。为了实现程序正义,传统司法在限制公权力的行使、规范执法和司法审判流程等方面进行全面的法律规制。然而,随着大数据在刑事司法体系中的应用,传统刑事程序的人权保障手段正在丧失其原有的效能。
 
  1.无罪推定原则
 
  无罪推定原则是当前国际通行的刑事程序基本原则。各国国内法皆透过相关法规对侦查权、羁押权等权力的启动实行严格限制,以便保证犯罪嫌疑人或被告人的基本人权在其被确认有罪前不受司法机关的干预和限制。大数据刑事司法时代的到来使无罪推定原则受到挑战,两者的冲突主要体现在犯罪治理起点前移和犯罪嫌疑基础转变两个方面。
 
  首先是犯罪治理起点的前移。大数据预测型警务对于热点地区和危险人员的主动识别和提前介入导致犯罪干预起点的前移。大数据风险预测给予警方的是一种抽象而非具体的怀疑,犯罪热点警务透过分析大量数据库信息产生抽象怀疑,而根据法律要求,必须有特定证据证明犯罪的发生,仅仅凭借算法所得的概率是远远不够的。然而,大数据警务的应用实践意味着侦查机关在立案前便开始实施对海量个人信息和相关数据纪录进行全面查询、比对和挖掘,在没有具体犯罪行为发生的情况下根据「无中生有」的预测结果采取相应的犯罪预防措施,干预公民基本权利,从而导致根据无罪推定原则设置的侦查权启动门坎被逾越和架空。
 
  其次是犯罪嫌疑基础的转变。在刑事司法中,对于行为人犯罪嫌疑的确认应当取决于其可观察的现实行为,而非其身分、财富和地位。随着司法人员所掌握的相关背景信息越来越多,其关注的重点将逐渐被稀释,犯罪的嫌疑基础从具体可疑行为的现实观察转向风险评估结果。当大数据风险评估系统基于群体特征的统计数据来预测行为人个人的未来犯罪行为,意味着对于行为人犯罪嫌疑的判断并非基于其行为本身,而是基于其身分地位和所处的群体特征。忽视个人的独立性和可转变性,武断地用群体的统计数据决定个人的命运,既违反无罪推定原则,又可能对当事人产生难以弥补的心理伤害。许多人尤其是被刑事司法体系轻易贴上罪犯标签的未成年人,一旦接受这个标签对他们的设定,可能会从此走上犯罪道路。
 
  2.被告人的参与权、知情权和抗辩权
 
  刑事司法是否坚持程序公正及人权保护,其主要标志是警察、检察官和法官在刑事司法过程中是否给予犯罪嫌疑人、被告和罪犯作为人格主体的尊重,而非数字和概率的集合。为防止人格认同的缺失,必须保证当事人与警察、检察官或法官的良性互动,而所谓互动具体表现为当事人获得参与司法过程的权利,对于案件结论产生的整个过程享有知情的权利以及透过表达观点进行自我救济的能力。然而,大数据刑事司法的特点决定了这些权利的行使会受到诸多限制。
 
  一方面,检辩双方在数据获取能力上的差距在大数据刑事司法中被扩大,导致辩方极难收集无罪或罪轻数据。检察官除拥有司法机关内部的数据库外,还实现了各行业部门之间以及与商业机构之间的资讯共享,因而具备强大的数据获取能力。相比之下,辩方想要获取有利于被告人的数据却是难上加难。首先,大数据分析模型的设计本身倾向于对于犯罪风险和犯罪事实的挖掘,而不在于提供无罪或罪轻证据。其次,由于国家保密的需要,政府部门的数据库一般不会向社会人士开放。由于个人信息保护的需要,互联网商业数据平台亦难以为辩方提供数据支持,而控方却能以公权力身分与第三方平台进行数据共享的协商。
 
  另一方面,算法分析过程的理解困难以及检辩双方的信息分析能力的显著差异,加剧了检辩双方举证和说理能力的不平等,导致被告对于有罪证据的质证能力严重受限。无论是侦查阶段还是法庭审判阶段,执法人员和法官对于当事人具有告知并阐明合理推论的义务,以保证当事人的知情权。然而,大数据算法的问题在于,一般人往往很难理解算法机制,而算法程序员亦无法向公众全面准确地描述和解释算法过程。更有甚者,大数据算法背后的分析原理常常因商业秘密的保护需要而被拒绝公开,因此大数据的决策机制被比喻为黑箱效应(black box)。最终,无论是当事人还是裁判者都只能看到数据的输入和输出,却无从知晓算法的原理、运算过程及其所得出之结论的合理性。侦查人员无法出庭详细说明侦查结果生成的经过,技术人员仅知道算法原理却无法从法律角度进行阐明,当事人亦无法知晓数据采集和算法操作的具体过程,无法对其进行监督,因此其辩护权便失去保障。此外,从数据的采集、处理到数据分析结果的生成,数据量越大,需要耗费的人力、物力和财力就越多。即使政府向被告充分履行了特定数据库的开放义务,确保辩方能够充分接触与本案相关的所有数据,这样的做法仍然无法改变检辩双方的不平等性。因为即使获得同样的原始数据,辩方也无法在同样的准备时间内对大量的原始数据进行有效分析,并及时提出有针对性的抗辩。
 
  2)对公民权利的干预
 
  在大数据时代,当几乎所有的信息都能够被转化为数据,强大的数据采集和数据分析能力使得刑事司法中的「全数据」分析成为可能,犯罪治理方式就会实现重要转型。然而,大数据在提供有效控制犯罪之工具的同时,也可能对公民的个人隐私造成前所未有的威胁,其对于个人信息的干预程度远甚于传统侦查手段。司法机关的大数据平台和互联网第三方数据库汇集海量公民个人信息,一个「大数据监控社会」正在形成。包含大部分无罪公民在内的全体公民,不得不以输出和提供大量个人信息的方式,成为大数据网络全面监控的对象。此外,数据挖掘和分析更是能够通过对零散信息和中继数据进行集成的方式,透过个人的行为特点、爱好、社交活动、通讯纪录等信息完整地还原一个人的全貌。每个公民因此彻底暴露在大数据算法之下,一览无遗。
 
  在大数据背景之下,公民个人隐私呈现出受限甚至消亡的趋势,而传统的法律制度似乎已无法提供有力保障。一方面,大数据刑事司法对于数据需求量之大,使海量信息资源的共享成为不可阻挡的发展态势。与之相比,公民信息的保护需求却明显处于劣势。另一方面,隐私权本身的特征决定了对其保护的难度,个人信息权利抽象、无形且权属不清,侵害主体无法感知自己的越界行为,权利主体也无法明确表达自身之要求,最终导致权利救济的困难;最后,权利要求者和权利保护者已然分离,无论信息主体权利要求表达如何强烈,往往只能束手无策,因为权利保护的能力已经转移到国家和第三方网络平台手中。以牺牲大众的个人信息保护来实现社会治理和犯罪预防并非上策,而如何实现个人信息保护和社会秩序维护之间的平衡,将成为大数据时代下刑事司法面临的重大挑战。
 
  三、实效性问题
 
  如前所述,一般认为,大数据刑事司法的优势在于提高决策的准确性、提高犯罪治理能力,以及降低执法和司法成本。然而,如果我们仔细审视大数据在刑事司法中的实际效用,会发现其在算法决策的准确性、犯罪控制效果以及司法证明力上,似乎均无法达到我们的预期。
 
  1) 算法决策的准确性
 
  数据质量决定大数据算法的运行品质,而原始数据却往往容易出现错误和偏差,这种现象在计算器科学中被称为「垃圾进、垃圾出」。数据总量的巨大、数据结构的混乱以及数据产生过程的复杂性必然会带来数据来源的质量问题。关键词搜索、编码和地址输入等方式形成的数据将不可避免地带有字段本身或者拼写的错误;各类信息更新速度之快难以想象,此刻数据库中正确的数据在一段时间之后便可能无法正确反映实际情况。此外,数据采集还存在难以克服的「数字鸿沟」问题,不同地区、行业和人群的数据化发展水平的不平衡性将导致部分对象,例如偏远地区、农村地区的人群偏好和犯罪行为无法实现数据化,导致数据采集的偏差。如果数据库中的数据并非精确可靠,透过算法得出的风险评估结论和实体结果判断的准确性便难以保证。而一旦预测结果的准确性无法保证,则极有可能导致公民权利受到错误的干预。最近几年里,美国联邦最高法院就曾经依据警方数据库发出过4次错误的逮捕令;美国的「禁飞系统」也曾多次将无辜者判定为恐怖分子。在中国大陆,数据质量问题导致的错误逮捕现象近年来也频频发生,重名、身分证号的冒用等是导致无辜的公民被警方错误逮捕的重要原因。
 
  此外,与自然地理预测依据的自然规律,商业预测遵循的利益优先标准不同,犯罪和司法作为一种规范现象,其最终结论取决于不断变化且矛盾复杂的人类价值观,机器运算很难或者甚至不可能保证刑事司法目标的真正实现,因此无法指引甚至会妨碍决策者作出正确的司法决定。法律语言和算法语言之间存在着不可逾越的鸿沟,法律提炼了特定社会的普遍利益和价值观,然而精通数据分析、算法设计的专家们却无法将法律语言和相关价值追求以算法的方式加以表达。机器虽然擅长复杂的运算,却无法考虑公平的自由裁量和适当的司法仁慈。通常情况下,当看到轻微犯罪发生,巡逻的警员会倾向于发出警告而不是逮捕,而预测算法将导致他们越来越少地行使此类自由裁量权。对于审判和量刑来说,如果用计算机取代陪审团,尽管其可以收集到所有的证据并进行综合考虑,然而我们仍然无法接受其作出的决定,因为真正的司法决策需要法官综合各方面的价值考虑,妥当地进行自由裁量。
 
  2) 犯罪控制效果
 
  人们对于大数据警务一直存在这样的疑问:大面积摄像头的存在和预测警务是否真的能够对犯罪人起到威慑作用?警方又是否真的能够根据预测结果对警力资源作更好的分配,更有效地预防和打击犯罪?大数据实时监控在说明侦查人员更好地从事侦查工作,降低人身风险方面能起到多大的作用?
 
  关于预测型警务,美国学者Braga进行5次随机试验,以检验犯罪热点重点执法的效果,其研究结果表明,有执法重点的警察行动确实可以减少总体犯罪率。然而,根据相关实践经验,预测型警务在减少犯罪率上是存在一定局限性的,即其一般仅在侵财类犯罪的控制方面效果显著。由于大数据警务通常通过公共场所的视频监控、手机通联纪录等数据作为预测和决策参考,因此其对于公共场合作案或容易定位行为人和行为对象的侵财类犯罪具有明显的打击效果和更准确的犯罪预测结果。与此相比,大数据对于与人际关系相关的犯罪的预测效果则显得差强人意。而且,对于侵财类犯罪的不同类型,大数据的预测效果也各不相同。不仅如此,大数据警务在控制轻微犯罪方面虽然表现出预测的高准确度和打击的精确性,但其对于严重犯罪的控制效果却尚未得到证明。
 
  此外,实时的信息传输确实能够帮助侦查人员更好地完成侦查工作,降低人身风险。然而,在实际中,侦查人员对于即时信息的使用率并没有想象中的那么高。在实践中,大多数警员并不愿意在侦查期间实时查看相关应用程序,因为他们认为这些软件并未提供根据经验或日常简报已经获悉的信息之外的任何其他信息。暂且不论实时信息传输软件提供的信息在实践中是否有效,其在警务中的低使用率本身反映了工作人员对于大数据技术所带来的新型警务仍存有疑虑。大数据警务能否被真正接受,同样还是个未知数。
 
  3) 司法证明力
 
  根据大数据算法所作的风险评估产生的是犯罪发生的可能性而非确定性,即其衡量的是相关性而非因果关系。司法证明中能够赋予证据以证明力的相关性,与大数据的相关性不同,它是建立在小数据时代因果关系的认知基础之上的,是要求不断对假设进行检验的因果关系验证。一般认为,尽管大数据在警务中能够帮助警方更快地锁定犯罪嫌疑人,然而,在侦查终结之后,对于犯罪嫌疑人的风险评估以及根据大数据所得出的结论却并不能当然成为法定证据,而只能作为案件破获、逮捕过程以及立案的辅助性说明数据。这些大数据侦查中的「衍生证据」与案件事实的确相关,但其并非司法证明所要求的、建立在因果关系之上的「强相关性」,而是一种似有似无、可能有关的「弱相关性」,其并不属于能够在法庭上影响法官最终裁判的法定证据,至多仅能在证据链条基本形成后起到加强法官内心确信的作用。
 
  随着大数据在司法审判中的深入运用,如果法律赋予风险评估结果以证明能力,我们仍需要考虑一个非常重要的问题,即如何确定证明力的标准。确定被告人有再犯可能性因而不得对其判处缓刑,其再犯风险需要达到40%还是80%?此类标准的确定需要考虑特定社会的历史、文化、经济条件和监狱状况。监狱人员密度过大可能导致温和的缓刑和假释政策,因此会放宽风险评估的标准。从相关性向因果关系转变过程中的标准量化困难,将导致证明力标准的模糊化,极有可能导致证据制度稳定性的动摇。
 
  肆、如何规制大数据刑事司法
 
  为了应对大数据刑事司法的上述问题,充分发挥大数据在刑事司法中的效用,本文认为,应当从以下几个方面构建规制大数据刑事司法的制度。
 
  一、数据监管和算法规制
 
  大数据算法决策的质量取决于原始数据以及算法模型的质量,为了提高决策结果的准确性,尽可能避免潜在道德风险在算法系统中被继承和放大,司法机关有必要在大数据刑事司法中强化数据的监管和算法程序的规制,构建更加明确的行业标准。
 
  一方面,应当将对数据的规制贯彻到数据的采集、处理的每一具体流程,确保每个环节的严谨性和准确性。为此,在数据采集前,应当加强司法人员和技术人员的交流与配合,在对于司法任务、具体案情进行全面、详实的考察后,确定合理、明确的数据采集目标;在数据获取完毕后,首先需要对数据来源的合法性、数据的准确性和客观性进行进一步检验核查,并透过对数据的清洗消除不必要的变量,尤其是那些可能影响种族歧视或包含历史偏见的数据集,并考虑对特别类型的数据(如犯罪纪录)作适当的比例性调整,然后进行加权和去偏。
 
  另一方面,对于大数据算法分析工具,需要从技术和伦理两个层面对其进行规制,提高算法模型的准确性,尽可能避免算法歧视问题。在技术层面,在进行算法的选择和程序设计时,应当尽可能确保模型参数的中立性,必要时可以透过交叉适用多种算法,不断对于分析结果进行验证。与此同时,应当构建算法的伦理约束机制,包括多角度地检测演算法中可能存在的歧视性风险,避免在分类中遗漏重要的相关变量,同时在算法程式的设计过程中有针对性地嵌入法律规则以及人权保障、正当程序等价值观念。
 
  需要注意的是,当我们出于消除歧视的目的在算法中特意排除统计学意义上的某些重要因素,在某些情况下就会降低算法结论的准确性。某些影响因子(例如种族、性别、少数族裔地位等)与人口中的暴力行为有统计学意义上的相关性,然而我们往往不允许程序设计时将这些因素作为算法的自变量。由此可见,在进行数据库和算法的评估、选择时,需要进一步考虑公平性和准确性之间的选择和平衡。
 
  二、重构司法规则
 
  大数据刑事司法动摇了传统司法为实现程序正义和人权保障而设计的司法规则。一方面,风险预测工具的使用导致犯罪治理起点的前移,冲击着无罪推定原则。另一方面,算法工具使用产生的「黑箱效应」导致审判过程中检辩力量的严重不均,被告的知情权和参与权无法得到保障。由于大数据刑事司法中的被告人陷入如此不利的境地,因此我们有必要考虑重新设计司法规则,以便司法程序恢复其保障人权的功能。
 
  1) 被告人参与权的保障
 
  大数据刑事司法无法有效保障被告人参与权的主要原因在于:其一是数据获取能力的差异导致辩方很难获取无罪或罪轻数据;其二是算法分析过程的理解困难以及数据分析能力上的差距使得辩方难以对检方的有罪证据进行有力的质证。因此,为了保障被告人在刑事司法过程中的参与权,应当从两个方面修改司法规则。
 
  1.保障无罪和罪轻证据的获得
 
  在大数据刑事司法中,辩护律师的取证能力被大大削弱,出于国家秘密、商业机密、个人信息保护的需要,辩护律师很难从政府数据库和第三方网络数据平台获得有效数据。基于数据安全保护的考虑,要求政府部门和商业平台向辩护律师直接开放数据库并非现实的选择。从当下的情况看,强调侦查机关的中立性义务,建立辩方申请、侦查机关协助配合的无罪或罪轻证据收集和调取机制是更为合理的策略。具体而言,关于无罪或罪轻证据的调取机制,需要注意的是:第一,无罪或罪轻数据的有效汇总。根据「数据无罪」概念,大数据不仅能够提供有罪证据,也可以被用来证明被告行为的合法性。为此,有必要建立专门的无罪或罪轻数据评价指针和分析模型,透过建立相关数据的正面和负面清单,有效说明辩方在检方收集的海量数据中挖掘出有利于被告人的证据并进行明确的汇总归类。第二,无罪或罪轻数据的提取形式。侦查机关在汇总有利于被告人的证据后,需要透过合适的方式向辩方公开这些证据。为此,应当考虑设立专门的数据共享平台,以便辩方能够在该平台上拷贝、储存有关数据。第三,无罪或罪轻数据的提取启动条件。处于资讯安全保护的考虑,在辩方提取数据的程序上应当考虑设计必要的审查及许可制度。具体而言,需要辩护律师提出申请,司法机关在进行相关审查之后授权辩护律师,许可其透过数据共享平台进行取证。同时,可以透过数据的安全分级设立相应的许可标准,对可能严重危及国家秘密、商业机密和个人隐私的数据,设定更为严格的数据共享准入标准。
 
  2.提高辩方针对有罪证据的质证能力
 
  如前所述,辩方对于检方有罪证据的质证能力受到两方面的影响:一是在演算法透明度无法保证的情况下,算法过程的理解困难导致被告的知情权无法得到保障,从而无法进行针对性地抗辩和质证;二是辩方自身的数据分析能力有限,即使侦查机关提供全面数据,辩方也难以在与检方相同的时间内完成数据的筛选分析并制定质证方案。
 
  为了解决辩方对算法过程的理解难题,保障被告的知情权,有必要设置针对性的告知和解释程序,即要求司法工作人员和技术人员在检方举证时,向辩方详细阐明算法的运算经过,包括数据来源情况、算法基本原理、算法程序运行机制等内容。对于被告的告知和说明义务涉及被告知情权和算法的商业秘密保护之间的矛盾,应当明确算法透明原则所要求的透明性未必等于向全社会公开,而只是向利益相关方公开。相比直接推翻演算法透明性原则,更可行的选择是为之设计更加精细的具体规则。例如,相比与国家秘密有关的算法技术应用情境,在与商业秘密和个人隐私有关的场合,对于演算法不透明度的要求可以适度放宽,法律并非对私主体的权利提供绝对保护,商业利益和个人利益的保护同样存在例外。
 
  为了提高被告的质证能力,除了保障知情权外,还需要提高辩方对于数据处理和分析的能力,使其有能力在规定时间内对于数据的来源、算法分析经过进行审查并据此提出抗辩理由。为此,应当扩大原有「专家辅助人制度」的应用范围,将其提前到审前程序中,确保辩方在双方交换证据之时便能充分理解检方的指控依据及理由,强化辩方的质证能力,保证辩方可以借助技术专家的帮助,进行更为高效的数据分析。此外,还需要全程记录和保存从源头到最终环节的每一步对数据的分析、推理和其他所有相关操作,由此可以保障被告数据追溯的权利,即当辩方对检方证据材料取得过程的真实性、合法性提出质疑时,有办法获得事实认定材料和判断依据。
 
  2) 侦查活动的事后规制
 
  大数据侦查时代的到来并不意味着刑事司法活动作为最后手段原则的放弃。尽管大数据对于犯罪嫌疑人和公民的个人资讯提出更高的需求,其仍然不能打破刑事司法活动仅可作为社会治理之最后手段的原则。因此,必须对大数据刑事侦查进行法律规制,防止警方在没有具体犯罪嫌疑的情况下大规模地对个人信息进行挖掘和侵犯。然而,侦查活动的令状控制失灵将导致如搜查对象与犯罪事实的相关性等侦查行为启动的标准弱化降低,这也意味着传统警务中侦查权启动门坎条件的落空。其结果是,事前划定侦查范围和侦查对象变得更加困难。因此,在侦查活动的法律规制上,事后监督控制体现出比事前启动时点限制更高的规范价值。此外,应当打破侦查活动封闭的内部运行模式,透过加强外部监督,即法院和检察院的监督和审查,确保侦查权的正确行使。为此,有学者提出引入「司法预审制度」的可行性,即在证据材料正式提交法庭之前,对于侦查行为的合法性和证据的可采性进行司法审查,从而实现对于大数据侦查活动的外部监督和事后评价控制。不仅如此,除了对侦查活动的事后控制外,对于辩方知情权和参与权的保障也能够透过「司法预审制度」得以有效实现。一方面,司法机关能够在侦查起诉与审判的过渡阶段实现无罪或罪轻数据的分离、汇总,并由辩方完成证据提取;另一方面,司法预审的非公开性能够为算法分析过程的释明提供一个更加独立封闭的场所,从而有利于限制算法过程的公开范围,实现商业机密保护和算法透明及可解释原则的完美平衡。
 
  三、确立个人信息调取的基本原则
 
  为了实现大数据运用与个人信息保护之间的最佳平衡,司法机关基于社会治理需要而调取个人信息相关数据时,必须遵循以下几个基本原则:第一,目的正当性和相关性原则。司法机关对于公民个人资讯的采集必须基于案件调查取证的需要,即必须在司法职权范围内行使。为此,目标数据的范围必须与案件线索和相关证据的取得相关,而不能在无犯罪嫌疑的情况下,肆无忌惮地调取个人信息数据。同时,司法机关取得的数据只能用于犯罪的侦查、起诉和审判,而不能用于其他用途。第二,比例原则。借鉴行政法的基本思路,大数据刑事司法中的比例性原则强调严格控制数据的采集和分析,以便将大数据刑事司法对于公民个人信息保护和隐私权的侵害程度降至最低,尽可能地降低敏感信息使用频率。如果并非侦查和审判活动中所必需的数据,则必须进行加密或匿名化处理。第三,程序正当原则。在刑事司法活动中,大数据对于个人信息的采集必须遵循严格的法定程序,数据的采集和分析必须符合正当程序。在大数据背景下,过程控制更强调内部外部、事前事后的综合机制。第四,个人参与原则。「全数据」分析模式意味着司法机关无法在使用海量数据前一一征得数据主体的同意。如前所述,算法透明度的完全实现并不现实,然而这并不意味着可以剥夺权利主体的参与权利。公民作为数据主体应当被赋予一定限度的知悉权、抗辩权和自我救济权,具体包括要求国家机关对于被追诉的信息主体作目的及用途告知的知情权,对于错误的个人信息进行修改的更正权以及司法工作人员滥用权力导致个人隐私受到侵犯时的申诉权。
 
  四、算法决策作为辅助工具
 
  根据大数据应用的深入程度,算法在刑事司法中的作用可分为支持和取代两个阶段。在支持层面上,大数据为刑事司法提供辅助性信息及便利性支持;而在取代层面上,则需考虑能否由算法完全取代司法人员的地位。大数据算法的特点和局限性要求我们必须明确算法在刑事司法决策中的辅助地位,而不是取代司法决策者。第一,解释和运用法条的工作本身蕴含着价值判断的要求,这个任务必须由有着同理心的人类法官完成,而不能完全诉诸技术理性。第二,算法本身可能继承了人类既有的偏见,而这些偏见需要有修正的机会。司法工作人员对机器结果准确性的盲目信任,常常会使其放弃对算法结果的质疑,只有明确规定法官对最终的裁判结论具有自由裁量权,才能确保算法结果有核查与纠偏的机会。
 
  在明确大数据算法的功能和地位后,需要进一步考虑大数据算法具体应当如何发挥辅助作用。对于警方来说,大数据在辅助传统社会治理体系方面将发挥重要作用,然而这并不意味着大数据模式可以完全取代原有社会治理手段。在侦查领域,应当尽可能发挥实时监控系统对于侦查工作的危险警示和行为指导作用,提高侦查工作的质量效率,提高对警员的安全防护,同时可以根据风险评估系统的预测进行相应的警力资源调配和巡逻时间规划。然而,在作出是否逮捕的决定之时,对于行为人的风险评估只能作为犯罪侦查线索和相关辅助参考数据,最终的决定权仍然需要掌握在警员手中。而在法院审判的证据认定过程中,虽然司法机关可以透过大数据对相关性作出迅速而又准确客观的把握,并以此为基础展开深入的因果关系分析,但绝不能将证明标准降格为相关性的证成。为此,首先需要明确风险预测和行为人行为模式推导结果的证明地位。对于绝大多数刑事案件,基于大数据分析而推导出的行为人行为模式和犯罪风险,仅能作为补强材料而非定案根据。而在一些特殊案件(如性犯罪)中,算法推导出的行为模式与传统意义上的品格证据或习惯证据相似,可以考虑参考相关规则,将算法推导结果视为证据链条的一部分,赋予其一定的证明价值。最后,必须明确法官的裁量权和最终审查义务。法官的职责并不在于发现自然事实,而在于确定法律事实。在允许双方对风险评估演算法加以举证质证、攻防辩论后,必须由法官根据双方提交的证据和意见进行最后的裁决。
 
  伍、结论
 
  由于大数据的兴起,刑事司法体系正在经历从局部数据统计到「全数据」分析,由回溯性思维向预测性思维的重大转变。从世界各国的情况来看,大数据在刑事司法体系中已经得到普遍应用,对于提高刑事司法决策的准确性、提高犯罪治理能力,以及降低执法和司法成本作出重要贡献。但是,值得注意的是,大数据在演算法决策的准确性、犯罪控制效果以及司法证明力方面,仍然存在诸多疑问,对传统法律体系构成严重的挑战。为此,应当强化数据监管和算法管制、重构司法规则、确立个人信息调取的基本原则,并确立算法决策的辅助性地位。大数据既为我们控制犯罪提供先进的工具,也可能成为戕害人类的武器。为了趋利避害、扬长避短,我们需要深入思考新科技背景之下安全与自由的平衡之道。

阅读(4 评论(0
我要评论
欢迎您

最新评论

北大法律信息网
www.chinalawinfo.com
法律动态
网站简介
合作意向
网站地图
资源导航
版权声明
北大法宝
www.pkulaw.cn
法宝动态
法宝优势
经典客户
免费试用
产品服务
专业定制
购买指南
邮件订阅
法律会刊
北大英华
www.pkulaw.com
英华简介
主要业务
产品列表
英华网站
联系我们
用户反馈
返回顶部
二维码