人工智能全面进军法律界?先做好这三件事!
2018/2/11 2:14:28 点击率[95] 评论[0]
【法宝引证码】
    【学科类别】人工智能
    【出处】微信公众号:法影斑斓
    【写作时间】2017年
    【中文关键字】人工智能;法律界;大数据
    【全文】

      跟很多法律人聊过人工智能,与人工智能的热潮正好相反,大家对此多持保留态度。
     
      有人说,研发人工智能是科技公司的事,跟法律人有什么关系?人工智能号称深度学习,为何现在看起来并没有那么“智能”?还有人说,我们为什么要发展人工智能?等着来替代我们吗?
     
      这可能是因为我们更多地关注技术的问题,而比较少谈法律人拥抱人工智能的现实需求和内在逻辑。我们不妨从问题出发来谈这个话题。人工智能有何特别?到底有多厉害?开发路径难不难?法律人推进人工智能到底有什么内在需求?
     
      1.为什么要发展人工智能
     
      因为人工智能的发展提供了全新的解决方案。人工智能与原先大量使用的“专家系统”,最重要的差别是“适应性”(其实专家系统也属于人工智能范畴,这个对比应以专家系统与计算智能最为准确,但达成理解起见,还是以专家系统与人工智能来做区分)。
     
      一位产品经理讲过这样一个故事:
     
      开发银行问答系统,一个公司用「专家系统」,一个公司用「人工智能」,两家竞争。开始的时候专家系统表现更好,为什么?假如出了一个新的问题,加一个规则,写几行代码,直接给出答案。专家系统改起来很快。但是当数据量大到一定程度以后,人工智能系统开始超越。
     
      因为人工智能可以不“依赖规则”。就是说,不需要人告诉它怎么做,可以基于神经网络、深度学习,自动寻找规律,得出结论。面对海量数据,人工智能比较优势明显,还能够在学习过程中不断迭代升级。
     
      专家系统简单理解,就是一个写死的程序。但现实中,专家经验其实在很多时候很难用准确的规则直接写出来。各条经验即使写成明确的规则,也常常不能保持逻辑的自洽性,互相之间打架,假如出现很多新问题,就很难适应。(当然,也并不是说专家系统就此淘汰了,事实的情况是和人工智能综合应用,但两者原理不同。)
     
      2.人工智能的真实当下
     
      那么有了一个新的解决方案,似乎给我们带来了新的希望。那你可能要问了,这个“人工智能”现在有多厉害?能有多智能?
     
      就目前而言,我们还不能高估人工智能。《三体》的作者刘慈欣说,我们处在AI的史前时代。连法律科技公司自己都站出来说,法律人工智能应该降降温了!因为谈前景的太多,以至于把合理的想象和预期变成了当下的真实。
     
      目前的法律人工智能,如果从一个法律人的角度来看,机器还没那么“聪明”,甚至看起来有点“傻”。
     
      比如最为重要的两项技术应用,一是OCR图像识别,能够把以纸质文本存在的起诉书、证据材料识别成电子文本。这已经是相当成熟的人工智能技术了,但是假如在纸质文件上盖个章,它的识别就可能发生困难,目前彩色的印章可以识别,黑白复印件则不行。如果上面有个表格,那基本识别不出来。如果是手写体,机器确实已经能够看懂书写规范的高考作文,但如果你学的是王羲之韵味深长的草书,它还无法欣赏。
     
      二是语音识别。语言自动转换成文字,目前已经被大量应用,但是千万不要以为书记员马上就要被替代了。如果庭审时,一方当事人不时要说几句上海方言,机器马上懵。
     
      倘若你还想让机器准确理解什么是债权,什么是物权,就别多想了。所以,千万别以为有了神经网络、深度学习,机器就将无所不能,甚至马上要替代人类。
     
      但同时,也不能因为人工智能目前的发展阶段如此,就认为不过是又一个“法律自动售货机”那样的镜花水月。
     
      3.人工智能的可能未来
     
      图像识别就像让机器长了眼睛,而语音识别则让机器有了耳朵。眼睛和耳朵有什么稀奇?如果以生物进化的视角来看,我们很可能进入了机器的“寒武纪”。
     
      达尔文的进化论有个很难解释的bug叫做“寒武纪生物大爆炸”,为什么生物一代一代缓慢进化,到了寒武纪突然爆发了?有一派理论认为,因为生物“看见”了。5.4亿年前,视力可能是寒武纪大爆炸背后的驱动力,有了眼睛之后,生物开始追逐捕食其他生物,动物突然变得积极主动。更重要的是,眼睛作为传感器,能够收集大量的数据,而随着数据量的增加,大脑的学习周期就会加快,进一步推动之后的生物进化。数亿年后,人类作为最智能的视觉动物,人脑中有一半神经网络致力于视觉处理。孙正义等人都提出此类理念,认为视觉将成为“AI的杀手级应用”。
     
      那么,科技的进化是否可能如生物的寒武纪大爆炸?K·K认为,科技本身是一个物种,和微生物、植物、动物一样。而且具有自动生长的内在机制,比如有了电,就一定会发明电灯,即使爱迪生没做出来,也一定有其他人做出来。
     
      确实如此,1674年左右,牛顿和莱布尼茨各自独立地创建了微积分。在全世界有6位不同的发明人发明了温度计。有5个人在很短时间里,反复发明了电报。更有说服力的例子是,二战期间,全球6个不同科学组织,在彼此信息完全隔绝的情况下,独立地研究出核武器时要用到的——四因子公式。K·K称之为必然性涌现。
     
      当机器有了眼睛和耳朵,也就是有了“感知”,必然会向着“认知”的方向进发。这也就是人工智能界所说的,从感知智能向认知智能发展的大趋势。
     
      4.人工智能的实现路径
     
      到此,你可能说,好吧,我承认人工智能有个成长过程,现在看起来有点傻,将来会变得聪明。那既然有这个成长过程,我们能不能等到他长大成熟了再来应用呢?何必现在就入场?
     
      这涉及到人工智能的实现路径问题。我们能不能等到通用人工智能实现,人工智能变得全知全能以后再来用于法律行业?
     
      这个问题当然存在一定争议,特别是AlphaGo Zero出现以后,不少参与开发法律人工智能的法官说,我们的路是不是走错了?阿尔法狗元用“左右互搏”的方法,不用任何人类产生的数据,自我学习,打败了曾经击败李世石,下哭柯洁的阿尔法狗。那么是否可能出现一种可以适用任何领域的人工智能呢?
     
      个人比较倾向K·K的观点,不存在一个通用的人工智能。K·K说,“我们总是希望创造一个像瑞士军刀那样的,有很多功能的东西,但是这样的智能可能在许多方面都不错,但不可能所有方面都做到极致,不可能优化每一个维度。”因为物理是有极限的,温度、空间、时间、速度都有极限,宇宙中还没有哪种物理维度是无限的。工程学的原理告诉我们,一个产品不可能在任何指标上达到最佳,必须妥协。比如手机,如果以苹果为标杆的话,那么其他所有品牌的手机都可能在一个或者多个性能数据上超过苹果,苹果为何不能让每个数据都做到极致呢?因为不可能,我们的世界是有极限的,只能在极限以下寻找一个最优解。苹果之所以受欢迎,是因为它可能是其中做的最好的。其实这个问题有点像当年的“永动机”问题。当我们清楚了原理,也就不会在这个方向上纠结。
     
      如果等待通用人工智能的道路走不通,目前我们所知的路径就是沿着“算法、专家、数据”相结合的模式演进。
     
      两个模式最大的区别在于,是否需要人类的数据来训练。也就是说,机器能不能脱离了人类老师完全自学成才,如果不能,就需要人类“教”。但“教”机器成本巨大,可以说是“坑深路远”。首先,数据需要经过标注,机器才能看懂,机器还不能一次性看懂,出来结果你需要反馈对了还是错了?提供给机器继续学习,这就是所谓的监督学习。
     
      人类老师得一直陪着从小学到中学到大学,才能让机器自动学习的能力不断增强。其次,需要让行业顶尖专家教授核心内动,以免机器跟“臭棋篓子”下棋,成了“臭棋篓子”。最后,在目前的发展过程中,没有发现一个大一统的底层方法可以把所有的法律领域打通,这就意味着刑事近470个罪名,民事二级案由就有467个,得一个一个啃,一个一个突破。人工智能开发,不可能竞一日之功,可能是个漫长的过程。这需要大量的人才、资金、技术投入。
     
      5.人工智能带来了什么
     
      那么,现在你可能要说,这条路如此艰难,何必还要匆匆赶路?实现人工智能有什么好处?
     
      没错,人工智能从来只是手段,而不是目的。目的是什么?要看实现人工智能是否跟行业发展的内在需求相一致。不妨看看人工智能发展过程中的“副产品”。
     
      (1)倒逼打通数据孤岛,实现数据管理
     
      人工智能天然带着产品思维、用户导向的互联网基因。人工智能为什么在这个时代突然爆发?主要有三大要素推动,一是算法,二是计算能力,三是大数据的发展。这三个要素都非常重要,但对于专门行业而言,算法、算力属于通用资源,最重要的是数据。
     
      人工智能的出现与大数据相伴而生,有了大数据才能进行深度学习。大数据的特点是要全、要真,使用统计数据是肯定不行的。这就意味着这件事要做成,要把数据收集起来。要让数据积累起来,还必须让人用起来,通过生产数据、收集数据、开发数据、利用数据,形成循环。要让人们深度应用,那就必须用户思维、产品导向。只有大数据才能喂养“人工智能”慢慢成长。这很可能带来法律信息化系统的艰难转型。如果我们还是秉持管理系统的设计,肯定做不出人工智能系统。
     
      那么,如果要实现大数据,一是必须打通数据孤岛。比如民商事案件的智能系统,如果从法院端入手,数据从哪里来?不都在法院。比如诉状,如果诉状写得乱七八糟,提交的证据五花八门,这个数据就可能整理成本太大,以至于没有办法抽取出有用的信息。诉状很大一部分是律师这一端生产的。如果这个系统由律师端开发,那么可能需要有判决书的数据,不然不能为案件提供可靠的参考,这个数据就在法院端。又比如刑事人工智能系统,那么必然是公安、检察院、法院之间打通数据。不然,这个系统就成了无米之炊。
     
      二是促进内部数据管理。不论是政法机关、律所还是其他行业部门一般都分批开发各种系统,比如OA系统、流程系统、人力资源管理系统,但是大都各自为政。大家也知道整合一下会更好,但常常很难有动力去做这件事,我们到了移动互联网时代,但有些系统还处在web1.0时代,连检索都可能没有。但开发人工智能就可能需要建设“数据中心”把各类数据都统管起来。开发人工智能就是个倒逼机制,必须把我们之前落下的课补回来,不然难以往前走。不少产品经理说,开发人工智能的过程就是填坑的过程。但填这个坑对法律行业是好事。
     
      三是促进数据收集完备。比如电子卷宗随案生成。这在以往,改变工作流程中的习惯有很大的困难,但是不这么做,难以实现数据的完备性与实时化。
     
      所以,不论从哪一端切入,不论什么形式,最后都需要做到数据管理,这个趋势将把整个法律行业的数据逐渐整合起来。
     
      (2)倒逼专业化、职业化发展
     
      人都想不明白的问题,就不要为难机器了。如何让机器搞得明白,降低开发成本?一是标准化问题,比如在民商事领域也许标准化程度最高的道交案件中,假如我们统计一下“后续治疗费”,说法至少有10种之多,包括“二次治疗费、后续治疗费、后期医疗费、取出内固定物费用……”。那怎么办?
     
      两种办法,一种你让机器变得越来越聪明,能够识别人类各种天马行空,甚至连“一别两宽,各生欢喜”也能懂;另一种是规范化,提高标准化程度,将来这些说法统统归为“后续治疗费”。这显然是成本更低的一种方式。这样就形成了一个“倒逼”机制,逼着人做事越来越标准。
     
      二是规则统一问题,从法院来说,假如碰上这样一类案件,一个中院片区和另一个中院片区意见存在不一致,这就成了一个绕不过去的坎,如果不统一,这个不标准的数据就会给开发带来问题。同样也是两个办法,统一意见,不论是出解释也好,研讨论证也好,达成一致。或者让机器去适应各种不同情形,这显然成本更大。现实中可能两种情况都会存在。但会倒逼法律适用统一的发展。
     
      第三,专家经验的积淀。法律行业之所以被认为是一个传统行业,其中一个重要原因是知识管理问题。无论是在司法机关还是在律所,往往一位带头人离去,同时也宣告了一个业务“巅峰”的结束。所以我们想了很多办法推动职业化、专业化,无论是树立知识管理的理念,做好文档管理,运用印象笔记、思维导图等软件,还是为此开发OA系统,建立完善的培训体系,都是为了解决这个事。
     
      但人工智能将专家经验嵌入到应用系统当中,就好像刚入行的新医生,由全国三甲医院顶尖专家经验集合成的会诊团来给你支招,这业务水平是不是比从0到1的逐步摸索和积累来得高呢?那么病人是不是也能在一个非三甲医院获得三甲平均水准的医疗方案呢?这才是我们推进法律人工智能的目的——稳定行业水准。专业运动员与业余的差别并不在于业余选手打不出好球,而在于业余选手不能像高手一样稳定地发挥,不出错。专业就体现在这里。
     
      所以,实现人工智能这件事法律人可以不感兴趣,但在实现人工智能过程中,有可能完成法律行业看了很多年,想了很多年,讲了很多年但一直没有完成的事,这是我们感兴趣的。也正是在这个维度上,我们可以说发展人工智能,有意义,值得做,再苦再难,坑深路远,也要试一试,推一推,拱一拱。

    【作者简介】
    李则立,上海市高级人民法院。

    本网站文章仅代表作者个人观点,不代表本网站的观点与看法。
    转载请注明出自北大法律信息网
0
北大法律信息网
www.chinalawinfo.com
法律动态
网站简介
合作意向
网站地图
资源导航
版权声明
北大法宝
www.pkulaw.cn
法宝动态
法宝优势
经典客户
免费试用
产品服务
专业定制
购买指南
邮件订阅
法律会刊
北大英华
corp.chinalawinfo.com
英华简介
主要业务
产品列表
英华网站
诚聘英才
联系我们
用户反馈
返回顶部
二维码