用户画像、个性化推荐与个人信息保护
2019/12/9 17:19:16  点击率[20]  评论[0]
【法宝引证码】
    【学科类别】民法分则
    【出处】微信公号号:法学学术前沿
    【写作时间】2019年
    【中文关键字】用户画像;个性化推荐;个人信息保护
    【全文】

      随着网络技术与信息技术的高速发展,用户画像与个性化推荐已经越来越普遍。在商业领域,越来越多的企业开始收集个人的浏览记录、购买记录、交易方式等信息,依据这些信息来分析用户行为,对网络用户进行用户画像和精准营销。如果说早期的互联网是“人找信息”,那么随着用户画像与个性化推荐的普遍化,如今的互联网开始越来越多地迈向“信息找人”的阶段。
     
      网络经济中普遍存在的用户画像与个性化推荐促进了互联网经济的发展,在很多情形下,用户画像与个性化推荐使得商家可以更为精准地投放广告,避免了无效广告;同时,用户画像与个性化推荐也使得消费者可以获取更为有效的商品信息,可以更为快捷有效地获取自己希望购买产品的信息。例如,电商网站常常根据消费者的消费记录推荐相关产品,很多消费者常常能在这些推荐的产品中找到自己希望购买的商品。
     
      网络经济的用户画像与个性化推荐也对用户相关权益的保护提出了挑战。很多专家指出,个人消费行为信息属于个人信息的范畴,在未经个体明确同意与授权的情形下,对于此类个人信息的收集与利用侵犯了用户的相关隐私权益。早在2013年,一位百度用户就已经据此提起诉讼。在使用 “减肥”“丰胸”等关键词在百度网站上进行搜索后,当她在登陆其他网站时,这些网站都出现了与“减肥”“丰胸”等相关的广告。这位用户因此向法院提起诉讼,认为百度公司未经其同意,收集和保存自己的搜索记录并根据这些记录与信息投放广告,对她的生活造成了困扰。
     
      在国外,对于用户画像与个性化推荐也存在争议。在美国,对于网络用户的消费行为信息是否属于个人信息,一直存在不同的观点。在有的企业看来,用户的消费习惯信息不属于个人信息,因为不能根据此类信息来识别特定的个体。而且,企业在收集了此类信息后,一般会将此类信息进行匿名化处理。但在其他人看来,此类信息属于个人信息,因为此类信息本身就是对个人的识别,而且结合其他信息,此类信息甚至可以经常定位到具体的个体。
     
      欧洲对于用户画像的法律定位与规制更为明确。欧洲对于个人信息的界定范围较为宽泛,而且相关法律直接将用户画像纳入了其法律规制的范围,例如2018年生效的《一般数据保护条例》(本文简称《条例》)第4条第(4)款规定,“为了评估自然人的某些条件而对个人数据进行的任何自动化处理,特别是为了评估自然人的工作表现、经济状况、健康、个人偏好、兴趣、可靠性、行为方式、位置或行踪而进行的处理”都属于用户画像,都受《条例》的管辖。 但如何解释《条例》中的相关条款,以及如何从原理层面分析这些条款,仍然有待进一步讨论。
     
      本文对于用户画像和个性化推荐中的个人信息保护问题进行了较为全面的探讨。通过对技术的介绍与对相关理论问题的探讨,本文指出,用户画像与个性化推荐中的用户匿名行为信息应当纳入个人信息保护法的规制范畴,应当赋予消费者充分的知情权和拒绝权。但另一方面,应当将此类信息视为一种特殊种类的个人信息,应当根据此类信息可能带来的风险要求企业承担相应的治理责任,避免施加过多的企业责任和赋予消费者过多类型的信息权利。过多的企业责任与过多的信息权利不但可能给企业造成不合理的负担,而且可能不利于个人信息保护,也不利于企业为用户提供更好的服务。
     
      本文首先在第一部分介绍当前信息技术条件下网站如何收集与追踪个人信息。在第二部分,本文分析了全球主要经济体,即中国、美国与欧洲,如何从法律上看待用户画像与个性化推荐。第三部分介绍了对用户画像与个性化推荐进行规制的支持意见与反对意见,并对支持意见与反对意见进行了思辨。第四部分借鉴两位信息隐私法权威学者的理论,从原理层面反思了个人信息概念,指出应当将匿名化用户信息作为单独的一类信息加以规制。第五部分在前面几部分分析的基础上,对信息收集、数据融合与用户画像、信息利用与个性化推荐的法律规制框架进行反思。第六部分对全文进行了总结。
     
      一  网站如何收集与利用信息:技术问题与法律挑战
     
      在展开对用户画像与个性化推荐的法律分析之前,有必要首先对网站如何收集个人信息与个人信息的技术进行简单介绍。在企业对个人信息的收集中,通过网站来收集个人信息是极为重要的一种途径。了解网站收集个人信息的途径,这将为思考用户画像、个性化推荐与个人信息保护问题打好基础,保证相关理论探讨更具有现实关切。
     
      (一)网站收集个人信息的技术
     
      就网站获取用户信息的方式来说,其首选是要求用户进行注册,通过用户的注册、登录来创建用户数据库,标记所有的用户。通过此种方式,网站可以很好地对用户的个人信息进行管理,例如网站常常会生成一个含有唯一标示符的信息,并通过这个信息将用户的所有行为关联起来。例如用户浏览的网站、点击的行为、购买的商品,网站可以对这些信息进行收集与追踪,并对个体进行用户画像与精准营销。
     
      但一般来说,以用户名的方式来收集用户的信息比较适用于需要登录才能实现完整服务的网站或软件(例如微信、淘宝、QQ)。对于很多没有形成完整闭环的网站或软件(例如搜索引擎类网站和新闻类网站),用户常常不会主动注册和登陆,也因此网站就很难使用用户登陆的方式对个体进行信息的收集与追踪。此外,即使一些形成闭环的网站,用户也可能仅仅行使浏览功能,此时网站也无法经由用户登陆而收集信息。
     
      但网络用户常常会有这样的体验,即使我们没有注册或登陆某个网站,网站也常常可以对我们实现个性化推荐或营销。当我们在某个电商网站上搜索和浏览了某些产品后,在“你可能感兴趣”的一栏中就会出现和我们之前搜索与浏览记录相关的产品。此类个性化推荐和营销之所以可能,是因为网站具备了很多技术手段,可以实现对非注册用户的追踪与管理。综合而言,比较常用的技术包括了如下几种:
     
      1. HTTP Cookie
     
      网站跟踪和收集用户信息的最常用方式是HTTP Cookie或Cookie技术。Cookie技术之所以被广泛应用,最主要的原因是因为Cookie技术可以帮助服务器知道用户上一次的操作是什么,从而帮助交互式Web应用程序的功能实现。例如当用户在某个页面上将购买的商品放入了购物车,然后点击结算页面跳入到下一个网页,此时如果没有Cookie技术,服务器就不知道用户放入购物车的物品是什么。但在Cookie技术的帮助下,这种难题就解决了。在用户开启Cookie的情况下,网站可以在用户计算机上设置一个跟踪的Cookie,以某个特定的标记来识别某台计算机(例如1234abcd),这样,当用户进入到结算页面,网站也可以知道用户此前放入购物车的商品是什么。
     
      由于Cookie技术可以在用户计算机上设置文件,维持用户与网站的对话,网站也因此获得了收集与追踪用户行为信息的机会。只要用户开启Cookie,并且没有删除浏览器中保持的Cookie ID,网站就可以持续性地访问Cookie并获取保存在Cookie中的信息。当然,一旦用户关闭Cookie,网站就无法通过Cookie技术来为用户提供服务/收集Cookie信息;当用户删除浏览器中的Cookie ID时,网站也无法访问之前Cookie中所保持的信息。
     
      当然,这里必须注意的是,对于Cookie的利用常常并不来自于同一个网站。 从用户的角度来说,用户往往会误以为网站都是单一构成的,某个网站都是由同一家网络公司所提供的。但事实上,网站常常由不同的网络公司提供。例如一家新闻类的网站,其天气预报的内容可能是由某天气预报网站提供的,其广告可能是由某家网络广告商提供的。在收集与追踪用户的信息时,不仅仅是用户访问的网站,而且包括天气预报网站与网络广告商都可能访问用户电脑中的Cookie文件,收集Cookie中的信息,并对用户进行画像。
     
      2. Flash Cookie
     
      HTTP Cookie或普通Cookie技术可以实现网站对登录ID、使用偏好、习惯的收集,但一旦用户行使网页浏览器中的“删除历史记录”时,网站就无法持续地追踪用户。此外,对于网络用户没有访问过的网站,此类网站也不可能通过HTTP Cookie技术收集用户信息。要在以上情形中仍然实现对用户信息的收集与追踪,需要借用Flash Cookie技术。
     
      所谓“Flash Cookie”,技术上又可以称为“本地共享对象”,是由Adobe Flash开发人员使用用户的计算机上存储数据的文件。 开发者可以使用Flash Cookie存储用户的各种偏好信息。相比起普通Cookie技术,Flash Cookie技术的存储空间更大, 储存时间更长, 储存位置对于普通人更难发现。
     
      Flash Cookie的这些技术特征使得其在追踪与收集用户信息方面更具有优势。在普通HTTP Cookie技术中,用户可以通过删除他们的Cookie来避免网站跟踪其信息,一旦用户删除其Cookie,服务器就将假定下一次的访问用户为新用户,例如会将用户标示从1234abcd更换为4321dcba。但在使用Flash Cookie的情形下,即使用户删除了其历史浏览记录,或者即使用户改用了不同的浏览器来访问网站,被访问的网站将仍然可以追踪和收集个人信息。
     
      3. Ever Cookie
     
      Ever Cookie技术是另一种追踪与收集用户信息的技术。正如其名字所表明的,这种技术可以更多地对Cookie进行储存,而且相比起普通HTTP Cookie与Flash Cookie,这种技术将使得网络用户更难删除其Cookie,可以使网站能够更准确地辨识用户,对用户进行更为持续、稳定与准确的画像。
     
      从技术手段来看,Ever Cookie的手段主要在于尽可能地在用户电脑里进行备份,利用不同的储存机制来不断自我复制Cookie,以及在副本丢失或到期后确保Cookie可以重新复活。 这样,即使用户删除了其历史浏览记录,甚至删除了储存在电脑某个文件夹中的Cookie文件,网站也仍然可以在其他文件里发现Cookie的备份。通过Ever Cookie技术,可以让网站所标示的个人Cookie ID具有更高的稳定性和可识别性,排除算法本身随机性的影响。
     
      基于Ever Cookie的此种特征,Ever Cookie也被有的专家称为“僵尸Cookie”。 因为一旦使用Ever Cookie技术来追踪和收集用户的信息,用户就很难通过对Cookie的删除来防止自己的信息被收集。
     
      4. Fingerprinting
     
      最后一类收集与追踪用户信息的方法是通过交叉比对关键信息验证来识别计算机。就像在现实社会中人们可以通过指纹来识别特殊的个体一样,服务器在传输过程中可以利用传输的关键信息来识别某台计算机。 例如某个网站可以识别用户使用的浏览器类型,用户使用的字体,以及网站在计算机上安装的插件。这些信息可能都不是唯一的,但是结合起来,它们可能可以识别唯一的个体。
     
      与以上几种Cookie技术不同的是,Fingerprinting技术不直接在用户的电脑上储存文件。也因此,用户往往更难发现基于Fingerprinting技术的信息收集与追踪,也更能采取措施来避免此类信息收集与追踪。为了避免Fingerprinting技术对相关信息的收集与追踪,人们必须禁用网站的关键功能,例如JavaScript和Adobe的Flash。
     
      (二)法律争议
     
      在介绍了网站收集用户匿名信息的技术后,一个首要的问题是,网站对于个人信息的各种收集与追踪技术合法吗,需要受到法律的规制吗?无疑,一般认为HTTP Cookie技术是合法的,是实现用户与网站对话的必要技术,但诸如Flash Cookie、Ever Cookie与Fingerprinting这类收集用户匿名信息的技术呢?是否应当对其进行禁用?或者在允许其使用的情形下,是否应当对其进行一定程度的法律规制?
     
      除了收集阶段,此类信息的汇聚也存在法律争议。当网站通过各种技术手段收集到此类信息后,它们就会在数据管理平台对此类信息进行同源化处理和分析,通过海量的数据实现信息的汇合,最终形成关联到具体用户或识别码的用户画像。 对于此类数据融合,法律是否应当完全予以允许,还是应当对其施加以一定的规制?
     
      最后,信息利用阶段也具有法律争议。当网站利用消费者匿名信息和用户画像进行个性化推荐,此类个性化推荐是否应当受到法律的某种规制?在这一过程中,需要注意的是,互联网企业所进行的个性化推荐可能是用户访问平台的推荐,也可能是第三方平台进行的推荐。当用户登陆某个网站或手机APP,这个网站或APP上可能就有一个广告位,可能很多互联网商家都会参与这个广告位的竞拍,利用这个广告位和网站所进行的用户画像来进行个性化推荐。因此,当用户在淘宝或京东上浏览过某类商品,然后再登录抖音或知乎时,此时淘宝或京东就有可能购得这个广告位,对用户进行个性化推荐。
     
      要回答和解释这些问题,需要对其中最为核心的问题进行思考:用户的匿名行为信息是否属于个人信息?法律对于用户画像与个性化推荐应当采取何种立场?法律如何从个人信息保护的角度对待此类问题,将在很大程度上决定上述问题的答案。同样,如果法律对于用户画像与个性化推荐已经明确立场,那么上述法律争议也会有更为明确的答案。
     
      二  比较法视野下的问题分析
     
      从比较法的视野出发,可以发现网站利用消费者行为信息进行用户画像与个性化推荐,全球不同国家和地区采取不同的规制方式。对于匿名化的消费者行为信息是否属于个人信息,不同规制机构、专家与学者也给出了不同的观点。
     
      (一)中国
     
      我国目前对于网络用户画像和个性化推荐并没有直接的法律规定。对于网站使用Cookie等技术收集用户的行为信息,并且利用此类信息为个体进行个性化推荐,我国的法律并没有明确禁止。2018通过的《电子商务法》第18条规定:“电子商务经营者根据消费者的兴趣爱好、消费习惯等特征向其提供商品或者服务的搜索结果的,应当同时向该消费者提供不针对其个人特征的选项,尊重和平等保护消费者合法权益。”但这一规定并未直接规定网站收集与处理个人消费行为信息是否合法,而且对于这一规定应当如何进行解读,也还存在很大的争议。
     
      事实上,从以往的司法判决来看,网站收集与利用消费者的行为信息大体上受到了法院判决的支持。2013年,在朱烨诉百度公司隐私权纠纷案中,朱烨起诉百度公司,认为其在百度公司搜索“减肥”“丰胸”等关键词后,会在浏览相应的网页时出现诸如“减肥”“丰胸”“人工流产”等广告,因此百度公司对于其消费行为信息的收集和利用侵犯了其隐私权。对于这个案件,一审法院支持了朱烨的主张, 但二审法院认为,百度公司收集的是不能识别用户个人身份的信息,此类数据不符合“个人信息”的可识别性要求。而且,相关网页只是对特定的用户进行推送,并没有公开用户的消费行为及其偏好,因此并没有打扰用户的安宁或对用户产生实质性损害。
     
      从个人信息的界定来看,我国的现行法律也并未完全明确消费者的行为数据是否属于个人信息。2016通过的《网络安全法》第76条规定:“个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。”从这一条的规定来看,似乎可以将用户的消费行为信息界定为个人信息,因为结合其他信息,此类信息很可能可以识别个体。但该法第42条又规定:“网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。”对于匿名化的消费者行为信息,这条规定又似乎希望将与其他可直接识别的个人信息进行区别对待。
     
      在技术标准层面,一些技术标准似乎采取了较为宽泛的个人信息定义,将消费者的行为信息也纳入到个人信息的范畴。例如《信息安全技术 个人信息安全规范》规定,个人信息是指“以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,如姓名、出生日期、身份证件号码、个人生物识别信息、住址、通信联系方式、通信记录和内容、账号密码、财产信息、征信信息、行踪轨迹、住宿信息、健康生理信息、交易信息等。”根据这一定义,除了能够通过具体信息“识别”个人,“关联”也可以成为个人信息的范畴。“由特定自然人在其活动中产生的信息(如个人位置信息、个人通话记录、个人浏览记录)”也应当被视为个人信息。
     
      (二)美国
     
      长期以来,美国没有个人信息保护的统一立法,也没有联邦层面对网站利用消费者行为进行用户画像与个性化推荐的法律规制。但自从二十世纪九十年代以来,美国的监管机构美国联邦贸易委员会(FTC)开始逐渐关注信息隐私的问题。1998年,联邦贸易委员会发布了一份报告,对商业网站披露用户隐私的做法进行了全面审查,并制定了“公平信息实践原则”。 根据这一原则,在收集个人信息时,“网站需要向消费者提供关于其信息实践的清晰和明显的通知,包括他们收集什么信息、他们如何收集信息(例如,直接或通过非显而易见的方式,例如Cookie)、他们如何使用它、他们如何向消费者提供选择、可访问性与安全,他们是否向其他实体披露收集的信息,以及其他实体是否正在通过网站收集信息。”
     
      在公平信息实践原则的指引下,联邦贸易委员会采取了基于透明性的监管原则,即当网站违反隐私政策而收集个人信息,或者网站对个人信息收集不透明的情形下,联邦贸易委员会可以要求网站遵守信息收集透明的要求。例如2009年,联邦贸易委员会调查了零售商Sears公司。联邦贸易委员会认为,尽管零售商Sears公司已经向用户提供了一个隐私政策协议,但Sears公司没有充分披露其对付费客户的跟踪程度,没有告知其网站程序可能会跟踪和记录客户的浏览记录和习惯,因此已经构成了对消费者的欺骗。 联邦贸易委员会要求,Sears公司在其隐私政策协议中清晰地描述网站软件“将监视、记录或传输的数据类型”。2010年,联邦贸易委员会又对EchoMetrix公司进行了调查。在EchoMetrix公司所设计的一款“家长控制”软件中,EchoMetrix公司对儿童电脑活动的数据进行了偷偷地跟踪,并将此类数据传输给了营销人员。 联邦贸易委员会认为,此类对于儿童信息的追踪与披露是不透明的,没有获取消费者的同意。
     
      在2010年12月的一份报告中,联邦贸易委员会又提出了新的消费者数据隐私监管框架,主张设立一个统一和全面的“不跟踪”机制。 根据该机制,当网站追踪和收集消费者的行为信息时,应当为消费者提供“统一和全面的消费者选择机制”,赋予消费者以拒绝用户画像与个性化推荐的权利。具体来说,应当在“消费者的浏览器上放置持久性的Cookie设置,并将该设置传送至消费者所访问的网站,以明确地确定消费者是否希望被跟踪或收到个性化的广告”。 联邦贸易委员会认为,“不跟踪”机制将优于现有的基于浏览器的Cookie设置,因为它“更清晰、更容易找到和更有效”,而且它直接将选择退出的机制设置在被访问的网站上。
     
      但需要注意的是,联邦贸易委员会的监管建议并未上升为立法。联邦贸易委员会曾经在2011年左右在国会听证,建议采取更严格的措施以规制未经授权的用户画像与个性化推荐,包括主张采取“不跟踪”机制。 但国会并未采纳贸易委员会的主张。此外,国会经提出过的一些法案虽然都主张对用户画像和个性化推荐进行监管,但最终也都未能成为法律。例如《2011年禁止在线跟踪我法案》要求在线广告商和网站允许用户拒绝跟踪他们的在线活动,《2011年克里/麦凯恩商业隐私法案》也专门对用户画像或在线定向广告行为做出了规定。 由于种种原因,这两个提案都未成为正式法律。
     
      在支持对网络用户画像与个性化推荐进行规制之外,也有反对的声音。有的观点认为,消费者的行为数据并不属于个人信息,因为此类数据并不包括消费者的姓名、身份证号或类似的可识别信息。因此,对于此类信息的收集并不需要遵守信息隐私法或数据隐私法的基本法律框架。此外,还有的观点认为,只要网站在其隐私政策里告知了消费者存在对消费者行为数据的追踪与收集,那么此类行为就是合法与合理的。在某些广告业的从业者看来,网络追踪行为与用户画像行为“并不侵犯任何人的隐私,因为出售的数据并不按姓名识别人,而且追踪行为已经在隐私政策中进行了告知。”
     
      (三)欧盟
     
      欧盟对于网络用户画像与个性化的规制要明确很多。自2009年起,《电子隐私指令》就对Cookie的使用做出了详细的规定,该指令规定,凡是在用户的电脑上储存信息,或者访问用户电脑上的信息,不论此类数据是否属于个人数据,都必须获得用户的同意。 例外的情形只有为了传输数据所必要,或者为了用户提出服务所必要。而且,专门负责对欧洲数据隐私提出建议的第29号工作小组指出,用户的同意必须是明确同意, 不能是默认同意。2017年,欧盟又提出以《电子隐私条例》替代《电子隐私指令》, 但对于使用Cookie等技术获取信息,《电子隐私条例》延续了之前的规制立场,只是在某些方面做出了调整。
     
      此外,《条例》也规定了用户画像与个性化推荐的限制。《条例》第21条第1款规定,当处理数据主体的数据时,“包括根据这些条款而进行的用户画像,数据主体应当有权随时反对。” 第21条第2款和第3款进一步规定:“当因为直接营销目的而处理个人数据,数据主体有权随时反对为了此类营销而处理相关个人数据,包括反对和此类直接营销相关的用户画像”;“当数据主体反对为了直接营销目的而处理,将不能为了此类目的而处理个人数据”。 根据《条例》第21条的规定,也可以比较明确地确定网站收集与处理个人的行为信息属于法律调整的范围,网站的此类活动必须明确获得用户的同意,而且应当保证用户随时反对和拒绝网站对其进行画像与个性化推荐。
     
      就个人信息的界定来看,欧盟1995年制定的《数据保护指令》(本文简称《指令》)指出,个人数据指的是“任何已识别或可识别的自然人(‘数据主体’)相关的信息,一个可识别的自然人是一个能够被直接或间接识别的个体,特别是通过诸如身份编号或个体的身体性、生理性、精神性、经济性、文化性或社会性身份而可以直接识别或间接识别”。 对于这一定义,欧盟法院曾经依据《指令》明确做出解释,指出没有姓名的信息也可以构成个人数据。 而第29号工作小组在其对个人数据的解释中,也明确采取了对个人信息进行扩张性解释的立场,将可能识别个人的消费行为数据也纳入了个人数据的范畴。
     
      《条例》替代了《指令》。但就个人数据的范围而言,其范围反而比之前的《指令》更广了。《条例》除了延续《指令》的定义,还把“姓名、身份编号、地址数据、网上标识”等数据明确列为个人数据的范畴。 而且,《条例》条文的详述明确指出,只要采取“所有可能合理使用的手段来直接或间接挑出”个体,此类个体就属于可识别的个体。即使某些数据被匿名化处理,但“只要通过额外的信息可以追踪到个体,此类数据就可以被视为一个可识别自然人的信息”。 由此可见,在欧洲,基本的共识是匿名化的用户消费者数据应当属于个人信息。
     
      三  支持理由与反对理由
     
      对于法律是否应当规制用户画像与个性化推荐,是否应当将用户的匿名行为信息纳入个人信息的范畴,支持者和反对者各自提出了若干理由。
     
      (一)支持理由
     
      支持者的理由归纳起来有如下几点。第一,用户行为信息本身就是识别个体的方式,通过行为来筛选个体,这本身就是一种“识别”。根据这种观点,当网站对个体进行用户画像,向个体推送广告,其活动本身就是一种筛选或识别个体的活动。传统对于识别的定义往往将识别等同于联系到个体的姓名或地址,但事实上,姓名本身只是识别的方式之一。在网络社会,姓名甚至不是最有效的识别方式,相比起姓名,通过Cookie等技术收集的用户行为信息更容易“识别”个体,更能对个体产生影响。
     
      第二,很多研究和实例表明,在大数据时代,人们常常可以轻易地通过用户匿名化的行为信息识别个体的姓名。例如《纽约时报》曾经通过美国在线(AOL)网站所公布的匿名搜索记录很快识别了具体的个体。 正如乔治城大学法学院的保罗·欧姆(Paul Ohm)教授在其著名的《未兑现的承诺》一文中所指出,匿名化是一种神话,伴随着大数据时代的到来,传统匿名化的手段已经基本失败,技术专家可以轻易地实现匿名化个人信息的再识别(Re-identify)或者去匿名化(De-anonymize)。 欧姆教授除了引用美国在线的案例,还引用了其他案例来说明匿名化的信息如何被重新识别, 以及在原理上为何匿名化不可能完全实现。
     
      第三,支持者认为,个人信息保护的要义不一定是侵犯传统意义上的隐私,个人数据保护法的另一重要功能还在于规制风险, 而网站大规模收集与汇集消费者行为信息所隐含的许多风险与信息是否匿名无关。很多研究者指出,即使消费者的行为信息属于没有姓名的匿名信息,但此类信息一旦泄露,还是可能给公民个体带来很多风险。 例如某些非法网站可能会利用此类信息来对个体进行诈骗,或者利用此类信息来销售违法产品。
     
      第四,支持者还指出,未经用户同意与法律规制的用户画像与个性化推荐还可能导致“寒蝉效应”。 很多研究指出,当用户发现自己的信息有可能在不知情的情况下被收集,那么用户就可能放弃搜索与查询相关信息。用户可能会感到自己对自身信息如何被收集与利用丧失了控制与预期,对网络产生不信任情绪。因此,支持者认为,即使网站的某些行为不像传统隐私侵权那样侵犯了用户的安宁或独处,但这些行为也应当受到法律的约束。
     
      (二)反对理由
     
      反对者的理由归纳起来有几点。第一,如果个人信息保护法或相关法律将匿名化的行为信息也视为个人信息加以规制,那么企业和其他数据控制者将丧失匿名化的动力。既然匿名化的数据也将受到同等的法律约束,那么数据控制者可能会从减小成本的角度考虑放弃匿名化的努力。
     
      第二,有的反对者认为,将匿名化的行为信息纳入个人信息范围,对用户画像与个性化推荐进行法律规制,此种做法将妨碍社会的创新与网络经济的发展。这种观点认为,网站对用户行为信息的收集将可以为消费者提供更好的服务,也可以使得网站与广告公司进行更为有效的营销,减少商家与消费者之间的信息不对称。 因此,用户画像与个性化推荐本质上是一种基于算法的正常商业活动。
     
      第三,有的反对者认为,如果将消费者的行为信息也纳入个人信息范围,这会导致个人信息的范围会变得非常宽泛,可能任何信息都有可能变为个人信息。 而一旦个人信息的范围界定得如此宽泛,就可能会导致对真正需要保护的个人信息保护不足。毕竟,无论是企业还是公共机构,其保护个人信息的能力都是有限的,而且这些机构也都有对个人信息进行利用的需求。不加区分地将各类信息都视为个人信息,可能会导致企业或公共机构对真正需要保护的个人信息保护不足。
     
      (三)支持与反对理由的再思考
     
      考察支持者与反对者的理由,可以发现支持者的有些观点有相当说服力。支持者正确地指出,消费者的匿名化行为信息既可以挑出或筛选出不具有姓名的个体,也可以帮助某些主体识别出个人的姓名等可识别性信息。无论是从风险控制、满足消费者预期、消除“寒蝉效应”还是保护消费者的角度,都有必要采取一定的法律措施,对网站收集与利用用户的匿名化行为数据和对消费者进行用户画像的行为进行法律规制。
     
      但有些反对意见也有很强的说服力。第二点反对意见正确地指出,对用户匿名行为信息的合理利用将有效地促进商业活动。毕竟,所有的商业活动都依赖于信息的自由流通与有效利用。从消费者的角度来看,个性化推荐可以帮助消费者更快地获取自己想要的产品,节省信息搜寻成本。从商家的角度来看,个性化推荐可以帮助企业更有效地利用企业资源,避免企业资源的浪费。对于中小企业而言,这尤其重要。在互联网经济中,个性化推荐可以帮助小企业的产品有效地为消费者所知晓。如果没有个性化推荐,那么互联网平台的流量就可能长期为少数大型企业所占据,消费者所能接触到的广告或推荐就可能永远是一些大企业的产品。从这个角度来看,互联网经济对于用户匿名行为的合理使用其实可以真正地惠及商家和顾客。互联网企业对于用户匿名行为信息的不合理使用当然会引起消费者不信任,最终损害互联网经济,但法律对于这种不信任的规制应当是促进信任,而非因噎废食地禁止用户画像与个性化推荐。
     
      此外,对第三点的异议也值得重视。 将用户的匿名行为信息都纳入个人信息的范畴,这固然有利于进一步保护用户权益,但这种扩张性解释却可能导致所有信息都变为个人信息的困境。而一旦个人信息的概念界定过宽,这就不仅不利于某些信息的合理收集与使用,而且也可能导致个人信息保护相关资源分配不均的情形,导致真正需要保护的某些个人信息得不到充分的保护。在当前个人信息保护面临严峻挑战的背景下,这一点尤其突出。无论是在中国还是在欧美,个人信息保护都面临着执法力量不足、新技术新挑战层出不穷的问题,在这种背景下,如果将用户画像的法律规制等同于个人信息保护,将用户匿名行为信息视为一般的个人信息保护问题,这有可能导致监管的重心出现偏差。
     
      四  个人信息概念的反思
     
      用户画像与匿名化的用户行为信息之所以成为争议点,这与个人信息的概念有关。全球的信息隐私法或数据隐私法的框架都以个人信息为核心,当某类信息属于个人信息时,对其的收集与处理就受法律的保护;相反,当某类信息不属于个人信息时,对其的收集与处理就不受法律保护。 但现实表明,个人信息与非个人信息的界限并非如想象的那样清晰,同时,这一二元划分的框架存在着一定的问题。
     
      就个人信息与非个人信息的界分来说,个人信息的范围常常会随着时代与科技的变化而变化。在信息隐私法发展之初的二十世纪六、七十年代,个人信息的范围曾经相对确定。在那个时期,政府或企业主要收集的是个人的档案类信息,即个人的姓名、肖像、地址等能够直接识别个人的信息。对于公民个人的行为信息,例如个人在商场中的购物习惯、消费偏好,政府或企业并没有大规模收集,也并未将它们纳入个人信息的范畴。但随着时代的变迁、网络与信息技术的发展,对于公民行为信息的收集变得越来越多,越来越普遍,和公民个体相关的公开信息也越来越多。而悖论的是,信息越多,成为个人信息的信息种类也越多。因为信息越多,就越可能通过信息的分析与交叉比对而识别具体个人。有的学者甚至认为,随着整个社会的信息以指数级别的速度增长,未来可能所有或大部分信息都会变成个人信息,很多之前被认为与个人无关的信息,都可能和其他信息建立相关性,指向一个特定的个体。
     
      在这种背景下,以个人信息/非个人信息的二元划分来设计相关法律与制度,就可能存在问题。就像上文的反对意见与支持意见所指出的,一旦此类个人信息被列入个人信息,就可能导致企业匿名化信息动力不足、不能合理利用个人信息、法律保护资源分配不合理等问题,而一旦此类信息不被列入个人信息,又可能导致个人信息保护力度不够、用户知情权丧失、寒蝉效应等问题。
     
      在本文看来,较为合理的解决方案是隐私法权威学者保罗·施瓦茨与丹尼尔·索洛夫所提出的“个人信息2.0”的概念。在《个人信息问题:隐私与新的可识别个人信息概念》一文中, 两位学者首先指出了个人信息与非个人信息边界的模糊化,指出个人信息的范围常常会随着科技的变化而变化,因为场景变化而变化,因而以个人信息为基础保护公民的相关隐私权益,常常会面临上文所提到的种种问题。 但二位学者同时指出,如果彻底放弃个人信息的概念,完全通过成本-收益与风险预防的进路来保护个人信息,又可能造成整个信息隐私法框架的重构,无论是监管机构还是个人信息的收集者与处理者,可能都会面临无所适从的困境。 二位学者提出,替代方案是设计一个“个人可识别信息2.0”的分类,并根据这种新的分类适用不同的规则。
     
      具体来说,二位学者认为可以将可识别个人信息分为三类:已识别个人的信息、可识别个人的信息、不可识别个人的信息。已识别个人的信息是指已经确定能从人群中识别出某个人的信息;可识别个人的信息是指可能根据这些信息或结合其他信息而识别某个人的信息;不可识别的信息则是不可能识别到某个人的信息。 二位学者认为,对于已识别个人的信息,应当要求信息的收集者与处理者严格遵守相关信息隐私法所规定的一系列责任,不允许有例外;而对于可识别个人信息,则应当根据可识别个人信息可能带来的风险,对信息收集者与处理者施加不同程度的责任。
     
      以信息隐私法的基石“公平信息实践” 为例,二位学者认为,如果相关信息属于已识别个人信息,那么个体应当有一系列完整的信息权利,信息收集者与处理者应当承担一系列责任:第一,个人信息使用限制;第二,个人信息收集限制;第三,个人信息披露限制;第四,个人信息质量原则;第五,个人的被通知权,访问权和更正权;第六,透明性;第七,个人信息安全保护。 但如果相关信息属于可识别的个人信息,那么信息收集者与处理者应当承担公平信息实践中的部分责任,例如第四点的保障个人信息质量安全的责任、第六点的透明性责任和第七点的个人信息安全保护责任。而对于有的责任,例如第五点中用户的被通知权、访问权与更正权,则不应当作为信息收集者与处理者的责任。
     
      对于责任要求,二位学者给出的理由是,个人可识别信息首先可能给个人带来风险,因此,对个人可识别信息的收集与使用不能放任自流,必须要求信息的收集者与处理者承担个人信息质量保证与个人信息安全保护的责任。个人可识别信息的收集者与处理者应当评估被收集信息的潜在风险,建立起一套“跟踪-审查”的模型,对信息收集、储存、处理与流转建立全流程跟踪与保障的机制。 其次,二位学者指出,透明性的责任有利于加强消费者、信息收集者与处理者的个人信息保护意识,同时赋予消费者以一定的选择权。
     
      对于豁免的责任,二位学者给出的理由是,赋予个体以被通知权、访问权、更正权等权利首先会造成用户隐私泄露的风险。为了保障个体的此类权利,信息的收集者与处理者必须在个人与相关信息之间建立直接联系,以确保个体能够行使此类权利。但悖论的是,这种直接联系反而会造成个体被直接识别,从而对个体的信息隐私造成直接威胁。此外,由于此类信息并不能直接识别个体,为了满足此类权利要求,信息的收集者与处理者也需要付出较大的成本与努力,这与此类信息可能带来的风险并不相称。
     
      总之,施瓦茨与索洛夫给出了较为中道的解决方案。这一解决方案既没有采取美国较为狭隘的个人信息定义,将匿名化的行为信息等信息排除在个人信息的范围之外,也没有采取欧洲较为宽泛的个人信息定义,将匿名化的行为信息和其他已识别个人的信息同等对待。施瓦茨与索洛夫将可识别个人信息视为一个单独类型的个人信息种类,并且提出了区别于已识别个人信息的特殊规制方式。
     
      五  规制框架的反思
     
      通过比较法的分析、对正反意见的思辨和个人信息概念的反思,现在可以对本文第一部分所提出的技术合法性问题进行分析。在用户匿名行为信息的收集阶段、融合阶段与利用阶段,法律应当根据不同技术所涉及的不同风险采取不同的规制进路。
     
      在信息收集阶段,应当要求信息收集符合透明性要求。信息的收集应当符合消费者和用户的合理预期,应当给与消费者以拒绝信息收集的权利,避免秘密和不合理的收集。 这是因为,尽管用户的匿名行为信息不能直接定位或识别具体个人,但此类信息的收集、聚合与利用仍然可能给人带来相应的风险。在这种前提下,在信息收集阶段保障消费者的知情权与选择权,仍然有其必要性。毕竟,消费者的知情权与选择权不仅可以为消费者提供一定程度的警示与选择自由,而且也可以减少消费者被冒犯的可能,帮助互联网企业赢得消费者更多的信任。
     
      具体就本文在第一部分所提到的信息收集方式而言,利用HTTP Cookie进行的信息收集应当被允许,因为一般的网站浏览器都提供了HTTP Cookie的删除选项,而且HTTP Cookie技术也已经为广大消费者所熟知,符合一般消费者的合理预期。这里可能需要注意的是,如果是第三方平台利用HTTP Cookie技术收集用户行为信息,此时用户访问的相关网站应该在网站隐私政策中进行明确的告知,确保消费者意识到,存在第三方收集用户消费行为信息。
     
      而对于利用Flash Cookie、Ever Cookie、Fingerprint技术收集用户行为信息,则应当要求互联网企业对用户进行更为明确的告知,并且只有在用户明确选择同意加入的前提下,这几种技术才能被法律允许。 这是因为,Flash Cookie和Ever Cookie、Fingerprint技术使得用户很难或无法拒绝网站对其信息的收集,即使用户删除了网站浏览器自带的HTTP Cookie,网站也仍然可以继续收集其用户行为信息。Fingerprint技术虽然未在用户电脑中隐藏或不断复制Cookie,但由于其比对功能也很容易通过关键信息的比对来识别特定电脑,因此也应当保持透明性,应当获得用户的明确授权。这里尤其需要强调的是Ever Cookie技术,由于Ever Cookie技术在一定程度上剥夺了用户的删除权, 而且具有非常隐蔽的性质,因此更应当获取用户明确无误的同意。除非获取用户明确无误的同意,否则不应当允许企业运用此种技术来收集用户匿名行为信息。
     
      在用户匿名行为信息的融合汇聚阶段,应当从总体上允许企业利用其合法收集到的信息与数据进行用户画像。毕竟,信息与数据的融合与利用是互联网与大数据的本质所在,允许此类用户行为信息与数据的融合与“化学反应”,这可以给商家和消费者带来双赢。在这一阶段所需要的问题是,数据的融合汇聚应当注意防范相应的风险,进行数据融合的数据管理平台应当承担数据的安全保障义务。 因为此类数据一旦泄露或被不法分子利用,就可能造成重大社会负面效应。
     
      最后在信息利用阶段,对于用户匿名行为信息的利用应当遵循上文提到的风险规制原则,即根据用户匿名行为信息的潜在风险不同向信息处理者施加不同的责任。相关网站可以利用用户的消费偏好与习惯进行个性化推荐,但不应利用敏感类信息进行个性化推荐。在前文提到的朱烨案中,虽然此案终审判决认定百度的个性化推荐合法,但随着网络安全法的生效以及个人信息保护法的起草,未来应当禁止利用此类敏感信息进行用户画像与个性化推荐。不同于其他匿名行为信息,此类敏感类的匿名行为信息可能给个体带来很多困扰。因此即使个人授权网站收集其所有行为信息,也应当限制网站对此类敏感信息进行个性化推送。
     
      总之,用户画像与个性化推荐的法律规制框架可以借鉴与适当沿用个人信息法律保护的框架。法律应当将用户匿名行为信息纳入个人信息的范围,但应当将此类信息视为一个单独的类别,将其视为可识别的个人信息。法律应当对于此类信息采取基于标准的规制方式,对其进行风险评估。当收集与处理此类信息隐含较高风险时,应当对其进行较为严格的法律规制,要求互联网企业遵循个人信息保护的相关责任。而当收集与处理此类信息的风险较低时,则应当对其进行相对宽松的法律规制,要求信息的收集者与处理者承担部分责任。
     
      六  结语
     
      用户画像与个性化推荐是伴随互联网经济发展而兴起的重要商业模式,在这一过程中,新的技术问题与法律问题层出不穷。尤其是通过个人信息保护的视角来看待用户画像与个性化推荐问题,可以发现互联网企业对于用户匿名行为信息的收集、融合与利用存在很多争议。何种技术应当被允许?法律应当采取何种框架应对相应问题?这需要同时从技术与法律两个方向进行深入分析。
     
      本文认为,应对用户画像与个性化推荐提出的挑战,应当对现有的法律规制框架进行反思。法律既不能直接将匿名化的用户行为信息视为非个人信息,也不能将此类信息等同于可直接识别的个人信息而加以对待。对于用户画像与个性化推荐,应当在赋予消费者以知情权和拒绝权的同时,更多要求企业承担相应的治理责任与信息伦理,真正保证用户画像与个性化推荐是为了为消费者提供更好的服务,符合消费者在具体场景中的合理预期与信息的合理利用。从这种规制框架出发, 既可以对现有的各种技术问题进行分析与反思,也可以为未来新出现的技术手段与新问题提供理论框架与规制基础。

    【作者简介】

    丁晓东,中国人民大学法学院副教授、博士生导师,未来法治研究院副院长


    本网站文章仅代表作者个人观点,不代表本网站的观点与看法。
    转载请注明出自北大法律信息网
0
北大法律信息网
www.chinalawinfo.com
法律动态
网站简介
合作意向
网站地图
资源导航
版权声明
北大法宝
www.pkulaw.cn
法宝动态
法宝优势
经典客户
免费试用
产品服务
专业定制
购买指南
邮件订阅
法律会刊
北大英华
www.pkulaw.com
英华简介
主要业务
产品列表
英华网站
联系我们
用户反馈
返回顶部
二维码