80% 的数据泄露都发生在应用层面

技术上中国一直走在前面,但是中国面临的数据使用场景以及数据泄露风险的挑战比国外多

方兴曾被《Windows 攻击利用技术的过去、现在和将来》列为影响 Windows 安全技术发展进程里的唯一中国人,是国内知名数据安全专家。对于大数据时代的数据安全,他认为,真正难解决的还是数据流通后,在使用、共享和计算中的数据安全及隐私保护问题。

虽然大家都知道大数据时代,用户的各种数据会被大量采集,但很多人表现得漠不关心是因为他们不知道这些数据会被用来干什么,尤其像个人健康数据、基因数据等,这些数据泄露到底会给我们造成哪些潜在风险?

利用这些数据能做的事太多了。首先最常见的是广告定向推送,利用个人数据做用户画像,对你的行为、喜好做整体分析,以便推送广告内容,这就可能造成骚扰电话、骚扰短信。其次是威胁财物安全,诈骗分子可能利用个人数据,伪装成公安、淘宝客服等骗取钱财。严重的还可能影响生命安全,比如黑社会可以通过位置数据掌握个人行踪进行勒索、绑架。2019 年东北地区便发生过因为个人地理位置数据泄露,落到暴力催贷团伙手上,导致十几人因为暴力催贷自杀的恶性事件。

个人数据泄露的情况很严重,主要原因通常包括哪些?

原因很多。第一,技术因素,比如这个 App 接口存在某些技术缺陷,黑灰产业的人就可以通过这些技术问题将所有人的数据扒走;第二,人为因素,比如征信数据在黑市上现在是 800 元到 1000 元一份,有些人可能因为想离婚或者调查债主是不是存在资产转移的情况去购买个人征信数据,这就催生了一个有利可图的黑灰产业,内部员工可能因为金钱故意盗窃内部数据,出现数据泄露;第三,数据生态的流动链条出现问题,由于数据的产业链特别长,比如电商平台在采集用户数据后,得把这些数据交给仓储、物流才能进行配送,整个业务流程的各方都需要数据来共同完成,这其中每个环节都有可能出现不同问题导致数据泄露,非常复杂,究竟是哪个数据链条出现异常,很难追查定责;第四,企业内部对法律认知不够,没有意识到自己的行为在侵犯用户的权益。

数据生态的流动链条,其复杂性便是你曾说的,80% 的隐私数据泄露都发生在应用层面吗?

对,大部分隐私数据的泄露都发生在业务的应用层面,大家现在对这块的重视度都极低。很多人以为数据泄露是黑客攻破了系统,深入到企业内部网络盗取了数据,但现在的实际情况不是这样,因为数据广泛运用于各种业务应用中,黑灰产业就会瞄准这些应用中的薄弱环节,模拟成正常的业务使用数据请求来获得数据,很多数据其实是被主动、直接交出去的。

经过脱敏处理后的数据(即对敏感数据进行变形处理)被采集,仍然会有风险吗?

方兴:脱敏处理发生在数据采集过程中,尽管已经做过脱敏处理,但在大数据时代还是有很多方式可以做到与个人关联,比如多数据来源的属性关联攻击。

另外很多使用场景,必须采集和使用未脱敏的数据。这些数据当然有很多正面的用途。比如位置数据,打车软件可以借此了解其位置移动是否正常,网银、支付宝等金融产品能以此判断账户是否被人盗用。采集只能做到规范,但很难避免规避行为。现在网信办进行 App 治理,设定了许多要求和规范,但其中大多数都能被企业规避掉,用户数据还是能采集,只是对它的约束高了些。

所以说有关部门现在面临的最重要问题是,采集后,数据怎么保护、怎么流转,是不是都在合理的用途上?要解决这个问题,在技术上当然有难度,但更多阻碍是企业的责任心和投入不够,因为这往往意味着更高的成本,同时隐私数据丢失对企业本身的影响不大,这就导致它没有自我驱动力,而需要法律强制性约束。实际上,现在出台的《数据安全法》《个人信息保护法》要解决的都是企业采集数据后,如何尽责去保护整个数据安全的问题。

具体该如何保障数据安全?

数据安全涉及几个方面:第一,数据本身的泄露,即泄露给不该获得和使用的数据方;第二,主体权益保护,按照现在的全球法律约定,无论采集了多少数据,这些个人数据的所有权都属于个人,采集数据的科技公司叫作数据处理者、数据责任方,并不是数据所有者。

现在法律要求企业在采集数据时遵守如下规定:一、必须是给客户提供的服务本身需要的数据才能够采集,而且需要告诉用户会采集哪些数据、什么用途,让用户给你授权。二、有措施保护这些数据。三、用户随时可以撤回对应用的授权,保护数据主体的权益。

实际上,数字化程度越高的企业面对的问题越多,因为它要大量采集,又要让数据流通,最典型的是互联网、金融、运营商获取的数据,以及现在大量政务数据都面临着非常大的数据安全挑战。

许多隐私保护的技术会影响搜索、推荐服务的效率,如何在技术应用和隐私保护间取得平衡?

首先得看是哪种隐私保护技术。比如按照国际的《通用数据保护条例》(GDPR)和国内的《个人信息保护法》,严格要求「匿名化数据」,也就是个人数据如果不经过用户授权使用和共享只能匿名化,意思是这些数据在经过足够的处理后,分析不出是哪个具体的人,这就要求对数据进行大量的模糊化,需要差分隐私、K 匿名这样的技术。

但这些模糊化的数据,用作通用建模还可以,如果想做精准、个性化的营销等业务就不行。因为个性化服务必须了解准确的个人信息,例如富裕程度、教育水平、家庭构成等。

还有一种广告追踪技术,会持续性地分析用户在网络上的行为,经常看什么网站、买什么东西等,方便定向推送广告。严格来说,这种追踪技术本质上都可以定位到人,不管它号称使用了什么技术来对数据模糊化。每个设备都有一个唯一识别 ID,我们叫它 UMID(唯一机器识别码),所以不论是 Mac 地址还是 IMEI 地址,或者基于这些信息做各种计算,最终技术上都可以把这些数据还原到真实的个人身上。现在大型科技公司都在提差分隐私,希望在采集时减少一些精准属性信息的提取,但从技术角度来看,隐私保护肯定与数据的使用和分析存在一定冲突。

所以利用这种广告追踪技术,不管我使用哪个设备打开什么 App,它都能够追踪并获取我的数据。

以前在数据安全还不被重视的时候,这种技术甚至可以把你和周围的网络环境互联。不止手机、电脑,可能你在家里说话,都会被智能语音设备偷偷收集。因为你的语音也有自己的「指纹」,根据提取的「语音指纹」数据,结合 IP 地址、使用的 Wi-Fi,也可以定位到个人身上,了解你的关系链条、行为习惯。很多人会说,为什么我今天只是和人线下聊天提了一嘴这个东西,并没在网上搜索过,但也给我推送了这个产品?这可能就是使用了语音收集等技术。广告业发展的很多技术都是与人的识别有关联的,不论用户在哪个场景,只要能联网,最后都能把这些用户行为数据作「归一化」。

这要如何去平衡限制?

有些就得限制,必须得让用户知情,你在采集我的数据,你采这些数据是为了干什么,不能随便采。工信部和网信办最近下架了很多 App,都是因为违规采集数据。要区分违规采集和强制性采集这两个概念。违规采集是哪怕用户授予 App 使用语音的权限,也不能在后台偷偷录音,只可在用户真正发出语音请求的时候才能使用语音功能;强制性采集就相当于霸王条款,让用户知情授权,如果要提供服务就必须采集这些数据,不然不能工作。

我看到有人说,相比现在大家关心的语音、摄像头等问题,个人信息数据其实最容易暴露在输入法上?

因为现在都用的是云输入,而以前我们用的是本地输入。云输入的话,你打的每个词都从云上反馈给你,它就能够直接被云端记录获取。

在技术层面,我们现在已经能够解决哪些问题?

从技术层面来说,数据安全涉及到各种各样的场景,比如分析计算的场景、使用流通的场景,在终端上的介质场景、存储场景、访问场景……现在存储场景的数据安全方案可能比较成熟,通过加密、脱敏等手段加以保护。分析计算的场景就比较困难,因为大量不同来源、不同授权的数据汇集到一起进行计算,要求的控制密度可能会细到一个数据中的一条记录、一个字段。比如,这些数据可能来自美国、法国、中国,每个人授权的数据也不一样,每个国家的法律要求又不一样。要在这么大量的计算中精准控制这么多数据,满足这么多合规性、安全性的要求,是非常具有挑战性的。不过,真正难解决的还是数据流通后,在使用、共享和计算中数据的安全和隐私保护问题。

对比国外,你认为中国在数据保护上大体处于什么状况?

技术上中国一直走在前面,但是中国面临的数据使用场景以及数据泄露风险的挑战比国外多。国外很早就重视数据隐私,大数据被高频使用的融合性使用场景并不多见,基本上是大企业自己内部在使用,跨用户授权的场景很少。但在国内,我们是大量跨企业、融合性地在数据流动生态链上打通使用这些数据。像金融单位可能会拿到个人的健康数据、互联网消费数据,将这些来源不同的数据融合在一起分析客户画像。打通这些数据当然有好处,效率能得到很大提高,国外的物流不如中国这么发达,除了人工费用高之外,也与很多数据链没有打通有关。

中国物流的数据生态链是被打通的,电商平台会把自己的数据推给物流和仓储,同时电商需要物流的数据反馈来对用户追踪,了解包裹是不是送达。这其中还有别的业务风险,比如空包风险,某些商家为了刷信誉会雇用托儿来购买货物,但实际不产生物流交付,通过物流数据就可以知道这部分商品是不是真的卖了出去。数据跨平台、跨企业、跨生态流动,就会导致数据的风险和控制要求比国外高很多

Laminar flow

Lifeweek

我们应该学会去理解别人的观点,不仅仅是服从和被告知。

Project Che

我们应该学会去理解别人的观点,不仅仅是服从和被告知。

我们应该学会去理解别人的观点,不仅仅是服从和被告知。
我们应该学会去理解别人的观点,不仅仅是服从和被告知。
时代的水流漫过了每一只筏子,浸湿了我们的脚,而大雨迟早要来。

开门见山,明知山有虎

所有火中取栗、蹈火赴汤和洞若观火的报道,都是易燃品。

Continue Reading