9210
2021年4月10日-12日,吴文俊人工智能科学技术奖十周年颁奖盛典暨2020中国人工智能产业年会在北京和苏州同期圆满成功举办。云安全联盟大中华区(CSA GCR)数据安全工作组组长王安宇受邀在上海中谷小南国花园酒店,2020中国人工智能产业年会—可信AI专题论坛上发表主题报告《AI的数据安全挑战与可信AI构筑》。
以下为演讲实录:
尊敬的各位领导、各位嘉宾大家下午好,很荣幸在可信AI专题论坛和大家一起分享,从数据安全的视角,看待对可信AI的理解和思考。
CSA简介
AI的数据安全挑战
麦肯锡把AI列为2025年改变世界的十大关键技术,人工智能在生产和生活中的广泛应用会极大提高效率。
在我们生产生活中可以发现AI无处不在,不管自动翻译、智能客服、天气预报还是手机中的语音助手都是AI典型应用。
但是随着AI发展,我们可以发现AI数据安全和隐私风险凸显。第一个是脸书对照片的人脸识别和推荐引发质疑。第二是谷歌错误将黑人照片标注为“大猩猩”随后道歉。第三是自动驾驶厂商,在机器学习过程中,遇到了没有见过的物体,然后引发了交通事故。
这是我们刚才有李院长讲述过的AI模型的攻防对抗,数字世界篡改输入,可以对AI的数据安全有比较大的挑战。第二是从物理世界篡改输入,这是著名的一项研究,把美国交通路牌从35+了一个小小的扰动,让特斯拉识别成85,并做出加速的动作,这是AI模型攻防对抗的案例。
我们到今天论坛的主体,能够看到AI是第四次工业革命的重要驱动力,第一次工业革命迎来了蒸汽机时代,第二次电器时代,第三次就是现在自动化制造的时代,第四次工业革命我们融合了AI、CPS、Iot等技术,加速在线世界和工业世界的融合。
我们提出第四次工业革命是由物理安全到网空安全一直到融合安全的演进。在第三次工业革命的时代,我们提出了网络空间安全的概念。第四次工业革命必然带来融合线下和线上,融合物理、数字和生物世界的安全,这些对我们都是比较大的挑战。
聚焦今天所说的主体,融合安全的核心是AI的安全与隐私,就是今天讨论的可信AI最基础的内容。另外就是数据的保护和利用。我们能够看到融合安全,包括新的场景、新的技术、新的业务以及新的监管风险,刚才专家提到了我们看到的数据主权、网络主权、内容安全和地缘政治这种逆全球化趋势的影响,甚至包括未来的融合风险,很多的点,不再是单一的技术领域或者是业务领域,而是会引发技术、业务、监管、人权诸多维度的风险与挑战。
回到我们今天的主题就是AI的数据安全挑战,我们提数据,AI上面的数据有哪些呢?从全景视角看,AI有六类数据资产,其中重要的就是数据集和训练数据,这些也是我们普遍对于AI中的数据最核心的理解,还有包括原始数据和测试数据,经常会被忽视,但是它的安全和隐私风险也不可以被忽略。
第二个维度是模型。模型也有我们所说的算法机密性,包括训练算法、预测算法、预处理算法,如果我们算法在不可信任位置,那模型的机密性和完整性是需要得到考验的。另外我们所说的模型调优和训练的参数,一般都是我的组织和企业的核心信息资产,这些如何得到更为有效的利用和保护,这是模型的第二个维度。
还有我们能够看到AI的环境依赖,也可能是关键的数据资产,包括云存储、计算平台和框架,包括分布式算法和协议,这些都是我们所说的AI六类数据资产。这个全景上我们能够看到对应的八种威胁模型,就是每一类数据资产对应不同的威胁,但是总体威胁模型有这么八类,包括滥用、窃听、物理攻击、无意损害、故障、停止服务,我们把六类数据资产以及八种威胁模型可以得到AI的数据威胁的全景。
可信AI的构筑原则
第三可信AI构筑原则,刚才领导和专家的重复部分我会略过。首先我们回顾一下,AI的沿革,从人工智能到机器学习、深度学习,这样的数据安全风险和挑战,可信任的构筑难度是逐渐递增的,可信AI我们讨论它有三个内涵:首先一定是合规的AI,这是基础。还要是道德的AI,刚才有专家也做过比较多的阐述,还有它必须是鲁棒的AI。
今天我们是说合规的AI,内涵有三个维度:(1)AI的数据安全包括刚才提到模型和数据的安全保护。(2)AI的隐私保护,归在AI的广义数据合规的内容里面。(3)AI用于处理个人数据时候的透明度和数据主体的参与,这个也是我们所说的合规技术要求。
回顾一下我们说的数据安全基本模型,包括机密性、可用性、完整性,也称CIA三角。我们再看AI涉及到的另外一个模型,叫DIKM模型,从数据的关联产生信息,从有目标的信息产生知识,知识用于决策,形成智慧,而AI在这四层都会发挥作用,这是我们能够看到的AI和数据安全结合领域的一些基本模型。
我们如果说数据安全防护一定要基于AI整个生命周期做安全的保护,数据是AI中最有价值的资产。并且数据在AI全生命周期中有转换和转移,从原始数据到结构化数据到数据集,再到训练数据,并且和测试数据、预测数据这些是AI生命周期中的转换、转移的过程。
我们识别出来这样一个AI生命周期周的数据流转,我们就可以做以数据为核心的AI生命周期威胁建模,把数据在AI的训练阶段,从原始数据到训练集,到模型调优,到模型部署的过程,每一个过程里面关键的AI数据资产,再加上常见的微型建模的方法。
比如说当前突出的工业界用的是微软模型,这两者结合获得一个矩阵点,包含了每个生命周期阶段的数据对象,包括每种威胁的类型,以及威胁的详细描述和潜在影响。通过威胁建模可以得到一个对AI数据安全威胁的系统化结果,刚才是训练阶段。
在预测阶段,从真实数据到应用的决策以及到环境的部署和结果的输出,我们也可以得到类似的以数据为核心的生命周期威胁建模流程。比如从真实数据,我们在推理阶段,威胁类型如果是恶意或者是滥用的话,那对应到的威胁模型有一种叫做对抗样本危机,通过无法察觉的扰动,对机器学习模型的有效性和性能产生影响,最终影响AI模型的完整性和可用性。相信基于每一个AI模型的部署实施,我们都可以做以数据为核心的AI生命周期的威胁建模,并且得到威胁的详细系统化的表格。
刚才我们看到了AI数据安全保护的原则,下面我们回顾一下AI的Privacy by Design的原则,在1990年左右,加拿大的数据保护专员提出了隐私设计七个原则,并且在业界得到了广泛的认可。首先七原则里面包括主动设计,并且在设计中嵌入隐私,实现透明、可视和公开,其中第六点跟我们今天探讨的内容是一致的,从全生命周期保护的维度,分析AI的数据安全和隐私。
另外就是以用户为中心的原则,对应到隐私设计的七原则,我们可以给出来AI的隐私保护七个原则:
第一是使用者的隐私意识,AI发明出来要有人用的,不管训练者、使用者还是破坏者,当然破坏者另外说是我们要防范的对象,它的隐私意识肯定要有,我们怎样才能用AI,并且不侵犯相应的隐私。
第二AI的隐私保护也要符合收集和处理最小化的原则,没有收集数据就没有隐私保护的担心,或者是风险。
第三以数据的访问控制技术,这个已经是老生常谈了。但是实际上AI的数据包括训练数据、预测数据、结果数据的访问控制,反而是工业界难以实施的问题。
第四也是刚才各位专家谈的比较多的,就是隐私增强技术和AI的隐私保护领域的应用,包括刚才看到的联邦学习、图片加密以及查看隐私都是隐私增强技术,它和AI的结合,可以有效提高AI隐私保护能力。
还有刚才能够看到的AI决策可解释权。如果AI对于某个事情做的决策,在适当的场合它必须能够做到可解释。
第七是删除权和修正权,受到AI决策影响的用户,有权主张删除和修正。刚才看了AI的安全、AI的隐私保护,我们看什么是道德的AI?分四个组成部分,我们也叫做道德AI的四个原则:
1、个原则是透明,AI模型一定要清晰、一致,并且工作原理可以理解。
2、可解释,可以用人或者是普通人可以理解的语言解释,而不是一堆公式解释,这是道德AI的第二个原则。
3、公平原则,减少人为偏见,并且消除偏见对于决策受害者的影响,我们能够看到AI应用于病人或者是应聘者,或者是学生,录用的这些场合,一定要秉持公平的原则。
4、可审计,AI可以应用于第三方的审计,提供数据可信的保证。