2395
随着智能设备的广泛应用,大规模普及的物联网令工作与生活的界限愈加模糊,一台联网设备,只要被攻陷,从银行等财务信息到健康等个人信息,则可能全部泄露。而在互联时代,只要攻克一台设备,其他设备就可能瞬间被瓦解。
随着智能设备的广泛应用,大规模普及的物联网令工作与生活的界限愈加模糊,一台联网设备,只要被攻陷,从银行等财务信息到健康等个人信息,则可能全部泄露。而在互联时代,只要攻克一台设备,其他设备就可能瞬间被瓦解。随着人工智能被应用于各个垂直领域,信息安全面临的新的挑战,也为人工智能的大展身手带来了重要的契机。在2月2日举办的2018国家智能产业峰会上,中国科学院院士、中国人民解放军技术安全研究所研究员郑建华分享了《人工智能应用与信息安全》的主题报告,深入探讨了当今人工智能应用中的信息安全问题。本文根据郑建华院士现场演讲速记整理而成,在不改变原意的前提下略作删减与修改。
中国科学院院士、中国人民解放军技术安全研究所研究员郑建华作《人工智能应用与信息安全》主题报告
以下为演讲全文:
人工智能里面的安全问题是比较多的,例如,国家安全、社会安全、人的安全,还包括一些伦理问题、隐私问题,今天主要讲人工智能应用当中的信息安全的问题。因为人工智能是基于信息基础构建的一些应用,它离不开信息采集、存储、分析和传播,这里面存在大量的信息安全问题;另一方面,人工智能本身的一些思想、方法和理论在信息安全领域也有很多的应用,所以我想从这两个方面给大家谈谈我的一些心得。
信息安全的基本要求
习主席曾说过,“没有信息化就没有现代化,没有网络安全就没有国家安全”。我认为,如果讲信息安全可能面更宽一些,没有信息安全就没有国家安全。这实际上就是信息化和现代化的关系以及信息安全与国家安全的关系,我觉得说的非常到位,非常简练。这几年我们的一些新技术,比如“互联网+”、物联网、云计算、大数据、区块链,以及去年国家发布的《新一代人工智能发展规划》,是我们国家发展到当前阶段,对于如何进一步提升国力,发展经济和国家实力,提出的一系列的创新举措,目的是通过技术创新来驱动发展。这些技术很明显都是以信息技术为引导和主导的,包括人工智能在内,都是以信息化为基础,所以没有信息化就没有现代化。
信息化实际上是一把双刃剑,带来了很多的便利的同时,它的安全问题也非常重要,所以我们把信息安全提高到国家安全重要组成部分的地位。信息安全要实现怎样的目标?一般来说,保密性、完整性、可用、可控和不可抵赖是信息安全的五个基本属性。这里需要一定的解释,这五个属性之间的有机关系结合得不是很好,所以我用一句话来描述:信息安全的目标是对信息的使用和处理,需要经过所有权人的授权,严格按照所有权人的要求,要真实、顺畅、合理的进行,这就是信息安全要实现的目标。要经过所有权人授权,这里存在一个身份识别的问题。身份是有所有权的,需要经过授权才能对信息进行使用。是怎样的使用呢?是可读、可写还是可改?这就需要按照授权人的授权按照要求去做。这里一个是讲信息有所有权,另一个是需要按照授权进行信息的使用。另外,真实、顺畅、合理讲的是什么呢?是信息的使用要求是真实的,不是经过篡改或者是伪造的。顺畅指的是,在信息使用过程不会让信息系统瘫痪,能够正常使用。合理性指的是信息使用需要理性使用,主要是对信息的一些管控,对于有害信息要进行有效的治理。
我们从信息的采集、传输、存储与管理以及处理和使用的过程当中,可以看到里面存在安全问题。比如说信息采集是否按照真实情况进行?采集的数据是否真实?信息是否按照你的要求进行的采集?例如摄像头是按照你要监控的位置,还是被滥用,被别人控制?因此,信息采集存在一个控制问题。信息传输过程当中要进行有效的保护,要保密,要保证它的真实性不被篡改。同时,传输过程要可靠,能够抗干扰。这些都是信息采集、传输过程中要解决的安全问题,在信息的存储和管理中,它的安全问题是要做到真实性不被篡改,以及它的保密性。信息要经过授权,确保不会被滥用,现在的云计算、云存储当中可能有这个要求。我们的信息以后都是放在云上面,如何能保证这些信息是安全的?通常,我们认为云的管理者不可信的,每个用户的信息放在云上,对管理者也要保密。数据放在云上,怎样保证它的新鲜和真实,是我们面临的的问题,所以我们讲的云的安全或者是大数据的安全,一般指的是存储和管理方面的安全。在信息的处理和使用当中,存在一个更大的问题,就是怎样进行身份的识别以及权限的有效管理。对于信息处理的结果要进行签名,保证它的真实性,确保在信息使用的整个生命周期都能够可追溯。
人工智能应用的信息技术体系
我们前面讲的是信息安全要达到的一些基本目标,是从信息生成到最后使用的整个生命周期里涉及到的一些安全问题。信息安全一方面是信息本身的安全,另一方面,在智能城市、智能家庭这些领域,信息安全已经作用到了一些设备甚至到了人本身。比如说前段时间我们遇到的勒索病毒,为什么可以勒索?因为这些文件非常重要,只能是忍痛付钱了。基于这种信息系统,例如今后一些直接作用到和人和设备上的大规模应用,它的安全性要求可能就更重要。
本次峰会的主题是人工智能,当今这一次的人工智能热潮,主要是因为数据驱动,因为有了云计算,有了大数据,使得人工智能的技术又有了一次飞跃。所以数据和信息本身的安全就贯穿到我们人工智能应用的过程当中。人工智能应用当中的信息安全,要实现什么样的目标?我们可以结合上面的内容归纳一下。
基于我的理解,人工智能应用的信息技术体系有如下几个层面:首先从感知层,主要是各类传感器采集信息的过程,这里面怎么做到安全可控?要求是程序员设定的采集要求和范围,保证信息采集的真实性和可靠性。传输层,采集过程要进行处理,进行反作用,靠的是基础网络,涉及到传输过程的安全。数据层,可能进行数据汇聚,通过大量数据的分析和协同,来产生新的知识和价值。应用层,我理解就是服务,同时也是控制,一方面提供服务,对终端要进行反控制,大概是一个有机的循环回路。里面每一层都涉及到数据的安全问题。仔细分析的话,有身份识别,这个人和设备是不是可信的,是不是有正当权限。传输和存储中的数据的保护,包括数据的可控性、真实性,还有可溯源、可追溯。如果它在传输或者存储过程当中进行了篡改,并非真实的数据,这样会导致一个非常不好的结果。所以我要保证大家的数据能够进行有效的汇聚,然后既保证数据所有者的权益,同时又能够通过这种大数据的汇聚产生价值,在可控的范围之内。这里面的安全问题也是现在研究的重点,也是难点,也是现在正在攻关的问题,包括服务和控制当中的安全。
人工智能应用的安全建设
我们大体分析一下人工智能应用和网络安全之间的关系,以前讲网络安全基本从信息系统来考虑,现在我们是把人工智能从采集到传输、存储、分析、利用、控制这几个层面来分析。我觉得归纳来看,人工智能应用的安全问题是和原来信息系统安全问题有很多是一致的,当然它也提出了一些新的问题,比如说刚才讲的服务和控制,其它的大体上还是共性的问题。
我认为从现在开始就应该重视里面的安全问题,我们既要讲应用,同时也要考虑把安全和应用建设同步发展,不要以后出了问题再反过来再去打补丁,这样代价就太大了。在人工智能应用的安全建设中,一方面应该是要政府主导,深入分析人工智能应用建设中的安全需求,进行顶层设计,提出安全要求。加强安全制度的建设,特别是一些安全准入制度,要提出一些检测方法和机制。我觉得这些是政府应该做的,因为人工智能随着它的领域越来越宽、越深入,它对我们的社会,对每个人的影响都是很大的,所以应该有顶层的安全设计,要有一个门坎,相当于一个准入制度,包括一些安全的标准和评估的方法。这应该提前去做,而不要等着出了问题再考虑,再打补丁。同时,企业应该从各个层面,包括感知、传输、分析协同、服务控制等方面建立安全标准。这里有两个积极性,一个是政府主导,还有一个是企业主导,既要重视机制的保障还要重视技术的保障,使人工智能的应用和网络安全建设同步发展,这个是我的一个建议。
网络安全中的人工智能
这里面特别要关注的是和人工智能相关的几个技术问题:
一是身份识别和生物特征识别问题。网络安全有这种问题,人工智能应用当中同样也有这个问题。现在基于生物特征的识别技术大家可能经常用,实际上从专业角度来考虑都还有一些问题——技术并不是十分成熟。例如身份识别,核心是密码技术,看起来这个技术上已经成熟了,但是因为人工智能的应用很多,比如说基于轻量级的设备或者是移动设备以及一些便携的智能设备,这里如果要利用现在成熟的密码技术会有一些问题,因为它的计算能力还比较弱,这时候需要在原来针对信息系统的身份识别基础上加以改造。特别是针对移动设备,应用的密码技术主要是PKI技术,就是公钥密码基础设施,但是对于这些轻量级的设备来说就不是特别适合,就需要我们建立轻的体系。
生物特征识别也存在类似问题,现在很多厂家互相比谁推的新产品比较快,想通过养成用户的习惯把整个的领域快速的占领,但实际上里面隐患是很多的。这些技术并不成熟,主要是生物识别技术没有建立一个安全的逻辑链条。刚才前面分析的信息安全的基本属性,实际上是采集的数据从传输到使用,要保证数据的使用能够回溯,要始终保持真实性,而我们现在很多的技术,是没有这个环节的,这个不能保证后面的数据和前面的逻辑上能够建立一个紧密的联系。现在这样的系统看着挺好,但是实际上是很脆弱的,对于一些小额的、不太重要的应用还可以,如果是一些重要的应用的话,还是存在很多问题的,这也是当前我们在考虑的问题。生物特征要和经典密码有效的结合,这样才能使得数据的加密密钥,到完整性认证到数字签名,每个数据包都建立有效的连接。哪一个数据包被改了,或者少一个、多一个都能够被发现,这样整个过程才是安全的,所以这是需要好好研究和进行攻关的安全问题。
第二个方面是移动安全。现在我们各种智能应用大多基于终端手机,相对来说手机比PC机更不安全,因为它是一个消费类电子产品,使用便捷、成本低、更新快,安全隐患更多,而且更难解决,要想把它的体系建立起来难度更大一些。
第三个方面是大数据安全。因为人工智能是数据驱动,大数据安全比一般的意义上的云安全更困难一点。云安全一般讲的是信息放在云上,只有我自己使用,这个安全性相对还好解决。因为安全模型的存在,云的管理者是不可信的,这些信息即便放在服务器上,但是管理者不能看到我的信息。大数据安全就更复杂一些,很多用户的数据都放在云上,要进行融合,进行加工,不同用户之间的信息合在一起进行处理,这个难度就比较大了。每个用户要自己进行加密,要不然就没有办法保证数据的安全,但是加密以后怎么能让别人也用呢?或者是在一定限度内,哪些信息可以共享?如何让别人也能使用?所以这里既需要加密保护,又要能够有效地进行数据的融合和利用,这就非常难解决。
这里面有三个问题,一个是加密的检索,还有数据的完整性,我们把数据放在云上,要保证它是真实的,没有被篡改过。如果数据放在云上,实际上却被替换了,这个危害是非常大的。这个大家都能理解,需要有效的控制,知道这个数据是安全真实的放在这个地方,而且还能够被别人有效地检索,有些信息是进行加工的时候在一定范围内被别人能够使用,这里面有一系列的安全问题,所以一般称数据的完整性验证,叫加密检索。
另外就是安全的计算外包,大家的数据合在一起,我要进行加工,但是这个数据本身我们不能被看到,看到的只是加工的结果。比如说医疗大数据,很多医院把病人的数据放在上面,这个是非常好的想法,对医学的进步,对健康事业发展起到很好的作用。但是现在为什么大家不愿意拿出来?因为涉及到很多的隐私问题,怎么能保证它不被泄露?但是有一些信息,比如说性别、年龄段,这些是可以共享的,如果没有这样的数据,也不能叫做医疗大数据了。怎么能够保证每个人的数据都参与到计算,又能对个体进行有效的保护?这里的问题就是既要应用还要解决安全问题。这个对于我们的智能应用,包括智能交通、智能医疗是非常重要。
第四个方面,是系统的脆弱性。现在的网络攻防态势非常严峻,主要是利用信息系统本身的不完善、脆弱性。人工智能应用也是一个程序、一段代码,如果它有严重的漏洞,会被恶意的代码取得控制权,尽管有身份的识别和认证,但是实际上是被别人控制,可以想像会产生很大的危害。系统脆弱性现在是网络安全最重要的问题,就是如何发现这种脆弱性,因为这个脆弱性是不可避免的,当规模非常大的时候,如何保证系统安全,这也提出了一系列的研究,包括一些安全技术和体系。从技术角度来说,涉及到人工智能的安全问题有这四个大方面,希望大家重视。
人工智能在网络安全领域也得到很多的应用,在主动安全防护、主动防御、策略配置方面发挥的作用越来越大,但是现在还处于探索阶段。有很多领域,大家发现用人工智能来解决可能比较好,比如如何发现入侵检测、识别垃圾邮件,蠕虫病毒、僵尸网络。大家在发现和阻断未知类型的恶意代码等问题,包括一些基于专家系统的安全规划,如何提高安全运营的中心效率,还有对风险评估、威胁情报等方面都做了很多的探索,但是仍处在探索阶段,还没有形成一个共性的认识,或者是上升到理论。所以我也只能罗列一下,包括前面讲的智能化的漏洞挖掘,还有基于人工智能技术做生物特征的提取、做假冒发现。另一个探索是基于机器学习做口令分析,因为身份识别最基本的就是基于口令,它可以分析你的口令有什么问题。作为攻击方,可以把一定人群的所有的口令汇集在一起,提炼一些趋向性的规则,使得命中的概率很大,所以对攻击者很有帮助。反过来说,对我们消费者也有保护作用,如果口令设得太弱,系统会建议修改一下。另外一个探索是基于实名网络密码算法的分析,把密码算法给一定的量让你去学习,最后你能不能把算法进行有效地刻画,这个作用是很大的,也是密码算法设计当中的一个有效的工具。通过这个检测,如果你用比较小的网络规模,层次也不深,就能够把密码算法做一个分析,证明这个算法设计是有问题的。
从去年开始,我们做网络安全的机器人大赛,实际上就是程序和程序的对抗,这里面有防御方和进攻方,这样做很有意义。
人工智能技术的蓬勃发展,也必然对网络空间安全带来重大的机遇和挑战。最后我想用张钹院士的一句话来归结一下我今天讲的一些主要想法:“网络安全促进人工智能的未来发展,人工智能改变网络安全的未来!”这是张钹院士在之前的一个会议上讲的,我觉得说得非常好。我借这句话与大家做一个分享,谢谢大家!