53320
李国杰院士:当摩尔定律临近极限之际,大数据和AI计算却出现了指数级增长,计算机系统结构将成为关键的推动因素。然而,目前只有不足1%的云服务器为AI加速服务,要让AI变得无处不在,吞吐量需要提高100倍以上。
李国杰院士:当摩尔定律临近极限之际,大数据和AI计算却出现了指数级增长,计算机系统结构将成为关键的推动因素。然而,目前只有不足1%的云服务器为AI加速服务,要让AI变得无处不在,吞吐量需要提高100倍以上。
“发展大数据和人工智能不能停留在算法层面,必须扎根在系统结构和软件理论的深土中。
“发展数字经济要排除两方面的干扰,一方面是对新一代人工智能技术麻木不仁、墨守成规,导致错失发展机遇;另一方面是不顾国情、盲目冒进,对新技术抱有不切实际的幻想。”李国杰说,要扎扎实实地把大数据和人工智能融入实体经济,为经济发展注入新动能。
10月25日,为期三天的2018中国计算机大会在杭州开幕,中国计算机学会名誉理事长、中国工程院院士李国杰以一组数字引出上述观点。他说,发展数字经济要改变头重脚轻、基础薄弱的局面。
本届大会主席、中国科学院院士、北京理工大学副校长梅宏表示,信息技术正从助力经济发展的辅助工具向引领经济发展的核心引擎转变,数字经济正在逐渐成型中,即将进入信息技术带动社会经济发展的爆发期和黄金期,对计算机从业者来说机遇和挑战并存。
本次大会聚焦大数据推动数字经济,与会专家学者热议数字经济时代面临的信息技术问题和挑战,并对计算机软硬件技术与系统、人工智能、新型计算模式、区块链、大数据与数字经济等方面的前沿热点,以及多学科交叉发展趋势进行充分研讨、分享成果。
以下为李国杰院士的演讲全文
我早已不在第一线做研究开发,刚刚听 Robert E.Kahn 演讲,他年纪这么大了还在做研究,真的让我非常佩服,我现在只能当个大数据和人工智能的粉丝,起啦啦队员的作用。下面讲的技术都比较宏观。我不是经济学家,下一位讲者是北大经济系的孙祁祥教授,是真正的经济学家。所以接下来涉及一些跟经济相关的内容时,我会讲得稍快,或者干脆跳过去,以免在经济学家面前班门弄斧。
发展数字经济要排除「极左」和「极右」的干扰
这次演讲我强调的一个中心思想是,发展数字经济得排除左右两方面的干扰。极右的干扰是对大数据、人工智能等新一代技术的无视、墨守成规,导致错失发展机遇;极左的干扰是不顾国情,盲目冒进,对新技术抱有不切实际的幻想。
现在大数据和人工智能已经被列为国家战略,我们要满腔热情地拥抱驱动数字经济的新技术,但是不要只做表面文章,而应扎扎实实地把大数据和人工智能融入实体经济,为经济发展注入新动能。
我今天的演讲题目是《发展数字经济值得深思的几个问题》,我只是提出问题,没有给出答案,希望与大家共同研讨。
2017 年我国电子信息产业的收入达到 18 万亿元,大数据相关产业收入只有 4700 亿元(国家大数据发展规划要求 2020 年大数据相关收入达到一万亿元)。去年一年,我国大数据核心产业的收入是 234亿元(我国人工智能产业的收入大概在 200 亿元左右)。
大数据核心产业只有230 亿元是什么概念?中国护肤面膜产业的年收入是 236 亿,说明大数据核心产业和人工智能目前只相当于面膜产业的规模。大数据核心产业收入只占电子信息产业总收入的千分之一左右,如此弱小的大数据核心产业如何能成为推动经济转型发展的新动力,重塑国家竞争优势的新机遇?
我的理解是,高质量发展的必经之路是从资源要素驱动转变为创新要素驱动。数据技术的本质是「认知」技术和「决策」技术。它的威力在于加深对客观世界的理解,产生新知识,发现新规律。大数据是数字经济关键的生产要素,它的作用是使各类经济活动朝着更加高效率、更高质量、更具备可持续性、更智能化的方向发展。
大数据的影响难以被统计
大数据的影响难以被统计,这是因为数字经济的统计中包含了许多传统产业的贡献,我们经常讲融合型数字经济的占比,这点一直让我感到困惑,数字经济的增量究竟在哪里?上世纪 80 年代,经济学家索罗提出一个悖论:到处都看得见计算机,就是在生产率统计上看不到。今天可能有一个相反的数字化悖论:在统计上常看到数字化的巨大作用,但在生产活动中还不易发现数字化的价值。实际上,大数据的作用不仅体现在经济增长上,更多体现在生产方式、生活方式、科研模式、政府管理模式的改变和福利改进,特别是人们思想观念和认知方式的改变上。别太在意数字经济规模的统计数字。
现有使用的统计标准不适合数字经济,因为数字经济中有许多免费的应用没有计入 GDP(伊甸园的 GDP 是 0)。数字经济带来产品质量的巨大改进、产品种类的极大丰富、用户体验的明显改善,都无法在 GDP 中反映。
不同的机构统计的口径不一致,测算的数字经济规模有几倍之差。根据联合国 2015 年的统计,全球数字经济规模只有 2.5 万亿美元,比中国信通院公布的中国数字经济规模还小。
我们需要关注的不是在原来的经济大饼中划出多大一块算成数字经济,而是要关注大数据和人工智能究竟为经济发展贡献了多少新的增量,提供了多少原来没有的新产品和新服务,经济效率和用户体验提高了多少。
有些咨询公司提出一些新的统计模式,如麦肯锡提出 iGDP,波士顿咨询提出 eGDP 等,试图更好地体现数字经济的影响。
数字化的价值更多体现在无形资产上,1975 年标普 500 公司无形资产只有几千亿美元,占总资产的 17%,2018 年无形资产达到 2 万亿美元,占总资产的 83%。苹果、亚马逊等全球市值最高的几家公司都是数字公司。有人认为不要看重市值,因为这只是投资人的估值,但我觉得市值是购买一个公司的价格,市值与公司收入(利润)的关系如同母鸡与它下的蛋的关系。数字经济的代表性企业市值最高,超过所有的传统企业,这说明数字经济代表着未来经济的发展方向,无形资产将会变成真金白银。
大数据与人工智能就像一对双胞胎,我将它们合称为数据智能,其巨大作用本质上是整个信息技术的作用。信息技术酝酿了几十年,现在是见效的时候了。
上面这张图显示,电气化时代和信息化时代生产率的增长曲线相当吻合。前期有段时间较慢,过了一段时间后就变快了。21 世纪是提高信息技术生产率的黄金时期。数据智能技术的兴起得益于计算能力的提升,存储成本的降低和网络通信技术的普及。从某种意义上讲,大数据的胜利就是计算技术、特别是摩尔定律的胜利。数据智能目前还是使能(enable)技术,它不是像电力一样的通用技术,从使能技术到通用技术需要一个大规模普及的发展过程。
创新驱动=全要素生产率驱动
谈大数据的作用不能光看量和增长,还要关注质的变化。我们更多要从全要素生产率(FTP)的角度来理解大数据和人工智能。
创新驱动就是全要素生产率驱动。与蒸汽机创造了铁路产业、内燃机创造了汽车产业、发电机创造了电力产业不同,大数据与人工智能并没有在现有的支柱产业之外,创立出新的支柱产业。换句话说,大数据与人工智能本质上是提高效率、改善配置的优化技术,理解大数据和人工智能对经济发展的巨大推动作用,要从提高生产率上找原因。
随着进入新时期,我国人口红利消失,资本回报也在下降,转向创新驱动就是转向全要素生产率驱动。
上面这张图显示,只有日本在 1900-1929 年 TFP 的贡献在 50% 以下。我国大多数年份的 TFP 贡献率都在 30% 以下,1995-2005 年维持在 30% 左右,2006-2013 年降到 21%。
2014 年,我国 TFP 只相当于美国 43% 的水平。中国 TFP 年均增速必须达到 2.7%(美国 1%),才能在 2035 年超过美国TFP 60% 的水平。请大家注意, 2008 年以后,我国的 TFP 没有上升,反而下降,每年增长不到 2%。 2013 年开始有点回升,但是对经济增长的贡献率也只在 20% 左右。我们讲大数据、人工智能,但目前这些技术并不能明显促进 TFP 的提高。
国家信息中心的学者对我国TFP 做了分解,我很佩服他们,竟然能将相关性这么强的东西区分开来。全要素生产率 TFP 科技分解为技术进步、技术效率、规模效率和配置效率的乘积。也就是说,TFP 的增长率等于技术进步、技术效率、规模效率和配置效率的增长率之和。
分解出的结果表明,对我国经济增长贡献最大的是规模效率,配置效率其次,技术进步排在第三位,它的贡献在下降,贡献最小的是技术效率。
在过去,工业经济追求的是规模经济,强调分工、专业化、单个品种的规模。现在的新经济追求的是范围经济,强调品种的多样化和个性化。然而个性化和通用性是矛盾的,这就是我常讲的「昆虫纲悖论」。以后的物联网、人工智能应用可能像昆虫一样,有很多品种,你想把这些应用规模化生产,就会产生矛盾。只能靠大数据和智能技术解决这一矛盾。
强调数据驱动要关注提高技术效率。技术效率是指在给定的投入下获得最大产出的能力,要在提高技术效率上下功夫。2001-2013 年中国技术效率的年均变化率是负 0.02%,2008-2013 年期间,中国大数据企业的技术效率平均变化率为负 5.9%。技术效率低是我国的明显短板。
美国德克萨斯大学对多个行业和大型企业的数据利用率、人均产出率进行了广泛研究,结果显示,数据利用率提高 10%,财富 100 强企业人均产出就会提高 14.4%。一个城市、一个地区数字经济发展得好不好,不是看添置了多少设备,采集了多少数据,主要是看投入产出的效率提高没有。
目前大数据分析的能效非常低。高性能计算已经到 G 级了(即每焦耳完成 10 亿次操作,GOPJ),而大数据操作,采用 Hadoop、Spark,只能做到每焦耳完成千次操作,能效与高性能计算相差 4-5 个数量级,更不要说与已经实现 TOPJ(即每焦耳万亿次操作)的寒武纪芯片相比了。
用历史眼光判断技术的作用
近两年,人工智能火爆,许多人认为信息时代已经过去了,大数据的热潮也已经过去了,现在已进入人工智能新时代。究竟现在处在什么时代,需要有历史的眼光。作为一种基础的科学范式,数据科技的影响可能要比人工智能更持久,但是人工智能技术更具有颠覆性。
信息时代与工业时代一样,会延续较长时间。人工智能的复兴标志着信息时代进入智能化新阶段。现阶段的人工智能本质上是一种计算技术。信息时代将走过数字化、网络化、智能化等几个阶段。说现在已告别信息时代,进入了智能时代,有点牵强。
我们绝不能低估大数据和人工智能的战略作用,但也不能对人工智能、大数据抱有过高的、不切实际的期望。我国各地开了很多人工智能大会,已经起到了很好的造势作用,接下来就要强调落地生根,务实务实再务实。
目前人工智能有点「围城」的味道,城里的人想出来,城外的人想进去。真正做人工智能研究的专家一般讲话较谨慎,不讲过头话,吹嘘人工智能万能或散布人工智能威胁论的大多不是真正做人工智能研究的专家。
有学者统计,1956 -2018 年,人工智能领域共发表 29 万多篇研究文献,包括8635 篇神经网络方面的文章,5023 篇机器学习方面的文章,6254 篇模式识别方面的文章。这些论文的爆发期集中在上世纪。
深度学习的发明者Hinton 最近指出,「我的观点是把反向传播全部丢下,重启炉灶。」
美国三院院士乔丹教授认为,在未来三十年内,人工智能实现不了创造性和变通的灵活性。目前人工智能技术还不够强大,远没有成为一个理论全备的学科,人们对 AI 的期待太高了,我们还没有步入可以利用我们对脑的认识来指导搭建智能系统的时代。
今年诺贝尔经济学奖得主威廉·诺德豪斯(索罗的弟子)2015 年曾发表一篇名为《我们正在接近经济奇点吗?》的论文,论文指出:大部分的经济指标都不支持「奇点即将来临」的判断。
有些经济学家认为,经济发展存在 50-60 年的长波周期,大数据和人工智能可能引发信息时代新的经济长波。第四波的重要推动力是电子计算机,第五波的重要推动力是互联网、移动通信、软件。现在我们处于第五波的衰退期,不是高速发展期,如果在这个时期有新发明爆发,可能在 2030 年左右又会出现一个新的波,第六波的主导技术可能是人工智能、大数据、物联网,还包括生命科学等新技术。
本世纪初,美国工程院请院士投票,表决过去一百年哪些技术深刻影响了 20 世纪。排在最前面的是电力、汽车、飞机、自来水等,计算机虽然已有半个多世纪的历史,却排在第八。一项技术对世界的影响力要一百年后才能看出来。几千年来,对人类生活影响最大的技术是油灯,因为没有它晚上就是黑暗的。
20 世纪初没有人想到互联网和手机会如此普及。人类未知的领域远远大于已知领域,21 世纪末流行什么现在同样很难判断。大数据和人工智能会不会是 21 世纪最伟大的技术现在下不了结论。未来 100 年生物科技、健康技术、新能源和新材料的影响也许不亚于人工智能。
数字转型转什么
「数字化」在英文中有两个名词,一个是 Digitazation,另一个是 Digitalization。Digitazation 是指信息的数字化,Digitalization 指改变商业模式的业务流程数字化。现在追求的数字化转型是生产模式、运行模式、决策模式全方位的转型。摩拜单车就是数字化转型的典型案例,通过采用 GPS 定位和 4G 通信技术改造了传统自行车产业。
目前我国的服务业占比是50%,与我国人均 GDP 相近国家的服务业占比已到 60%。我国服务业比重仍然偏低。
数字化转型的第一个目标是改变产业分布,大力发展生产性服务业。我们国家生产性服务业占比远远低于美国和韩国。大数据和人工智能的贡献在产业分布中不能直接看到,其作用必须融合在其他的产业发展中。
第二个目标是由传统企业转向数字化企业。我国的高档数控系统、数字化工具测量仪器和国外相差 20 年,现在有应用场景的地方没有智能产品,有智能产品的地方又没有应用场景,这两处存在鸿沟。
第三个目标是要大力发展科技型中小企业。大企业是中小企业技术创新和成果转化的市场,如果大企业搞大而全,什么都要自主开发,什么都要讲自主知识产权,那么就封闭了创新链条。德国将强大的中小企业群称为「隐形冠军企业」。德国和日本很多公司几十年只做一个产品,做到世界闻名,效益非常好。我国要鼓励科技型中小企业向高精尖发展,每一个行业都应当有既懂数字化技术又熟悉行业业务的小企业。政府主导较适于追赶,不适应创新驱动发展。创新基于市场导向,由企业家精神铸就,创新驱动应以竞争政策为主。
发展数字经济要改变「头重脚轻」的局面
在全球上市企业 2000强名单中,美国有 14 家芯片公司与 14 家软件公司,中国尚没有一家。我国人工智能基础层、技术层和应用层的人才数量占比分别为 3.3%、34.9% 和 61.8%,而美国分别为 22.7%、37.4%、39.4%,我们的基础人才比例严重偏低,头重脚轻、根基不牢。
在摩尔定律临近极限之际,大数据和 AI 计算却出现了指数级增长,计算机系统架构成为关键的推动因素。目前只有不足 1% 的云服务器为 AI 加速服务。要想让 AI 变得无处不在,吞吐量需要提高 100 倍以上。
下面说几项我比较熟悉的大数据与人工智能基础层的技术突破。
寒武纪 MLU100 的峰值已经达到 166 TOPS 。他们不光做出了智能芯片,在理论基础上同样有突破,从以前的复杂指令系统(CISC)、精简指令系统(RISC)到现在的函数指令系统(FISC)。
海光 1 号高性能通用处理器总体上已达到服务器 CPU 的国际最先进水平,适配国产固件和操作系统,已在近百个用户的数据中心现场成功进行了国产化替代试验。
睿芯高通量处理器由我牵头,是 973 项目的科研成果,提出了时敏数据流体系结构,满足高通量计算场景所需的高并发、强实时需求。
中科院计算所研制的低熵云计算系统在服务器里加了标签后,对于 99% 的用户而言,延迟缩短了 30 倍,解决了云计算中用户体验与系统效率的矛盾。