吴文俊人工智能科学技术奖
INNOVATION TEAM
创新团队
Home > 创新团队 > 正文

互联网信息摘要与机器写稿关键技术及应用

2018年01月25日   来源:中国人工智能学会     

1201

万小军,北京大学计算机科学技术研究所研究员,博士生导师,语言计算与互联网挖掘实验室负责人,在北京大学获得学士、硕士与博士学位。研究方向为自然语言处理与文本挖掘,研究兴趣包括自动文摘与文本生成、情感分析与观点挖掘、语义计算与信息推荐等,在国际重要学术会议与期刊上发表高水平学术论文100多篇。

  专家简介

  万小军,北京大学计算机科学技术研究所研究员,博士生导师,语言计算与互联网挖掘实验室负责人,在北京大学获得学士、硕士与博士学位。研究方向为自然语言处理与文本挖掘,研究兴趣包括自动文摘与文本生成、情感分析与观点挖掘、语义计算与信息推荐等,在国际重要学术会议与期刊上发表高水平学术论文100多篇。担任计算语言学顶级国际期刊Computational Linguistics编委,TACL常务评审委员(Standing Reviewing Committee), 先后8次担任自然语言处理领域一流与重要国际会议领域主席或SPC(包括ACL、NAACL、IJCAI、IJCNLP),担任相关领域多个国际顶级与一流学术会议(ACL、SIGIR、CIKM、COLING、EMNLP、NAACL、WWW、AAAI等)程序委员会委员。研制了自动文摘开源平台PKUSUMSUM,与今日头条合作推出AI写稿机器人小明(Xiaomingbot),与南方都市报合作推出写稿机器人小南等应用系统。2017年,获得“中国智能科学技术最高奖”——吴文俊人工智能技术发明奖二等奖。

  项目简介

  互联网新闻数量呈爆炸式增长,是数亿互联网用户获取资讯的主要信息来源。用户期望快捷、实时地获取新闻资讯以及阅读新闻摘要,然而,目前互联网上新闻文本的生成与新闻摘要的提炼主要由专业编辑人工完成,非常耗时耗力,无法满足实际需求。

  针对上述问题,本项目深入研究了互联网文本类信息摘要与机器写稿技术,主要技术创新包括:1) 针对多文档综合摘要需求,发明了基于流形排序与多层次信息的多文档摘要自动提取方法,通过融合篇章与语义信息有效提高了新闻摘要质量;2) 针对单文档新闻摘要需求,发明了一种对文档集内批量单文档进行协同式摘要提取的方法以及一种摘要与关键词联合抽取的方法,并设计了一种全新的图注意力神经网络生成模型,实现文本新闻概括和摘要生成;3) 针对跨语言信息获取需求,发明了基于机器翻译质量预测和联合优化的跨语言摘要方法,实现了英文文本新闻的中文摘要生成,有效克服跨语言摘要过程中对机器翻译质量的依赖问题;4) 针对长篇体育报道自动生成的需求,发明了由体育直播文字自动生成长篇新闻报道的方法,通过融合体育领域知识进行智能语句筛选,可实现高质量长篇新闻报道的实时生成。

  基于相关成果,该项目发表高水平学术论文80多篇,其中国际顶级的ACM/IEEE Trans.期刊和CCF A类长文40篇,获评ACL2017杰出论文,受到来自加州大学伯克利分校、康奈尔大学、伊利诺伊大学香槟分校、匹兹堡大学、东京大学、微软研究院等同行学者的广泛关注和正面引用,总引用次数超过3000次(根据谷歌学者统计)。申请发明专利22项。以上述技术为核心,研制了文档自动摘要系统与小明写稿机器人,实现了针对多类型多语言文本的自动摘要,并能自动生成高质量新闻稿件。已推广应用于今日头条,自动生成新闻摘要5亿余篇,自动撰写与发布新闻7308篇,服务于近10亿用户,总计新闻阅读量3189万次,受到近百家国内外媒体的广泛关注与报道。

  实验室简介

  北京大学计算机科学技术研究所(以下简称计算机所)是北京大学的二级科研教学机构,研究方向主要包括图形图像处理技术与数字出版应用、数字内容计算与知识服务技术研究、网络视音频处理与检索技术、数字文档处理技术等,建有硕士、博士培养点及博士后流动站,以及 “电子出版新技术国家工程研究中心”、“中国文字字体设计与研究中心”等科研基地。计算机所面向国家需求和产业需求,围绕计算机技术在印刷、新闻出版领域的核心应用开展关键技术的创新性研发工作,取得了多项重大科研成果,获国家科技进步一等奖2项,2次入选中国十大科技成就,获国家科技进步二等奖3项,2项成果被评为信息产业重大技术发明,2项成果被评为中国高等学校十大科技进展,多次促进我国相关行业实现了技术变革,如引发我国印刷业革命的汉字压缩技术和激光照排系统,产生了重大的社会与经济效益,为我国计算机应用事业的发展做出了重要贡献。随着信息技术的迅速发展,计算机所将从面向印刷、新闻出版领域的技术研发,拓展为媒体智能化技术研发,凝聚媒体智能化技术研究平台,培养出具有国际前沿水平的技术人才,促进具有自主创新技术的媒体智能化产品和服务的发展。

  今日头条人工智能实验成立于2016年,专注于人工智能领域的前沿技术研究。依托今日条的海量用户数据,实验室致力于推动整个领域内基础技术的深层次研究,并将研究成果应用至今日头条的产品中,更好的利用机器帮助创作、分发与互动,促进人类信息与知识交流的效率与深度。

  同时,今日头条人工智能实验室也将针对领域内的长期性问题和开放性问题进行研究拓展,帮助公司实现对未来发展的构想。

组织机构

主管单位
中华人民共和国科学技术部
国家科学技术奖励工作办公室
主办单位
中国人工智能学会

奖励资质