吴文俊人工智能科学技术奖
生物医学人工智能

《基于多模态脑影像数据库分析云平台助力脑科学与脑疾病研究》

2021年05月20日   来源:中国人工智能学会     

8362


2021年4月10日-12日,吴文俊人工智能科学技术奖十周年颁奖盛典暨2020中国人工智能产业年会在北京和苏州同期圆满成功举办。上海谦狐科技有限公司联合创始人张义受邀在苏州工业园区希尔顿酒店,2020中国人工智能产业年会—生物医学人工智能专题论坛上发表主题报告《基于多模态脑影像数据库分析云平台助力脑科学与脑疾病研究》。


以下为演讲实录:


我这边主要介绍我们在脑影像数据库的建设以及分析平台建设方面的工作。首先介绍一下我们基于什么样的契机和背景考虑做这么一个平台。



大家知道现在人工智能很热点,人工智能里面很重要的一个是数据,做相关的人工智能研究的都知道一个数据是ImageNet,这个数据库2010年开始,各类竞赛都在用这个数据库。但是在以前大家用传统的分析方法,量没有那么高的时候,识别率大概70%左右。但是我们人类识别的极限大概是90%—95%之间。在2016年,大家知道AlphaGo战胜李世石之后,深度学习的算法,人工智能的热点又起来了,基于这个算法,后面的数据量也不断地提升,深度学习方法,ImageNet相关的识别率超过人的识别准确率。



大家知道现在矿石要提炼出它的价值,我们要把数据的质量得到一个很好的提升。数据这一块,数据的重要性其实有几个维度:一个是它的尺度,需要我们有多模态的数据。第一个就是说数据的质量要得到很好的标注,然后得到我们有价值的数据。第三个是数据的规模。



现在医疗这一块,医院的数据有很多,中国的人口基数也很大,但是医疗数据在临床研究和医药开发上面有很好的应用。我今天主要介绍我们神经数据这一块,“十四五”规划已经把神经脑科学研究写在里面,神经的数据现在开展了很多项目,数据也有意识的把它收集起来。



在2018年的时候,国家已经很重视,鼓励大家把我们的数据做更有效的积累,这样我们才可以有更可挖掘的原始的矿。数据经过长期积累之后,储存、分析、管理、利用,包括我们的共享,中间的环节有很多工作是可以做的。



比如说现在在脑科学领域的研究,大家可能知道的几个知名数据库目前是国外的,比如说英国的数据库biobank,收集了十多万人影像的数据,也是多模态的数据,大家对这个数据库利用也很高。还有美国的Framingham社区,他们很早就开始收集这个数据,经过了几十年长期的随访。目前大家对这个公开数据进行挖掘、分析,心血管领域发很多有意思的研究包括成果。


我们基于这样的背景,基于脑影像数据,因为医院或者脑疾病的数据80%都是脑影像的数据,我们基于脑影像数据为基础的数据库,再结合我们疾病相关的,认知评估、行为量表、临床信息等其他模态的数据,进行整体的管理、融合之后,利用我们后面分析的算法,为我们脑疾病和相关的一些诊断助力。



对我们的系统取名叫“宝藏”,做的主要工作对我们各模态的数据进行汇集,中间有很多数据标注的工具也都在我们平台上面,帮助大家对原始数据进行很好的质量的挖掘。

第一个,构建计算系统,为我们临床研究,包括现在有很多多中心的研究去服务。



我们所有数据的整合、收集,采用了国际BIDS标准,为了方便后面数据的共享和开放去考虑。这有一个好处,你的数据积累之后,基于统一的标准,这样共享的时候不用做特殊的格式转换,你的数据经过长期积累,可挖掘的数据就会越多。



我们这个系统有六大功能模块:第一个是数据采集模块。可以很方便的跟医院各类医疗设备的仪器直接对接,进行数据采集。第二个我们把采集数据自动入库,除了跟医院仪器新采集的数据以外,也跟对外面合作的历史数据,我们可以清洗、入库。再一个,我们有高性能计算系统。这个系统有两块,结合后面智能分析系统,提供标准化的数据分析服务;另外一块很多科研人员可以根据他的需求去部署各种开放的应用环境,给每个用户提供私有化的桌面,大家可以在上面自己做计算分析。



我们数据的采集平台,基于标准的DICOM数据传输协议,所有的数据传输过来之后,我们会集中的进行存储,按照项目、疾病会自动的做分类,同时会把信息自动抓取,写到数据库里面,方便后面做检索和查询。还有一个很重要的工作,医院的数据有很多,但是我们要把采集过来的数据做一个质控。大家根据自己的需要,把一些质量比较差的数据自动的做一些剔除。


数据采集之后,我们给一个数据库。医院大家知道有一个PACS系统,但是PACS系统专门为临床服务的,量也比较小。我们这一块主要为临床科研相关的研究服务的,我们可以理解为科研的PACS。



大家知道以前医院开展各个课题的研究,数据掌握在各个课题组负责人手里面,科研数据是比较分散的,没有有效积累的,数据的价值没有得到充分的利用。不管是临床的还是科研的,我们经过这个都可以传到我们平台,自动的做一个归类,可以做检索,同时也可以为后面共享。


我们服务了很多中心的研究,比如说有一个牵头单位,但是下面有很多参与单位,参与单位的数据不是直接跟设备对接的,我们相当于拷过来的数据通过离线批量方式导入到数据库里面,跟本地的库做一个融合。



数据管理起来之后,是应用。计算的平台,这一块更多的做一些服务,以前大家都有服务器或者都有自己的笔记本做应用的分析,但是这个资源是非常有限的,我们相当于为每个单位建立自己私有的计算平台,然后我们会把相关的应用分析的工具在上面部署好,每个用户开一个账号,有自己独立的可分析的桌面,然后自定义的去定义分析的环境。


同时我们也集成了很多工具,标准化的流程工具,为了方便医生更好的使用,因为医生对数据分析和计算机的知识没有那么强,我们相当于把一些主流的算法都集成在平台上面。


比如把多模态的影像,结构的、功能的,包括TDI的,多模态影像标准预处理的流程,集成到平台上面,用户打开网页,各个模态的数据选择一下,我们在后台利用平台高性能计算的资源,快速的把各个模态的数据自动的按照标准模态计算出来,这样从不同的角度回到科学问题,我们可以同时选择批量多个base,快速的,这样节省大家计算的时间。



另外我们还做了一些对脑的结构化数据做一些体积和定量的分析、计算。包括脑白质病变,自动的会检测、标记出来。退行性疾病,我们现在也跟一些医院合作,请了一些医生把原有数据做好标记之后,后面利用深度学习的方法构建模型,为一些疾病地诊断出一些相关的结果。



我们还做了一个跟中山医院合作的,主要针对脑卒中这一块,目前已经在很多单位得到应用了。在公立医院,他们做脑卒中,扫描影像数据,传到后端平台,进行分析,得到结构化的报告。这个结构化的报告跟医院HIS系统打通的,我们可以知道哪个医生看了哪些病,相关医生只能看到他相关病人的。


前面我们集成了这些标准的算法,上面举了其中的几块,但我们这个平台是开放的。除了我们讲的方法以外,把数据有效的整合起来之后,跟各个高校、公司合作的时候,可能以前是把原始数据贡献给相关的单位。有这个平台之后可以很快速的把各个厂家合作的算法直接部署在平台上面,我不需要给原始数据,私有化、本地化的平台做计算建模,得到特征,特征的数据不涉及病患的隐私信息,可以得到有效的共享。


我们经过标准的分析结果,都是可以建特征库的。这个结果可以按不同的软件或者选择的相关的不同模板以及分析的不同脑区,选择你感兴趣的特征,就能查到特征库相关的结果。这个特征库又可以与病人原始的信息,这不是独立的,跟各个系统是直接关联、对接的。


特征库建立之后,相当于是知识库。知识库上面,可以结合特征库挖掘的算法,得到我们相关的知识图谱。因为我们脑相关的疾病,目前在脑相关疾病这一块,双相障碍抑郁症、精神分裂症、强迫症这四种精神疾病我们已经用这个标准,经过标注数据,分析得到一个知识图谱的数据库。

这个数据库,后面相当于已经发布了,有相关研究的医生,基于这个知识图谱可以先查一下相关的研究,我感兴趣的脑区、特征,可以查询到数据特征之间的分布,数据库里面的数据特征分布,有新的数据也可以分析集成到知识图谱,对知识图谱进行补充。



不同的效应量的展示,一个是柱状图、一个是大脑图谱。还有我们会描述不同疾病大脑状态之间的差异,我们看到选择不同的疾病,每个脑区对应指标的情况下之间距离的差距,距离越远,大家看到这个线条,越粗代表距离越近,越细相当于在指标上面的差异也就越大,这相当于大家通过图表的方式可以直观的看到相关的我们感兴趣的结果。



目前我们整个平台在国内相关的,从事脑相关的研究单位,得到很多单位的验证、应用,帮很多单位已经做到标准化数据清洗的工作。后面也希望跟大家有合作的机会,在应用这一块、方法这一块。因为我们平台是比较开放的平台,大家有比较新的方法我们可以合作在上面,做一个很好的整合,然后共同去应用。

组织机构

主管单位
中华人民共和国科学技术部
国家科学技术奖励工作办公室
主办单位
中国人工智能学会

奖励资质