当前位置: 首页 > 编程日记 > 正文

腾讯天衍实验室联合微众银行研发医疗联邦学习 AI利器让脑卒中预测准确率达80%

近几年,医疗行业正在经历一场数字化转型,这场基于大数据和AI技术的变革几乎改变了整个行业的方方面面,将“信息就是力量”这句箴言体现的淋漓尽致,人们对人工智能寄以厚望,希望它能真正深入临床一线,帮助医生和患者。
 
理想很丰满,但现实却很骨感,在这场大变革下,作为医疗AI成长道路不可或缺的“粮食”,数据成了医疗AI落地的“拦路虎”——我国医疗健康数据领域长期存在的“信息孤岛”问题,不同地区甚至不同医院间的医疗数据没有互联,也没有统一的标准。与此同时,数据安全问题也存在着巨大挑战。

数据问题让医疗AI成了“空中楼阁”,在这一难题下,腾讯天衍实验室联合微众银行联合研发了医疗联邦学习框架,成功地实现了在保护不同医院数据隐私下的疾病预测模型,破解医疗行业数据安全与隐私保护难题。这是联邦学习在医疗健康大数据领域应用的首个成功案例,为医疗大健康的各种潜在应用如分诊诊疗、慢病防控、疾病早筛、医保控费的落地等探索出了新的方向。

首创医疗联邦学习——打破数据壁垒,保护数据隐私

在重大疾病早期筛查和预测领域,如果要成功能建立大数据疾病预测模型,就需要将居民在不同医院的医疗信息与健康档案进行整合与建模。但由于信息系统不统一,医院管理机构对于数据隐私泄露的担忧,和相关数据保护法规的限制,相关机构之间形成了数据壁垒,很少有医院愿意进行数据的共享,这就导致了AI难以在疾病预测领域“施展拳脚”。

在这个问题下,联邦学习成了一剂“良方”。联邦学习是一种新兴的人工智能机器学习框架,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,实现AI协作。

该技术最早由谷歌在2016年提出,而后微众银行则在首席人工智能官杨强教授的带领下首次提出了“联邦迁移学习”,并开源自研联邦学习框架Federated AI Technology Enabler(简称FATE),推动联邦学习技术在行业中的落地。此前联邦学习在金融、互联网、智慧零智等领域已经有多个成功应用案例,但在医疗领域,由于医疗知识的专业性,电子病历的复杂性对联邦学习的构建带来了种种困难。

腾讯天衍实验室则结合自身医疗机器学习与自然语言处理的先天优势,与微众银行共同将联邦学习与医疗深度融合,有机整合医疗模型与机器学习,通过搭建基于联邦学习技术的大数据集中与挖掘平台,开发医疗联邦学习(Medical Federated Learning)技术。

天衍-微众投稿给人工智能顶级会议IJCAI 2020的论文

这一创新技术让医疗行业的数据问题“药到病除”,联邦学习可以绕过医疗机构之间的信息壁垒,不考虑将各自数据做合并,而是通过协议在其间传递加密之后的信息,该加密过程具有一定的隐私保护机制,保证加密后的信息不会产生数据泄露。各个医疗机构通过使用这些加密的信息更新模型参数,从而实现在不暴露原始数据的条件下使用全部患者数据的训练过程。

举例来说,假设医院 A 和 B 想联合训练一个脑卒中疾病预测模型,两个医院各自掌握科研病例数据,此外,医院 B 还拥有模型需要预测的标签数据如脑卒中发病标签。出于数据隐私保护和安全考虑,医院A 和 B 无法直接进行数据交换。联邦学习系统则可以利用基于加密的患者样本对齐技术,在医院A 和 B 不公开各自数据的前提下确认双方的共有患者,并且不暴露不互相重叠的患者,以便联合这些用户的特征进行建模,在确定共有用户群体后,就可以利用这些数据训练疾病预测模型。

图片来源:天衍-微众投稿给人工智能顶级会议IJCAI 2020的论文


如此一来,联邦学习技术就成功破解医疗行业信息孤岛和隐私保护难题,实现了在保护不同医院数据隐私下的疾病预测模型,而这项技术也在疾病预测领域落地,双方成功构建“脑卒中发病风险预测模型”。

成功落地疾病预测领域 脑卒中预测准确率达80%

在构建疾病预测模型过程中,不同医院数据缺乏标准化是关键性难题。双方首先通过搭建的大数据集中与挖掘平台,构建医疗健康领域机器学习、深度学习、自然语言理解、文本特征抽取、多种关系网络等多种大数据模型,对地区居民连续电子病历和其它数据进行多重关联和信息抽取。构建带有时间标志的重大慢病标签(脑卒中、冠心病、肿瘤、慢阻肺等)与大健康医疗特征(疾病、用药、检查、症状、手术、费用、家庭关系、行为、生活、环境),并对不同医院构建统一的数据标准形成疾病标签集与特征集。

通过技术力量对疾病预测模型所需特征进行标准与归一化后,再将标准化模型部署到不同医院,使各医院按照该标准对自有的疾病、用药、检验检查、症状、手术等方面的数据进行清洗,形成各自的标准化的疾病标签集与医疗特征集,再以此建立巢式病例对照研究队列,基于联邦学习算法协议,有效训练机器学习模型。

通过使用来自就诊记录数量TOP5的医院真实就诊数据验证,基于横向联邦学习的脑卒中预测模型的有效性良好。结果显示,基于横向联邦学习的脑卒中预测模型的有效性良好。联邦学习模型和集中训练模型表现几乎一致,在脑卒中预测模型中的准确率达到80%,仅比集中训练模型准确率降低1%,同时,联邦学习技术显著提升了不同医院的独立模型效果,特别地,对于两家脑卒中确诊病例数量较少的医院而言,联邦学习分别提升其准确率10%和20%以上。因此,基于联邦学习的联合模型效果优于任意一家医院独立建模结果,与集中数据训练所得模型效果相比也差异甚微,为不同医院的联合建模探索出了新的方向。

双方的这一成功合作案例仅仅是医疗联邦学习落地应用的开始,除疾病预测模型外,后续双方将就联邦学习在医疗大数据领域的应用落地进行更多维度的合作,包括医保控费、合理诊断、精准医疗等领域。医疗联邦学习作为基础技术框架,可以挖掘并利用医疗健康数据,构建不同的医疗场景应用,如通过联邦学习助力电子健康卡实现保护用户隐私建模等等,以助力医疗健康产业发展,提升医疗服务的质量。

相关文章:

JavaSript模块化 AMD CMD 详解.....

模块化是指在解决某一个复杂问题或者一系列的杂糅问题时,依照一种分类的思维把问题进行系统性的分解以之处理。模块化是一种处理复杂系统分解为代码结构更合理,可维护性更高的可管理的模块的方式。可以想象一个巨大的系统代码,被整合优化分割…

在Eclipse中使用Maven构建Spring项目

最新版的Spring需要使用Maven构建,本文讲述怎么在Eclipse构建Maven项目,以配置Spring项目为例。 maven简单介绍 maven是构建工具,也是构建管理工具。ant只是构建工具,因为不支持生成站点功能,只有预处理,编…

Go 语言官网全新改版

2019独角兽企业重金招聘Python工程师标准>>> 前两天发现 Go 语言官网改版了,布局由原来的左中右变成了上中下结构,主色调没有变,整体依然保持简洁的风格。在首页添加了一个叫 Playground 的模块,它可以编译、运行你输入…

就在今晚 | 港科大李世玮教授问诊未来,开辟大湾区新航路

阳春三月,万象更新,2020年注定是不平凡的一年!有激荡就会遇见变革,有挑战就会迎来机遇。今天总会过去,未来将会怎样?香港科大商学院内地办事处重磅推出全新升级的《袁老师访谈录》全新系列【问诊未来院长系…

NLP(Natural Language Processing)

https://github.com/kjw0612/awesome-rnn#natural-language-processing 通常有: (1)Object Recognition (2)Visual Tracking (3)Image Generation (4)Video Analysis NLP: (1)Language Modeling (2)Speech Recognition…

Linux环境编程

1.__sync_fetch_and_add和__sync_bool_compare_and_swap gcc从4.1.2提供了__sync_*系列的built-in函数,用于提供加减和逻辑运算的原子操作。 其声明如下: type __sync_fetch_and_add (type *ptr, type value, ...) type __sync_fetch_and_sub (type *p…

AI新基建如何构建?浪潮给出了一个答案

作者 | Just出品 | AI科技大本营(ID:rgznai100)伴随生产力升级,社会基础设施也正在发生变化。而智慧时代的新型基础设施,要能够对外提供各种算力服务、数据服务和AI服务。浪潮认为,其核心是计算力的生产中心。因此&…

协作是企业管理的重点和难点

这个问题让我想起了一道数学题,11?。在生活中这个题目的答案会千差万别,更别说一个企业。在我眼中,企业中最难管的是关系,更准确的说是协作。 经理过好几个信息系统建设的项目,小到一个简单的邮件系统&…

使用CSS3美化复选框checkbox

我们知道HTML默认的复选框样式十分简陋,而以图片代替复选框的美化方式会给页面表单的处理带来麻烦,那么本文将结合实例带您一起了解一下使用CSS3将复选框checkbox进行样式美化,并且带上超酷的滑动效果。 查看演示 下载源码HTML 通常我们使用以…

Thift安装

thrift官网http://thrift.apache.org/ #wget http://mirror.bit.edu.cn/apache/thrift/0.9.2/thrift-0.9.2.tar.gz #tar -zvxf thrift-0.9.2.tar.gz # ./configure --prefix/usr/local/thrift #make && makeinstall 增加到环境变量 #export PATH$PATH:/usr/…

​“手把手撕LeetCode题目,扒各种算法套路的裤子”

出品 | AI科技大本营(ID:rgznai100)刷LeetCode刷到懵还是一头雾水?莫慌,这里有一个标星27000的算法详解教程。从项目命名来看,作者labuladong就有着要干翻算法的精气神。当然,这个教程不只是为了机械刷题。…

c语言标准库低通的qsort函数不适宜所有排序任务的原因

c语言标准库低通的qsort函数不适宜所有排序任务的原因: 第一:它只能用于内存中的数组排序,不能对链表中的数据排序; 第二:因为它是参数化的函数,所以能对各种数据进行操作,也造成它的运行速度比…

第三周学习进度条

星期日 星期一 星期二 星期三 星期四 星期五 所花时间 下午: 3:00-5:00 上午: 8:00-10:00 下午: 3:00-5:00 下午: 2:30-4:30 下午: 4:30-5:30 下午&#xff1…

jca分析java dump日志

可以使用jca分析java dump的日志 jca:https://www.ibm.com/developerworks/community/groups/service/html/communityview?communityUuid2245aa39-fa5c-4475-b891-14c205f7333c 运维报说是某机房突然全部都线程阻塞了 其中锁住了tcp的socket,在研究无果的情况下…

shell脚本10

对于使用/bin/bash作为登录shell的系统用户,检查他们在/opt目录中拥有的子目录或文件数量,如果超过100个,则列出具体数值及对应的用户帐号.具体实现: #!/bin/bash DIR"/etc" LMT100 validusersgrep "/bin/bash" /etc/passwd|cut -d ":" -f 1 for…

百度重磅发布云手机:低配置也可玩大型游戏 21

又一个科技巨头发力云游戏。4月15日,百度举行"云手机"线上直播会,发布基于自主研发的ARM服务器的百度"云手机"产品,让用户摆脱硬件的制约,中低端设备也能流畅运行大型游戏和应用。百度"云手机"可以…

创业思维 - Qunar的故事

在这里特别想介绍下Qunar,因为他和我们的最主要的系统-交易系统相关。大家都知道淘宝的交易平台可以说是国内甚至全球最复杂的交易系统。但是我们的交易系统由于承担业务太多,发展太久,历史包裹太重,在业务架构上可以说有很大的问…

“机器学习还是很难用!”

作者 | Caleb Kaiser译者 | 香槟超新星,责编 | 郭芮出品 | CSDN(ID:CSDNnews)我是一名Cortex贡献者,Cortex是一个用于在生产中部署模型的开源平台。首先声明,以下内容是基于我对一些机器学习团队的观察总结…

silverlight 无法发布 如何灵活配置IP

灵活配置IP可以有一个工具的 我为了比赛花了 两天工具做了一个配置Silverlight IP的小工具 可以参考 http://download.csdn.net/source/2714688

使用GoAccess分析Nginx日志

下载 GoAccess 的源代码、编译和安装: http://www.goaccess.io/download # wget http://tar.goaccess.io/goaccess-0.9.6.tar.gz# tar -xzvf goaccess-0.9.6.tar.gz# cd goaccess-0.9.6/# ./configure --prefix/usr/local/goaccess --enable-geoip --enable-utf8#…

STM32中GPIO的8种工作模式

一、推挽输出:可以输出高、低电平,连接数字器件;推挽结构一般是指两个三极管分别受两个互补信号的控制,总是在一个三极管导通的时候另一个截止。高低电平由IC的电源决定。形象点解释:推挽,就是有推有拉&…

深挖谷歌 DeepMind 和它背后的技术

作者 | James Murphy译者 | 天道酬勤 责编 | Carol出品 | AI科技大本营(ID:rgznai100)人工智能(AI)的子集已经成倍增长,并完成了只有人类才能完成的各种任务。像机器学习这样的技术可以执行管理任务、人脸识别、下棋,甚至翻译语言…

Java编译原理

代码Test.java public class Test {public static void main(String[] args) {int a 0xae;int b 0x10;int c a b;int d c 1;String s;s "hello";}} # javac Test.java # javap -c Test 参考:http://codemacro.com/2015/03/31/intro-java-bytecod…

RHEL5.5学习--安装vmtools

首先先说明两点: (1)vmtools的安装需要gcc的支持,所以首先确定gcc是否已经安装。可运行gcc -v,若能显示gcc版本信息则说明安装完成,否则请查看上一篇文章(RHEL5.5学习--查看gcc是否安装以及如何…

SQL server 专业词汇

sql组成:DDL:数据库模式定义语言,关键字:createDML:数据操纵语言,关键字:Insert、delete、updateDCL:数据库控制语言 ,关键字:grant、removeDQL:数…

只会高中数学运算就能发现算法?Google开源的AutoML-Zero有多厉害

译者 | 刘畅出品 | AI科技大本营(ID:rgznai100)机器学习研究,已经在多个方面都取得了进步,包括模型结构和优化方法等。而使此类研究自动化的工作(称为AutoML)也有重大进展。这一进展主要集中在神经网络的体…

Tsar安装使用

Tsar是淘宝开发的一个非常好用的系统监控工具,在淘宝内部大量使用,它不仅可以监控CPU、IO、内存、TCP等系统状态,也可以监控Apache,Nginx/Tengine,Squid等服务器状态。值得一提的是,Tsar 支持将数据存储到 …

《虚拟化与云计算》读书感(四)数据中心的设计和构造

任何大型系统的设计和构造都是一项复杂的过程,数据中心的的设计和构造也是一项系统的工程,需要人们相互协作来完成总体的设计、建筑和基础设施的构建,以及软硬件的采购和上线。几天我看的书中这一节主要是将如何总体设计和构造以及要做的工作…

C 的大致运行原理。

// 尽量多上干货。我是Xcode 运行环境。 // 这些简单的我就写的 少些 。 任何一个C语言程序都是由一个或者多个程序段(小程序)构成的,每个程序段都有自己的功能,我们一般称这些程序段为“函数”。 函数有 声明(定义) 和 使用&…

Spring AOP与IOC以及自定义注解

Spring AOP实现日志服务 pom.xml需要的jar <dependency><groupId>org.apache.commons</groupId><artifactId>commons-lang3</artifactId><version>3.4</version> </dependency> <dependency><groupId>org.spring…