当前位置: 首页 > 编程日记 > 正文

AI落地遭“卡脖子”困境:为什么说联邦学习是解决良方?

640?wx_fmt=png

作者 | Just

出品 | AI科技大本营(ID:rgznai100)

毋庸置疑,在业界对人工智能(AI)应用落地备受期待的时期,数据这一重要支点却越来越成为一个“卡脖子”的难题。

AI落地需要数据来优化模型效果,但大部分企业不会轻易把数据无条件提供给AI公司使用,因为数据某种程度上是它们赖以生存的底牌,这也导致少数巨头公司垄断大量数据,而小公司很难获得数据的局面,另一方面,由于法律法规对数据隐私保护的规定,数据融合难上加难。数据孤岛问题似乎成了无法解开的死结,人工智能落地进程严重受阻。

此时,Google 于 2016 年提出的联邦学习(Federated Learning)技术开始在业内被寄予厚望,国内以微众银行、平安科技、百度为代表的公司成为新技术的“尝鲜者”,希望它成为打通数据孤岛的桥梁。

Google 率先建立建立联邦学习系统来解决用户个人终端设备的数据隐私问题,在安卓系统的手机用户中,首先将初始化模型下载到各终端,然后根据其本身的数据更新模型参数,不同终端随之产生不同的更新结果送到云端进行聚合,汇总后的模型参数将作为下一次更新的初始参数,一直迭代直到收敛。

用这样的方法既能保证数据不共享,保护用户隐私,同时又能共享一个通用模型,利用群体智能在云端不断更新,这就是联邦学习技术,而以该技术为核心的相关技术统称为联邦智能,平安科技副总工程师、联邦学习团队负责人王健宗博士首度提出了这一概念。他在近期接受 AI科技大本营(ID:rgznai100)等媒体采访时称,联邦学习之于联邦智能,犹如深度学习之于人工智能,不过联邦智能仍属人工智能范畴,其最终目标是为了实现人工智能。

破局数据孤岛,联邦学习的应用实践

作为联邦学习技术的早期使用者,Google 在今年 2 月开源了联邦学习框架 TensorFlow Federated,可用于去中心化数据的机器学习及运算实验。国内,微众银行 AI 团队对外开源了自研的“联邦学习 FATE(Federated AI Technology Enabler)” 学习框架,并推动其在信贷风控、监管科技等领域的应用落地。

平安科技同样自主研发了蜂巢联邦学习平台,并有了相对成熟的落地案例。王健宗提到,基于平安科技的金融、保险业务数据,他们通过联邦学习技术对此前无法获取的数据进行联合建模,从而准确预测用户贷款或者信用卡的逾期违约率以及预测跨域产品购买行为,以及通过银行客户去预测买保险客户等应用,除了金融、保险领域,他们还在医疗、智能语音以及车联网等多个领域进行了实践应用。

这些应用的共通之处在于,联邦智能解决方案要求数据在传输过程当中能够实现实时的加解密,在此基础上还要高效实现,比如做深度学习训练时,要做到几千万甚至上亿参数的交换、同步、异步处理。基于此,新方案还要保证多源数据在AI 模型调优过程中的安全性,同时也要有效地评估各数据源对于最终优化结果的贡献度。
总之,要在分布式环境下实现联合建模,自然会对硬件支持提出相应要求,而平安科技与英特尔的合作为上述问题的初步解决提供了有效方案。
硬件层面上,双方形容在联邦学习技术层面的合作是“一拍即合”。英特尔一直都想做一个可信计算数据分析的执行环境,希望能有效地防止外界触达和攻击敏感的数据和应用。英特尔最新发布的 SGX(软件防护扩展)技术实现了这一点,其通过处理器指令,在不同数据源中创建可信区域来用于数据访问,这正好符合目前联邦学习运算的需求。
王健宗称,SGX 一开始的配置并不是为联邦学习而生,但这个硬件可信平台后期陆续开放了一些专用接口,如此可以直接封装接口,从而在信息传递加解密过程当中更快、更高效,这种把可信计算环境“硬化”的方法能够加快迭代训练,也符合当下软件硬化,硬件软化的趋势。
对比传统软加密的方式,比如在传统的深度学习框架 TensorFlow, PyTortch , Caffe, MxNet 上进行改造,其在信息处理传输中的加解密过程会消耗太多时间。

640?wx_fmt=png
英特尔® SGX 技术以可信“飞地”来增强数据安全防护
具体来说,英特尔® SGX 技术可通过在特定硬件(例如内存)中构造出一个可信的“飞地”(Enclave), 用于中间参数的交互和传输,以帮助防止内外部攻击,使数据和应用程序的安全边界仅限于“飞地”本身以及处理器,同时其运行过程也不依赖于其他软硬件设备。这意味着数据的安全保护是独立于软件操作系统或硬件配置之外,即使硬件驱动程序、虚拟机乃至操作系统均受到攻击和破坏,能更有效防止数据泄露。

640?wx_fmt=png
英特尔® SGX技术的联邦学习方案
基于英特尔®SGX 技术所具备的特性,联邦学习团队与英特尔一起,在其联邦学习方案中设计了 1+N 式的多源数据 AI 模型训练方法,有助于精确地评估各节点数据对于 AI 模型训练的贡献度,方便用户对方案进行调整。
以联邦学习在保险行业的应用为例,以往用户在投保时,业务人员只能根据用户的年龄、性别等基本信息来确定保费金额,但随着信息社会的不断发展,用户数据的数量和特征维度得到大幅增加,比如对于健康类险种来说,业务系统如果能够利用海量的病历、家族病史数据等进行 AI 预测,并得到更加细分的健康评估类别,有望提升投保人健康评估结果的准确度。
其中,病历、病史等无疑是各个健康医疗机构中需要绝对确保隐私的数据,不仅不可能予以公开,更需要提升安全等级予以保护。现在联邦学习方案的引入,保险企业可以在不触及用户数据的情况下开展保险定价模型的 AI 训练,从目前的效果来看,联邦学习 1+N 式解决方案使保险个性化定价效果得到了明显提升。
当然新技术的应用总是伴随着新挑战,联邦学习自有其目前无法解决的短板。王健宗指出,联邦学习目前是用不同算法来改造模型以进行联合建模,并没有一个工具或者方法论,能够解决所有的深度学习算法联邦化的问题。
同时,不同于区块链的去中心化机制,联邦学习形成的是有中心化的联邦政府。在“联邦政府”里只有一个共同模型负责分发,所以还要解决“两个信任”问题:一是确保有一个各参与方都信任的联邦政府,二是联邦政府的运作信息要透明。
不过各项新技术都在不断演进,王健宗认为,只要有更多企业和从业者加入到使用联邦学习的队伍中来,这些问题将逐步得到解决。
他类比十几年前做信息系统时面临的困境,当时每个信息系统的开发语言都不同,但现在已经完全解决;面临的数据孤岛问题依然存在,但后来云计算的出现让上百个系统数据互不相通的状况一去不返,所以这也让他乐观看待联邦学习在未来的发展前景。
联邦智能,引领 AI 革新的新曙光?
联邦学习技术这盘更大的棋在于各参与方共同打造联邦学习生态,但王健宗表示,当下最重要的是抢占先机,提出联邦学习应用于未来趋势的生态与解决方案。
生态离不开系统架构的布局。硬件层面,目前英特尔与平安科技的双方合作尚处第一阶段,只是拿出了一个硬体加密盒,解决了数据训练的其中一个环节。平安科技联邦学习团队将与英特尔进一步开展技术合作,以更多、更先进的技术驱动数据资源在联邦学习中的安全运转和高效转化,王健宗希望后续硬体加解密环境更多的改造成为联邦智能服务,同时在信息传输标准、知识训练接口规范等方面,英特尔可以通过业界标准渠道来打造生态,推动联邦学习在各行各业中的快速发展和应用。
英特尔还可能开发训练框架以支持联邦学习,同时其相关存储技术,比如SSD(固态硬盘)等也会做出相应行业解决方案,以点盖面进一步深化联邦学习解决方案。
在网络层,王健宗认为 5G 技术的到来会给联邦学习提供很好的机会,比如一定程度上解决参数交换瓶颈,这就需要在网络通讯层、编码层、存储层要为联邦智能定制相应技术规范,他还称平安科技在做相关联邦芯片的研究工作,也在考虑未来是否要设计联邦操作系统。

不过,要想落地相关应用,系统化实现联邦智能生态,还要依靠更多前线的人工智能从业者,他们希望这套联邦学习解决方案科技能够支持更多公司和行业,对以联邦学习为基础的技术进行深入探索,做一些实在的落地应用研究。
联邦学习技术目前更多应用于 AI 训练过程,其目标是形成联邦生态,不过王健宗更希望基于联邦学习技术,通过联邦数据库、联邦数据中心、联邦可视化来共同实现联邦智能。他坚信,新技术和新需求衍生的新一轮革新会助力AI产业实现腾飞,而联邦智能无疑是引领 AI 革新的新曙光。

推荐阅读:

《李开复口中的“联邦学习” 到底是什么?》

(*本文为 AI科技大本营原创文章,转载请微信联系作者 1092722531)

精彩推荐


2019 中国大数据技术大会(BDTC)历经十一载,再度火热来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。【早鸟票】【特惠学生票】限时抢购,扫码了解详情!

640?wx_fmt=png

推荐阅读

  • 肖仰华:知识图谱构建的三要素、三原则和九大策略 | AI ProCon 2019

  • 10分钟搭建你的第一个图像识别模型 | 附完整代码

  • 阿里披露AI完整布局,飞天AI平台首次亮相

  • 程序员因接外包坐牢 456 天!两万字揭露心酸经历

  • 限时早鸟票 | 2019 中国大数据技术大会(BDTC)超豪华盛宴抢先看!

  • Pandas中第二好用的函数 | 优雅的Apply

  • 阿里开源物联网操作系统 AliOS Things 3.0 发布,集成平头哥 AI 芯片架构

  • 雷声大雨点小:Bakkt「见光死」了吗?


640?wx_fmt=png

你点的每个“在看”,我都认真当成了喜欢

相关文章:

Linux下截取指定时间段日志并输出到指定文件

sed -n /2019-04-22 16:10:/,/2019-04-22 16:20:/p log.log > bbb.txt 转载于:https://www.cnblogs.com/mrwuzs/p/10752037.html

nginx+keepalive主从双机热备+自动切换解决方案

环境采集cenots 6.3 64位迷你安装,因为安装前,你需要做一些工作yum install -y make wget如果你愿意可以更新下系统,更换下yum源.1.安装keepalive官方最新版 keepalived-1.2.7tar zxvf keepalived-1.2.7.tar.gzcd keepalived-1.2.7在此之前。…

概率论中指数分布介绍及C++11中std::exponential_distribution的使用

指数分布:在深度学习中,我们经常会需要一个在x0点处取得边界点(sharp point)的分布。为了实现这一目的,我们可以使用指数分布(exponential distribution): p(x;λ) λlx≥0exp(-λx)指数分布使用指示函数(indicator function) lx≥…

肖仰华:知识图谱构建的三要素、三原则和九大策略 | AI ProCon 2019

演讲嘉宾 | 肖仰华(复旦大学教授、博士生导师,知识工场实验室负责人) 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) 近两年,知识图谱技术得到了各行各业的关注,无论是企业公司还…

Docker mongo副本集环境搭建

1、MongoDB Docker 镜像安装 docker pull mongo 2、Docker容器创建 MongoDB Docker 容器创建有以下几个问题&#xff1a; 1- MongoDB 容器基本创建方法和数据目录挂载 2- MongoDB 容器的数据迁移 3- MongoDB 设置登录权限问题docker run -p 27017:27017 -v <LocalDirectoryP…

菜鸟学习HTML5+CSS3(一)

主要内容&#xff1a; 1.新的文档类型声明&#xff08;DTD&#xff09; 2.新增的HTML5标签 3.删除的HTML标签 4.重新定义的HTML标签 一、新的文档类型声明&#xff08;DTD&#xff09; HTML 5的DTD声明为&#xff1a;<!doctype html>、<!DOCTYPE html>、<!DOCTY…

激活函数之logistic sigmoid函数介绍及C++实现

logistic sigmoid函数&#xff1a;logistic sigmoid函数通常用来产生Bernoulli分布中的参数&#xff0c;因为它的范围是(0,1)&#xff0c;处在的有效取值范围内。logisitic sigmoid函数在变量取绝对值非常大的正值或负值时会出现饱和(saturate)现象&#xff0c;意味着函数会变得…

NLP重要模型详解,换个方式学(内附资源)

&#xff08;图片有AI科技大本营付费下载自视觉中国&#xff09;作者 | Jaime Zornoza&#xff0c;马德里技术大学译者 | 陈之炎校对 | 王威力编辑 | 黄继彦来源 | 数据派THU&#xff08;ID&#xff1a;DatapiTHU&#xff09;【导语】本文带你以前所未有的方式了解深度学习神经…

大闸蟹的OO第二单元总结

OO的第二单元是讲多线程的协作与控制&#xff0c;三次作业分别为FAFS电梯&#xff0c;ALS电梯和三部需要协作的电梯。三次作业由浅入深&#xff0c;让我们逐渐理解多线程的工作原理和运行状况。 第一次作业&#xff1a; 第一次作业是傻瓜电梯&#xff0c;也就是完全不需要考虑捎…

构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统(31)-MVC使用RDL报表

原文:构建ASP.NET MVC4EF5EasyUIUnity2.x注入的后台管理系统&#xff08;31&#xff09;-MVC使用RDL报表这次我们来演示MVC3怎么显示RDL报表,坑爹的微软把MVC升级到5都木有良好的支持报表,让MVC在某些领域趋于短板 我们只能通过一些方式来使用rdl报表。 Razor视图不支持asp.net…

18段代码带你玩转18个机器学习必备交互工具

&#xff08;图片有AI科技大本营付费下载自视觉中国&#xff09;作者 | 曼纽尔阿米纳特吉&#xff08;Manuel Amunategui&#xff09;、迈赫迪洛佩伊&#xff08;Mehdi Roopaei&#xff09;来源 | 大数据&#xff08;ID&#xff1a;hzdashuju&#xff09;【导读】本文简要介绍将…

激活函数之ReLU/softplus介绍及C++实现

softplus函数(softplus function)&#xff1a;ζ(x)ln(1exp(x)).softplus函数可以用来产生正态分布的β和σ参数&#xff0c;因为它的范围是(0,∞)。当处理包含sigmoid函数的表达式时它也经常出现。softplus函数名字来源于它是另外一个函数的平滑(或”软化”)形式&#xff0c;这…

windows server 2012 用sysdba登录报错 ORA-01031

报错显示&#xff1a;C:\Users\Administrator>sqlplus / as sysdba SQL*Plus: Release 11.2.0.1.0 Production on 星期三 4月 24 09:09:33 2019 Copyright (c) 1982, 2010, Oracle. All rights reserved. ERROR:ORA-01031: 权限不足 请输入用户名: 1、查看本地用户和组确认权…

[SignalR]初步认识以及安装

原文:[SignalR]初步认识以及安装1.什么是ASP.NET SignalR&#xff1f; ASP .NET SignalR是一个 ASP .NET 下的类库&#xff0c;可以在ASP .NET 的Web项目中实现实时通信。什么是实时通信的Web呢&#xff1f;就是让客户端&#xff08;Web页面&#xff09;和服务器端可以互相通知…

CUDA Samples:Vector Add

以下CUDA sample是分别用C和CUDA实现的两向量相加操作&#xff0c;参考CUDA 8.0中的sample:C:\ProgramData\NVIDIA Corporation\CUDA Samples\v8.0\0_Simple&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;各个文件内容如下&#xff1a;common.hpp:#ifndef FBC_CU…

你和人工智能的对话,正在被人工收听

&#xff08;图片有AI科技大本营付费下载自视觉中国&#xff09;作者 | 周晶晶编辑 | 阿伦来源 | 燃财经&#xff08;ID:rancaijing&#xff09;如今&#xff0c;智能设备越来越多地出现在每个人的生活中&#xff0c;在享受它们带来的便利时&#xff0c;很多人或许没有意识到&a…

python数据结构与算法总结

python常用的数据结构与算法就分享到此处&#xff0c;本月涉及数据结构与算法的内容有如下文章&#xff1a; 《数据结构和算法对python意味着什么&#xff1f;》 《顺序表数据结构在python中的应用》 《python实现单向链表数据结构及其基本方法》 《python实现单向循环链表数据…

自定义classloader中的接口调用

2019独角兽企业重金招聘Python工程师标准>>> 注意其中转型异常的描述&#xff0c;左边声明和强转括号内都是appclassloader加载的&#xff0c;而让自定义加载类的接口也由appclassloader加载&#xff0c;所以转型成功 转载于:https://my.oschina.net/heatonn1/blog/…

学点基本功:机器学习常用损失函数小结

&#xff08;图片付费下载自视觉中国&#xff09;作者 | 王桂波转载自知乎用户王桂波【导读】机器学习中的监督学习本质上是给定一系列训练样本 &#xff0c;尝试学习 的映射关系&#xff0c;使得给定一个 &#xff0c;即便这个不在训练样本中&#xff0c;也能够得到尽量接近…

python生成简单的FTP弱口令扫描

2019独角兽企业重金招聘Python工程师标准>>> 前言 Ftp这个类实现了Ftp客户端的大多数功能,比如连接Ftp服务器、查看服务器中的文件、上传、下载文件等功能,Ftp匿名扫描器的实现&#xff0c;需要使用FTP这个类,首先用主机名构造了一个Ftp对象(即ftp),然后用这个ftp调…

C++中const指针用法汇总

这里以int类型为例&#xff0c;进行说明&#xff0c;在C中const是类型修饰符&#xff1a;int a; 定义一个普通的int类型变量a&#xff0c;可对此变量的值进行修改。const int a 3;与 int const a 3; 这两条语句都是有效的code&#xff0c;并且是等价的&#xff0c;说明a是一个…

mongodb基础应用

一些概念 一个mongod服务可以有建立多个数据库&#xff0c;每个数据库可以有多张表&#xff0c;这里的表名叫collection&#xff0c;每个collection可以存放多个文档&#xff08;document&#xff09;&#xff0c;每个文档都以BSON&#xff08;binary json&#xff09;的形式存…

【leetcode】1030. Matrix Cells in Distance Order

题目如下&#xff1a; We are given a matrix with R rows and C columns has cells with integer coordinates (r, c), where 0 < r < R and 0 < c < C. Additionally, we are given a cell in that matrix with coordinates (r0, c0). Return the coordinates of…

深度学习面临天花板,亟需更可信、可靠、安全的第三代AI技术|AI ProCon 2019

整理 | 夕颜 出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09; 在人工智能领域中&#xff0c;深度学习掀起了最近一次浪潮&#xff0c;但在实践和应用中也面临着诸多挑战&#xff0c;特别是关系到人的生命&#xff0c;如医疗、自动驾驶等领域场景时&#xff0c;黑盒…

java robot类自动截屏

直接上代码:package robot;import java.awt.Rectangle;import java.awt.Robot;import java.awt.event.InputEvent;import java.awt.p_w_picpath.BufferedImage;import java.io.File;import java.io.IOException;import javax.p_w_picpathio.ImageIO;import com.sun.glass.event…

激活函数之softmax介绍及C++实现

下溢(underflow)&#xff1a;当接近零的数被四舍五入为零时发生下溢。许多函数在其参数为零而不是一个很小的正数时才会表现出质的不同。例如&#xff0c;我们通常要避免被零除或避免取零的对数。上溢(overflow)&#xff1a;当大量级的数被近似为∞或-∞时发生上溢。进一步的运…

parsing:NLP之chart parser句法分析器

已迁移到我新博客,阅读体验更佳parsing:NLP之chart parser句法分析器 完整代码实现放在我的github上:click me 一、任务要求 实现一个基于简单英语语法的chart句法分析器。二、技术路线 采用自底向上的句法分析方法&#xff0c;简单的自底向上句法分析效率不高&#xff0c;常常…

图解Python算法

普通程序员&#xff0c;不学算法&#xff0c;也可以成为大神吗&#xff1f;对不起&#xff0c;这个&#xff0c;绝对不可以。可是算法好难啊~~看两页书就想睡觉……所以就不学了吗&#xff1f;就一直当普通程序员吗&#xff1f;如果有一本算法书&#xff0c;看着很轻松……又有…

详解SSH框架的原理和优点

Struts的原理和优点. Struts工作原理 MVC即Model-View-Controller的缩写&#xff0c;是一种常用的设计模式。MVC 减弱了业务逻辑接口和数据接口之间的耦合&#xff0c;以及让视图层更富于变化。MVC的工作原理,如下图1所示&#xff1a;Struts 是MVC的一种实现&#xff0…

Numpy and Matplotlib

Numpy介绍 编辑 一个用python实现的科学计算&#xff0c;包括&#xff1a;1、一个强大的N维数组对象Array&#xff1b;2、比较成熟的&#xff08;广播&#xff09;函数库&#xff1b;3、用于整合C/C和Fortran代码的工具包&#xff1b;4、实用的线性代数、傅里叶变换和随机数生成…