2019年,自动化机器学习AutoML技术还火吗? | BDTC 2019
整理 | 王银
出品 | AI科技大本营(ID:rgznai100)
【导读】12 月 5-7 日,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN、中科天玑协办的中国大数据技术大会(BDTC 2019)在北京长城饭店隆重举行。
100+ 顶尖技术专家、1000+ 大数据从业者齐聚于此,以“大数据驱动智能+”为主题,聚焦智能时代大数据技术的发展曲线,围绕大数据与社会各行业相结合的最新实践,进行了深度解读和讨论。其中热门的“机器化学习技术与系统”论坛于12月6日拉开帷幕,作为本次论坛的开场嘉宾,江苏鸿程大数据研究院副总经理、南京大学PASA大数据实验室博士朱光辉带来了《自动化机器学习AutoML技术研究进展 》的主题演讲。
核心观点:改变人工智能建模依赖专家的手工作坊式生产,打造人工智能建模的“数控机床”,利用机器替代人工实现AI模型的构建,大幅提升AI建模效率,降低AI技术门槛,加速AI应用落地。
以下内容为演讲实录,由AI科技大本营(ID:rgznai100)整理:
众所周知,机器学习与人工智能技术目前已经成为国家重要发展战略之一,各行各业都在积极向人工智能转型升级。著名计算机专家李开复曾预计,到2025年,AI将无处不在,“AI赋能行业”应用模式在未来将迎来高速成长。然而AI在行业应用落地时,却存在着专业人才短缺、技术门槛高、建模周期长等痛点,导致很多中小企业对人工智能望尘莫及。
打造AI行业的“数控机床”
随着人工智能的普及,科技公司对人工智能的要求越来越高,人才成本、准确度、效率都影响着人工智能能否落地融入日常的使用中。对人工智能应用的快速增长也进而催生了对影响人工智能水平的关键要素——机器学习方法的需求。正因此,自动化机器学习方法AutoML应运而生,利用机器替代人工完成AI建模,从AI for APP到AI for system最后到AI for AI,用人工智能的方法自动化完成AI模型的构建,大幅降低AI的使用门槛,从而提升建模效率。
“自动化机器学习就好比构建一个AI行业的数控机床,以前靠人现在靠机器,多快好省的自动化的方式生产AI模型。“朱光辉说,传统的AI模型训练往往要经历特征分析、模型选择、调参、评估等步骤,这些步骤需要经历数月的时间,如果完全没经验,时间会更长。
而AutoML可以完全不用依赖经验,它可以依靠数学方法,由完整的数学推理的方式来证明,完成模型自动选择和参数调优,最终实现实现端到端流水线的自动化设计。具体来说,就是通过数据集,在更短的时间内尝试更多的算法模型,寻找到最优或者满足应用精度需求的算法模型。而后针对特定模型,通过数据的分布和模型的性能,不断评估最优解的分布区间,实现对参数进行优化的目的。
AutoML不仅可以解决传统学习,还可以解决深度学习、终生学习。AutoML可以解决自动化特征工程、自动化模型选择、自动化参数优化等不同类型的任务,在类型和任务确定的前提下可以选择针对特定任务的AutoML方法,比如语言学习、强化学习、遗传算法等等。
多纬度突破创新
南京大学PASA大数据实验室从2017年开始研究自动化机器学习,谈及具体取得了哪些进展,朱光辉从以下层面进行了介绍。
基于强化学习的机器学习流水线,自动化设计算法框架。为了实现高效的机器学习流水线的自动化设计,提出基于强化学习的机器学习流水线的框架——元学习阶段、强化学习阶段和集成学习阶段。针对强化学习阶段,将机器学习流水线自动化设计的问题抽象成强化学习问题,即将从开始到数据预处理,再到特征选择、算法选择的这样一个流水线抽象成强化学习的问题,再利用强化学习DQN等强化学习的方法来解决问题,最终自动地设计出一个最优的机器学习流水线。
如下图所示,每个状态代表当前pipeline所处的阶段,不同阶段之间的算法可以跳转,但分类算法选择不可以跳过,因为只有先选择一个分类算法才可以解对应的问题。在既定的计算时间内怎么选择最优的流水线,最终由强化学习来自动决定。
基于集成学习阶段,开发PASA-AutoML系统平台实现端到端的机器学习流水线自动化设计。笼统来讲,PASA-AutoML对在验证集上表现良好的模型使用交叉验证,得到训练集以及测试集的预测作为新的训练集和测试集的特征;而后使用新的训练集训练一个高层分类器(逻辑回归),然后用高层分类器类预测新的测试集来得到最终的预测结果。
朱光辉强调,PASA-AutoML性能优于目前国际上最好的开源自动化机器学习系统Autosklearn,它不仅支持更丰富的业务场景,还支持超单优化的调优,而相比于单机算法,PASA-AutoML能够在更短的时间内取得更好的预测性能。
基于自适应连续筛选的模型选择/超参调优。现实的应用场景中算法和模型的超单数的组合空间非常巨大,但可用的AutoML时间资源却是有限的,因此过滤出最有模型/超参数就显得尤为重要。对此,朱光辉提出将模型选择问题抽象成多臂赌博机(Multi-armed bandit)问题,将每个候选模型作为赌臂,并且为每个模型构建贝叶斯模型,而后在每一轮候选模型验证过程中,根据贝叶斯超参优化结果选择超参数,将表现较差的模型/超参数组合尽可能早地过滤掉,从而将更多的资源分配给表现较好的模型/超参数组合,从而提升AutoML计算效率。
基于终身学习场景,围绕动化特征编码、自动化特征组合、自动化特征进行规范自动化特征工程以及增量学习,同时加权集成学习,最终实现自动捕捉数据集特征的变化自适应地设计出模型的目的。也正是通过这个实验,南京大学PASA大数据实验室在NIPS 2018举办的第三届AutoML国际竞赛中从全球348支参赛队伍(包括清华大学、北京大学、麻省理工学院、UC Berkeley等国内外知名高校以及微软、腾讯、阿里巴巴等科技巨头公司)脱颖而出,取得国际第三名的优异成绩。
基于时序多表关系型数据集,构建有效机器学习模型。在实际生产环境下,数据往往分布在多个关系数据表中,而多表自动关联后,特征维数急剧膨胀。这时,采用基于采样的自动化特征选择方法可以有效降低内存开销;除此之外,还可以采用基于多次采样数据的集成学习方法,将LightGBM作为学习器,并利用贝叶斯优化进行超参数调优。而在KDD Cup 2019数据挖掘国际大赛中荣获TOP10优胜奖,正是AutoML能够高效利用关系型数据的有力佐证。
基于多保真度优化,提出优化深度神经网络超参算法。在多保真度优化层面,相比于传统的机器学习,深度神经网络训练时间开销较大,对应地,深度神经网络超参调优的时间开销也会大幅度提升。而为了提升深度神经网络超参优化效率,朱光辉提出多保真度优化和early-stopping机制相结合的算法,在多组采样数据集上高效评估超参数组合性能,同时具备良好的anytime performance和final performance。
AutoSpeech大赛显身手
随着AutoML越来越火,越来越多的人开始尝试将AutoML和时间序列数据集、自然语言文本数据集关联起来,通过自动化的方式解决语音自动化分类或者文本的自动分类问题。朱光辉所在的团队参加了在ACML 2019举办的第一届AutoSpeech国际竞赛,并获得第一名。
该赛事的指标是图里阴影的面积,它是性能和时间的积分,叫做性能的时间函数。这个指标不仅要考虑性能,而且要在更短的时间内出结果。因为做AutoML算法要考虑其通用性的特点,比如音频数据集可能涉及3个甚至100个类别,音频时长不同,数据集的特征不同,但是算法要涵盖不同数据集的特点,做通用的解决方案。
首先,针对不同数据集,制定通用解决方案,语音特征选取MFCC、梅尔频谱,就是用TF-IDF特征快速出结果,再用Embedding提升最终性能的递增式学习框架。
根据评价指标,朱光辉团队设计了一个比较个性化的框架,先用简单的模型,逻辑回归模型快速得出结果,再用复杂的模型,如神经网络CRN或LSTM得到较高的性能。根据这样一个评价指标先用简单的模型快速得出结果,再用复杂的模型提出最终的性能,用增量的学习框架解决这个问题。
朱光辉团队为该模型做了一个集成学习的方法,每个模型会一直维护 top3 的小集成,在通过求大集成和小集成的平均率得到最终的效能。
第一个数据集下用传统的算法就已经达到了很好的性能,出结果很快,不到几秒就能达到性能上限,说明做文本分析或语音分类解决实际问题时不一定上来就用神经网络,可以选择比较好的特征,用传统的机器学习模型探索,再逐渐应用深度学习网络。
朱光辉表示,南京大学PASA大数据实验室下一步的重点是做特征组合的相关工作,他们发现,各种比赛的特征组合对于提高最终的性能非常有帮助,所以其首要工作就是自动化的特征组合。
第二,将聚焦于AutoML的效率方面,提高AutoML效率也是一个非常关键的问题,比如可以通过采样提高性能,或通过减少迭代次数提升大数据的AutoML性能。
第三,深度森林为代表的深度集成学习的架构搜索。
朱光辉提到他们的实验室和华为的一项合作,在做自动化技术时不仅考虑性能,还要考虑模型的复杂度,比如华为很多算法部署在基站信号塔里,所以要考虑模型的复杂度和性能优化的问题。
第四是AutoML+图像、文本、语音、时间序列。PASA大数据实验室正在研究自动化半监督学习,让用户只需要部分标注数据就可以实现自动化建模。
“如今,我们的技术已经被华为、360广泛使用,有非常广阔的市场空间,我们的团队成立了研究院江苏鸿程大数据研究院。”谈及未来,朱光辉说,“我们还将进一步开发完善AutoML平台,面向细分行业提供定制化分析的AutoML产品或服务,以自动化和高效易用的方式,支持行业大数据智能化分析建模与应用的快速开发。“而我们也坚信,让AI惠及更多的行业和企业,以此让AI真正普及并赋能行业应用。”
(*本文为AI科技大本营原创文章,转载请微信联系1092722531)
◆
精彩推荐
◆
人工智能数学基础系列公开课通过人工智能热点问题开始,引出其中蕴涵的数学原理,然后构建解决实际问题的数学模型和方法,兼具趣味性与实用性。
1月16日晚8:00, 哈工大屈教授在线直播课---『看得见 』的数学,带大家解密计算机视觉背后的数学知识!
点击阅读原文,或扫描海报二维码免费报名
加入公开课福利群,每周还有精选学习资料、技术图书等福利发送、60+公开课免费学习
推荐阅读
陆奇的创业方法论:潮流、挑战和机遇
不可错过的7篇深度学习综述
AI 没让人类失业,搞 AI 的人先失业了
2020 年,Android 还有哪些新期待?
铁打的春晚,流水的互联网公司
人工智能的下一个前沿:识别“零”和“无”
十大新兴前端框架大盘点
CPU 到底是怎么认识代码的?涨姿势了!
2019全年盘点之一:公链生死战场
你点的每个“在看”,我都认真当成了AI
相关文章:

第一次使用51cto博客
阿梅第一次使用51cto博客,以后将学习中的总结写到这里来。加油。转载于:https://blog.51cto.com/hopit/1690465

Google Test(GTest)使用方法和源码解析——结果统计机制分析
在分析源码之前,我们先看一个例子。以《Google Test(GTest)使用方法和源码解析——概况 》一文中最后一个实例代码为基准,修改最后一个“局部测试”结果为错误。(转载请指明出于breaksoftware的csdn博客) class ListTest : publi…
贾扬清感谢信:阿里开源10年,致敬千万开源人
整理 | 夕颜【导读】2019 年 10 月,有人曾根据 www.gharchive.org 的数据整理出一份 2019 年GitHub 开源贡献排行榜,获取 GitHub 2019 年的 PushEvent,通过分析 GitHub 用户提交记录中的邮件地址,分辨其所属组织。从这份榜单上可…

热烈庆祝我国神七发射成功!
热烈庆祝我国神七发射成功!
云计算设计模式(十)——守门员模式
云计算设计模式(十)——守门员模式 通过使用充当客户端和应用程序或服务之间的代理,验证和进行消毒的请求,并将它们之间的请求和数据的专用主机实例保护的应用程序和服务。这可以提供一个额外的安全层,并限制了系统的攻…
“不会Linux,怎么干程序员?”骨灰级工程师:干啥都不行!
说起优秀程序员的必备技能,我想大家都可以说很多,比如:数据结构、算法、数学、编程语言等等。但是,你可能会忽略了每一个程序员都应该掌握的技能:Linux。想一想,我们日常学习、求职、工作场景的中ÿ…
Google Test(GTest)使用方法和源码解析——Listener技术分析和应用
在《Google Test(GTest)使用方法和源码解析——结果统计机制分析》文中,我么分析了GTest如何对测试结果进行统计的。本文我们将解析其结果输出所使用到的Listener机制。(转载请指明出于breaksoftware的csdn博客) 解析 源码中,我们…

SSH连接不上Linux的解决方法
SSH连接不上Linux的解决方法: 连续弄了几次,今天早上终于把SSH连接虚拟机连接不通的问题解决了。 先简单说下概要: 主机装的是XP系统,虚拟机用的是red hat Linux。 我用的是nat连接方式是虚拟机内也能上网。 主机是用的校园内寝室共享上网。 …

熬夜翻译完的PureFTPd配置文件
[url]http://www.chinaunix.net[/url] 作者:jeffwu 发表于:2006-07-08 10:31:58 干了个通宵,一边玩一边把配置文件翻译完了,翻得不好的地方还请各位多多提点,少许不是很明白的地方就留在那了。 鼓励转贴,分发…
挑战NLP、量子计算难题,300多支本科生队伍同场角逐,2020 ASC超算竞赛一触即发...
出品 | AI科技大本营(ID:rgznai100)ASC世界大学生超级计算机竞赛(ASCStudent Supercomputer Challenge)是由中国发起的世界最大规模的大学生超算竞赛,与美国SC、德国ISC并称全球三大超算竞赛,也是目前全球最…

Google Test(GTest)使用方法和源码解析——断言的使用方法和解析
在之前博文的基础上,我们将介绍部分断言的使用,同时穿插一些源码。(转载请指明出于breaksoftware的csdn博客) 断言(Assertions) 断言是GTest局部测试中最简单的使用方法,我们之前博文中举得例子…

精品软件 推荐 硬盘物理序列号修改专家
硬盘物理序列号修改专家不是市面上那些简单修改硬盘驱动器的序列号的东西,而是修改硬盘厂商在烧制时刻录在硬盘盒上的,即(硬盘物理序列号),大约20位字母数字的组合1、可以解决部分软件封用户电脑,导致这台电…
知识图谱实体链接是什么?一份“由浅入深”的综述
作者 | 尼古拉瓦砾来源 | Paperweekly(ID:paperweekly)【导读】这个世界充斥着无数的结构化数据(wiki)和非结构化数据(web),然而,如何将两者有效地集成仍然是个非常困难的问题。本文…

Google Test(GTest)使用方法和源码解析——预处理技术分析和应用
预处理 在《Google Test(GTest)使用方法和源码解析——概况》最后一部分,我们介绍了GTest的预处理特性。现在我们就详细介绍该特性的使用和相关源码。(转载请指明出于breaksoftware的csdn博客) 测试特例级别预处理 Test Fixtures是建立一个固…

出色管理者的时间管理
出色管理者的时间管理不少管理者都有这样的感慨:“忙了一天,也不知道忙了什么,时间还不够用。”其实,只要有效地运用时间,就可以提高工作效率,在相同的时间里做更多的事,而且做得更好࿰…

精品软件 推荐 瑞星 杀毒软件 安全软件
一句话评价一下这软件: 功能好,速度一般。功能:设置中心:最后, 下载地址请到官方下载吧。转载于:https://blog.51cto.com/hangtc/1690981

Google Test(GTest)使用方法和源码解析——自定义输出技术的分析和应用
在介绍自定义输出机制之前,我们先了解下AssertResult类型函数。(转载请指明出于breaksoftware的csdn博客) 在函数中使用AssertionResult AssertionResult只有两种类型: AssertionSuccess()AssertionFailure()要么成功࿰…
五年循环期限已到,我们又要步入“AI寒冬”了吗?
作者 | Sam Shead译者 | Kolen编辑 | 夕颜出品 | AI科技大本营(ID: rgznai100) 【导读】过去的十年对人工智能来说是一个重要的十年,但该领域的研究人员认为该行业即将进入一个新的阶段。 过去几年里,人工智能这项技术的…

相知用心.相爱用情
人如花 一生匆匆而过 不要等到你凋落的时候才去眷恋天空,眷恋蝴蝶爱情是短暂的,但却是美丽的该追求的就去追求吧不要留给自己遗憾,不要让自己美丽的花朵枯萎 人生就象一列急驰的火车 机遇和缘分会让许多素昧平生的乘客在旅途中相遇、相识、相…

Android:problem opening wizard the selected wizard could not be started
直接将Eclipse关掉,重新打开后也许就好了。 如还没好,就执行如下步骤: 1.如果还没有添加ADT,则:Help -> Add New Software -> Add 在“Name”中填入ADT。 2.如果已经安装了ADT,就直接将ADT的地址填写…

Google Test(GTest)使用方法和源码解析——私有属性代码测试技术分析
有些时候,我们不仅要测试类暴露出来的公有方法,还要测试其受保护的或者私有方法。GTest测试框架提供了一种方法,让我们可以测试类的私有方法。但是这是一种侵入式的,会破坏原来代码的结构,所以我觉得还是谨慎使用。&am…
170个新项目,579个活跃代码仓库,Facebook开源年度回顾
作者 | Dmitry Vinnik译者 | 泓礼编辑 | 夕颜出品 | AI科技大本营(ID:rgznai100) 【导读】过去一年对于Facebook的开源工程师来说是繁忙的一年。在2019年,Facebook发布了170个新的开源项目,活跃代码仓库产品达到了579…

“怀才不遇”与“怀才不孕”怎么办?
今天在飞机上闲来无事,翻阅深航的随机杂志。一直以来,我乘的比较多的是南航和深航的杂志。南航的杂志基本上都是广告,没有一点可读性的内容。相反,不知道是不是深航的规模较小的原因,找不到合适的广告主吧,…

《评人工智能如何走向新阶段》后记(再续15)
由AI科技大本营下载自视觉中国170. 清华大学全球产业研究院和百度大学Alpha学院于2020年1月5日发表(人工智能)产业智能化白皮书讨论AI发展情况,应用TUMC模型,从技术和综合应用场景的角度,考察热点技术和场景的AI产业化…

Google Test(GTest)使用方法和源码解析——参数自动填充技术分析和应用
在我们设计测试用例时,我们需要考虑很多场景。每个场景都可能要细致地考虑到到各个参数的选择。比如我们希望使用函数IsPrime检测10000以内字的数字,难道我们要写一万行代码么?(转载请指明出于breaksoftware的csdn博客)…

Linux 指令篇:文件系统--fstab
Linux 指令篇:文件系统-----FSTAB指令:FSTAB使用权限 : 超级使用者 使用方式 : 使用编辑器来修改 /etc/fstab (eg. vi /etc/fstab) 说明 : 存放档案系统与目录结构对应资料的档案 fstab 栏位说明: 第一栏(fs_spec): 实际的 device…

跨平台抓包软件,可以替代Fiddler
2019独角兽企业重金招聘Python工程师标准>>> Zed Attack Proxy (ZAP) 是个强大的跨平台的抓包工具,可以用来替代windows下的Fiddler https://www.owasp.org/index.php/OWASP_Zed_Attack_Proxy_Project https://github.com/zaproxy/zaproxy/wiki/Download…
集五福,我用Python
所有参与投票的 CSDN 用户都参加抽奖活动群内公布奖项,还有更多福利赠送作者 | Crossin先生编辑 | Jane来源 | Crossin的编程教室(ID:crossincode)【导读】你的五福集齐了吗?作为一名技术人,我们是不是可以…

Google Test(GTest)使用方法和源码解析——模板类测试技术分析和应用
写C难免会遇到模板问题,如果要针对一个模板类进行测试,似乎之前博文中介绍的方式只能傻乎乎的一个一个特化类型后再进行测试。其实GTest提供了两种测试模板类的方法,本文我们将介绍方法的使用,并分析其实现原理。(转载…

IT人才职场受宠
面对就业压力的日益增大,就业难,工资水平低等问题困扰着所有的大学生。然而,IT业的迅猛发展却造成了数以万计的网络设计、运行、维护的网络工程师需求的空缺,巨大的人才缺口使得IT业“全线告急”,这也促使更多的研究人…