提高建模效率,改变手工作坊式生产,AutoML的技术研究与应用进展如何了?
整理 | 王银
出品 | AI科技大本营(ID:rgznai100)
【导读】12 月 5-7 日,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN、中科天玑协办的中国大数据技术大会(BDTC 2019)在北京长城饭店隆重举行。100+ 顶尖技术专家、1000+ 大数据从业者齐聚于此,以“大数据驱动智能+”为主题,聚焦智能时代大数据技术的发展曲线,围绕大数据与社会各行业相结合的最新实践,进行了深度解读和讨论。
其中,热门的“自动化机器化学习技术与系统”论坛于12月6日拉开帷幕,作为本次论坛的开场嘉宾,江苏鸿程大数据研究院副总经理、南京大学PASA大数据实验室博士朱光辉带来了《自动化机器学习AutoML技术研究进展 》的主题演讲。
核心观点:改变人工智能建模依赖专家的手工作坊式生产,打造人工智能建模的“数控机床”,利用机器替代人工实现AI模型的构建,大幅提升AI建模效率,降低AI技术门槛,加速AI应用落地。
以下内容为演讲实录,由AI科技大本营(ID:rgznai100)整理:
众所周知,机器学习与人工智能技术目前已经成为国家重要发展战略之一,各行各业都在积极向人工智能转型升级。著名计算机专家李开复曾预计,到2025年,AI将无处不在,“AI赋能行业”应用模式在未来将迎来高速成长。然而AI在行业应用落地时,却存在着专业人才短缺、技术门槛高、建模周期长等痛点,导致很多中小企业对人工智能望尘莫及。
打造AI行业的“数控机床”
随着人工智能的普及,科技公司对人工智能的要求越来越高,人才成本、准确度、效率都影响着人工智能能否落地融入到日常的使用中。对人工智能应用的快速增长也进而催生了对影响人工智能水平的关键要素——机器学习方法的需求。正因此,自动化机器学习方法AutoML应运而生,利用机器替代人工完成AI建模,从AI for APP到AI for system最后到AI for AI,用人工智能的方法自动化完成AI模型的构建,大幅降低AI的使用门槛,从而提升建模效率。
“自动化机器学习就好比构建一个AI行业的数控机床,以前靠人现在靠机器,多快好省的以自动化的方式生产AI模型。“朱光辉说,传统的AI模型训练往往要经历特征分析、模型选择、调参、评估等步骤,这些步骤需要经历数月的时间,如果完全没经验,时间会更长。
而AutoML可以完全不用依赖人工专家经验,它可以依靠数学方法,人工智能算法理论由完整的数学推理的方式来证明,自动化完成模型自动选择和参数调优,最终实现实现端到端机器学习流水线的自动化设计。具体来说,就是给定通过输入数据集,在更短的时间内尝试更多的算法模型,寻找到最优或者满足应用精度需求的算法模型。而后针对特定模型,通过数据的分布和模型的性能,不断评估最优解的分布区间,实现对参数进行优化的目的。
AutoML不仅可以解决传统学习,还可以解决深度学习、终生学习。AutoML可以解决自动化特征工程、自动化模型选择、自动化参数优化等不同类型的任务,在类型和任务确定的前提下可以选择针对特定任务的AutoML方法,比如语言元学习、强化学习、遗传算法等等。
多纬度突破创新
南京大学PASA大数据实验室从2017年开始研究自动化机器学习,谈及具体取得了哪些进展,朱光辉从以下层面进行了介绍。
基于强化学习的三阶段机器学习流水线,自动化设计算法框架。为了实现高效的机器学习流水线的自动化设计,提出基于强化学习的三阶段机器学习流水线算法的框架,主要包括——元学习阶段、强化学习阶段和集成学习阶段。针对强化学习阶段,将机器学习流水线自动化设计的问题抽象成强化学习问题,即将从开始到数据预处理,再到特征选择、算法选择的这样一个流水线抽象成强化学习的问题,再利用强化学习Q-Learning或者DQN等强化学习的方法来解决问题,最终自动地设计出一个最优的机器学习流水线。
如下图所示,每个状态代表当前pipeline所处的阶段及当前阶段所选择的算法,不同阶段之间的算法可以跳转,但分类算法选择不可以跳过,因为只有先选择一个分类算法才可以解对应的分类问题。在既定的计算时间内怎么选择最优的流水线,最终由强化学习来自动决定。
另外,元学习阶段通过收集多个数据集进行预训练,实现强化学习阶段实现热启动。集成学习阶段使用Stacking等集成学习方法对多个性能较好的机器学习流水线进行集成,进一步提升算法鲁棒性。在PAKDD 2018 举办的第二届AutoML国际竞赛,朱光辉带领团队从全球285支队伍中脱颖而出,取得了国际第三名的优异成绩。另外,为了提升AutoML算法的运行效率,团队研究实现了并行化的AutoML算法,支持分布式运行。基于集成学习阶段,开发PASA-AutoML系统平台实现端到端的机器学习流水线自动化设计。笼统来讲,PASA-AutoML对在验证集上表现良好的模型使用交叉验证,得到训练集以及测试集的预测作为新的训练集和测试集的特征;而后使用新的训练集训练一个高层分类器(逻辑回归),然后用高层分类器类预测新的测试集来得到最终的预测结果。
朱光辉强调,为了实现AutoML的应用落地,将进一步将AutoML技术封装成一个完整的系统,叫做PASA-AutoML。PASA-AutoML性能优于目前国际上最好的开源自动化机器学习系统Auto-sklearn。,它不仅简单易用,而且支持更丰富的AutoML业务场景。,还支持超单优化的调优,而相比于单机算法,PASA-AutoML能够在更短的时间内取得更好的预测性能。
基于自适应连续筛选的模型选择/超参调优。现实的应用场景中算法和模型的超单数的组合空间非常巨大,但可用的AutoML时间资源却是有限的,因此过滤出最有模型/超参数就显得尤为重要。将模型选择问题抽象成多臂赌博机(Multi-armed bandit)问题,将每个候选模型作为赌臂,并且为每个模型构建贝叶斯模型,而后在每一轮候选模型验证过程中,根据贝叶斯超参优化结果选择超参数,将表现较差的模型/超参数组合尽可能早地过滤掉,从而将更多的资源分配给表现较好的模型/超参数组合,从而提升AutoML计算效率。
基于终身学习场景,围绕自动化特征编码、自动化特征组合、自动化特征选择进行规范自动化特征工程以及增量学习技术,提出基于时间窗口的自适应同时加权集成学习算法,最终实现能够自动捕捉数据集特征的变化,实现模型的动态更新自适应地设计出模型的目的。也正是通过这个技术实验,南京大学PASA大数据实验室在NIPS 2018举办的第三届AutoML国际竞赛中从全球348支参赛队伍(包括清华大学、北京大学、麻省理工学院、UC Berkeley等国内外知名高校以及微软、腾讯、阿里巴巴等科技巨头公司)脱颖而出,取得国际第三名的优异成绩。
基于时序多表关系型数据集,构建高效有效机器学习模型。在实际生产环境下,数据往往分布在多个关系数据表中,而多表自动关联后,特征维数急剧膨胀。这时,采用基于采样的自动化特征选择方法可以有效降低内存开销;除此之外,还可以采用基于多次采样数据的集成学习方法,将LightGBM作为学习器,并利用贝叶斯优化进行超参数调优。而在KDD Cup 2019数据挖掘国际大赛中荣获TOP10优胜奖(全球860多支参赛队伍),体现了该技术在解决时序多表关系数据AutoML正是AutoML能够高效利用关系型数据的有效性有力佐证。
基于多保真度优化,提出优化深度神经网络超参算法。在多保真度优化层面,相比于传统的机器学习,深度神经网络训练时间开销较大,对应地,深度神经网络超参调优的时间开销也会大幅度提升。而为了提升深度神经网络超参优化效率,团队提出多保真度优化和early-stopping机制相结合的算法,在多组采样数据集上高效评估超参数组合性能,同时具备良好的anytime performance和final performance。
AutoSpeech大赛显身手
随着AutoML越来越火,越来越多的人开始尝试将AutoML和时间序列数据集、自然语言文本数据集以及语音数据集关联起来,通过自动化的方式解决语音自动化分类或者文本的自动分类问题。朱光辉所在的团队参加了在ACML 2019举办的第一届AutoSpeech国际竞赛,并获得第一名,并获邀至在加拿大举办的NIPS 2019做技术分享报告。AutoSpeech作为NIPS 2019 AutoDL自动化深度学习系列挑战赛之一,吸引了广泛的关注。
该赛事的指标是图里阴影的面积,它是性能和时间的积分,叫做性能的时间函数。这个指标不仅要考虑性能,而且要在更短的时间得到性能优异的模型内出结果。因为做AutoML算法要考虑其通用性的特点,比如音频数据集可能涉及3个甚至100个类别,音频时长不同,数据集的特征不同,但是算法要涵盖不同数据集的特点,做通用的解决方案。
首先,针对不同数据集,制定通用解决方案,语音特征选取MFCC、梅尔频谱,文本就是数据选取用TF-IDF特征快速出结果,再用Embedding提升最终性能,从而构建的递增式学习框架。
根据评价指标,团队设计了一个比较个性化的框架,先用简单的模型,逻辑回归模型快速得出结果,再用复杂的模型,如神经网络CRN或LSTM得到较高的性能。根据这样一个评价指标先用简单的模型快速得出结果,再用复杂的模型提出最终的性能,用增量的学习框架解决这个问题。
团队还为该模型做了一个集成学习的方法,每个模型会一直维护 top3 的小集成,在通过求大集成和小集成的平均率得到最终的效能。
在一些数据集下用传统的机器学习算法就已经达到了很好的性能,出结果很快,不到几秒就能达到性能上限,说明做文本分析或语音分类解决实际问题时不一定上来就用神经网络,可以选择比较好的特征,用传统的机器学习模型探索,再逐渐应用深度学习网络。
此外,朱光辉还表示南京大学PASA大数据实验室下一步的重点是做自动化特征组合的相关工作,他们发现,各种比赛的特征组合对于提高最终的性能非常有帮助,所以其首要工作就是自动化的特征组合。
第二,将聚焦于AutoML的效率方面,提高AutoML效率也是一个非常关键的问题,比如可以通过采样提高性能,或通过减少迭代次数提升大数据的AutoML性能。
第三,深度森林为代表的深度集成学习的架构搜索。
在和华为的一项合作项目中发现,做自动化机器学习技术时不仅考虑模型性能,还要考虑模型的复杂度,比如华为很多算法部署在基站信号塔里,所以要考虑模型的复杂度和性能优化的问题。
第四是AutoML+图像、文本、语音、时间序列。PASA大数据实验室也正在研究自动化半监督学习,让用户只需要部分标注数据就可以实现自动化建模。
“如今,我们的技术已经被华为、360广泛使用,有非常广阔的市场空间,我们的团队成立了研究院江苏鸿程大数据研究院,加快科技成果转化。”谈及未来,朱光辉说,“我们还将进一步开发完善AutoML平台,面向细分行业提供定制化分析的AutoML产品或服务,以自动化和高效易用的方式,支持行业大数据智能化分析建模与应用的快速开发。“而我们也坚信,让AI惠及更多的行业和企业,以此让AI真正普及并赋能行业应用。”
(*本文为AI科技大本营整理文章,转载请微信联系 1092722531)
推荐阅读
千万用户同时在线,优酷智能档在双11“猫晚”直播如何防卡顿?
人工智能尴尬的2019:需要钱却没钱可烧了
不要让 Chrome 成为下一个 IE
通向人工智能产业落地化的道路在哪?
OPPO 物联网开放之路
把自己朝九晚五的工作自动化了,有错吗?
迎风而来|刮向央视的这朵云是什么来头?
量子通信,到底是什么工作原理?
这三名男子靠开加密矿池获得7.22 亿美元,却不兑现收益拿去奢侈挥霍……
你点的每个“在看”,我都认真当成了AI
相关文章:

.net使用memcached
Windows中memached安装 -------------服务器端配置 1>开始>运行:CMD(确定) 2>cd C:\memcached(回车) 3>memcached -d install(回车 这步执行安装) 4>memcached -d start(回车 这步执行启动memcache服务器,默认分配64M内存&…
22张精炼图笔记,深度学习专项学习必备
作者 | DL&CV_study9编辑 | Elle来源 | CSDN 博客本文为人工智能学习笔记记录。【深度学习基础篇】一、深度学习基本概念监督学习:所有输入数据都有确定的对应输出数据,在各种网络架构中,输入数据和输出数据的节点层都位于网络的两端&…

WMI技术介绍和应用——查询文件夹信息
本文使用了《WMI技术介绍和应用——使用VC编写一个半同步查询WMI服务的类》中代码做为基础。本节只是列出了WQL语句,具体使用参看前面的例子。 本节主要介绍Win32_Directory类。通过该类我们将可以获得部分常用的文件夹信息。在该类中,有属性Name&#x…

CSLA .NET概述
CSLA是Component-based, Scalable, Logical Architecture的简写,CSLA .NET是Rockford Lhotka基于.Net设计的一套N-tier分布式框架。 CSLA .NET包含如下功能: l n-Level undo capability 译:n层撤销功能 l Tracking broke…

简短的几句js实现css压缩和反压缩功能
写在前面 最近一直在整理css,但因为现在Visual Studio 2013太智能了,它每每在我按ctrlED进行格式化代码的时候,就会将css进行层次格式化(如下图所示),而这个格式让我老大实在无法忍受,我老大认为…
迁移学习前沿研究亟需新鲜血液,深度学习理论不能掉链子
作者 | Frederico Guth,Tefilo Emidio de Campos编译 | 夕颜出品 | AI科技大本营(ID:rgznai100)【导读】人类可以从很少的样本中学习,显示出了人类卓越的泛化能力,而这一点学习算法仍远做不到。当前,最成功的模型需要大量标记好的…

WMI技术介绍和应用——查询磁盘分区和逻辑磁盘信息
本文使用了《WMI技术介绍和应用——使用VC编写一个半同步查询WMI服务的类》中代码做为基础。本节只是列出了WQL语句,具体使用参看前面的例子。(转载请指明出于breaksoftware的csdn博客) 本节主要介绍Win32_DiskPartition和Win32_LogicalDisk两…

用 jQuery 的 AJAX 功能发现的一个错误/注意点:HTTP Error 411
今天程序中有个地方需要 Ajax 方式 POST 数据,发现在 IE 6.0 下正常,而 FireFox 2.0.0.9 下则出错。通过 FireBug 抓取 ajax 回发后得到的页面信息如下:HTTP Error 411 - Length required 经过 google 搜索发现,这个 HTTP 状态码对…

jquery 取消 radio checked 属性,重新选中的问题解决
<input type"radio" name"test"/> <input type"radio" name"test" id "input2"/> (说明:使用的jquery 版本是 1.10.2。) 使用 jquery 的removeAttr(),清除掉 radio 的checked属性后。使用 attr(…

使用×××版软件中常见的一些错误代码
1、错误代码(691):由于域上的用户名或密码无效而拒绝访问。如果是使用的易游提供的服务器,请在帐务系统确认使用的帐号是否状态正常,刚设置好的帐号需要等5分钟才能使用。如果是外部服务器请直接找服务器提供商。2、错…
程序员在地铁写代码遭疯狂吐槽!网友:装什么装
01作为了解程序员这个行业的人来说程序员的工作真的很累加班已经成为他们的标签有的时候网站出事或者需求比较紧急的时候可能路边也是他们的工作场地所以这个时候对于程序员们的工作来说也是不分场合的02之前看到网上有人拍到程序员在地铁上写代码的照片并将之发到网络上 图片一…

如何定制一款12306抢票浏览器——构架
快春节了,火车票一票难求。虽然黄牛市场冷淡了,但是互联网“娱乐界”却越来越闹腾了。先是猎豹等浏览器推出抢票专版(插件),然后是铁道部约谈金山,之后流传工信部叫停抢票插件,之后再是工信部出…
一些链接, 关于不可变数据
这篇笔记介绍不可变数据, Persistent Data Structure 和 Immutable. 但是不深入数据结构实现, 函数式编程理论. 定义 https://en.wikipedia.org/wiki/Persistent_data_structure In computing, a persistent data structure is a data structure that always preserves the pre…
囚犯学会编程之后会发生什么?
作者 | Simone Stolzoff译者 | 苏本如,责编 | 郭芮出品 | CSDN(ID:CSDNnews)【导读】Slack是硅谷一家多元化的公司,它雇佣了三名以前被监禁的程序员。但事实上,当一个人从监狱获释时,监禁的耻辱…

如何定制一款12306抢票浏览器——用户界面
用户界面 我不打算写个Windows界面。因为这个软件的全部就是个浏览器。我准备将”浏览器“进行到底,所以我选择使用html作为我们的用户界面。我也并不打算从头开始写一个浏览器,我使用了《内嵌IE网页窗口中消除IE默认脚本设置影响的方法》中基于WTL的浏览…

Study on Android【四】--显示控件使用
Android的界面显示同样也是基于控件的。通常是用View(包括ViewGroup)控件配上XML的样式来做的。具体细节不想说了,可以参考 Samples里的ApiDemos/View,和View的Doc,以及Implementing a UI这篇Doc。其他还有很多&#x…

修改Vim配色方案
1. 查看备选的配色方案/usr/share/vim/vim74/colors2. 查看当前使用的配色方案在命令模式下输入 :colorscheme可见当前使用的配色方案为ron3.选择和设置配色方法编辑 ~/.vimrc文件,如选择ron.vim对应的配色方案,则添加 colorscheme ron4. 设置某项颜色--…

如何定制一款12306抢票浏览器——启动“人”线程
启动“人”线程 在《如何定制一款12306抢票浏览器——构架》一文中,我们提到“人”线程。对于熟悉Window编程的同学来说,线程间通信和信息传递不是难题。但是由于浏览器和我们“人”线程之间传递的是COM对象,这个过程就没有那么简单了。&…

看看你是《老朋友》(青春六人行)里的哪一个
(点击“which friends character are you?”连接可以进入问卷页面) Which Friends Character Are You? You are Rachel. Youre very selfish and pay great attention to image. Spoiled when you were young, you were always the popular and sn…

360金融沈赟:只有适配实践的技术才能实现价值掘金
金融科技应用的新场景、新需求层出不穷,已成为创新技术的理想“试验田”。然而当“创新”浪潮褪去,行业回归审慎与冷静后不难发现,并非所有创新技术都会深入金融土壤。对此,360金融首席数据科学家沈赟认为,只有适配实践的技术才能…

swift(一)基础变量类型
import Foundationprintln("Hello, World!")/*int a; */ var a 10 //隐式类型转换 a 9 println(a)let b 10 println(b)/* 类型标注 *///var x:Int //x 10.3不支持隐式转换let x: Int 10/* 名称不用在符合标示符的规范 */ let 常量 10/* 基本数据类型࿱…

如何定制一款12306抢票浏览器——实现自动查询和预订功能
检查是否进入订票页面 判断是否进入订票页面,我是确定了两个标准:(转载请指明出于breaksoftware的csdn博客) 1 网址是否为http://www.12306.cn/mormhweb/kyfw/ 2 该页面否有查询按钮 BOOL CDeal12306WebPage::IsQueryPage( CComPt…

以数据为中心,立足六大技术支柱,英特尔推动神经拟态计算、量子计算前沿探索
近日,英特尔中国研究院院长宋继强围绕 “英特尔如何构建技术基石,驱动未来计算”为主题做了演讲。他阐述了英特尔将坚持“以数据为中心”的目标,并指出依托于XPU产品组合,英特尔通过异构整合和oneAPI软件平台来推动实现超异构计算…

Fedora 7 播放器totem
说实话,我喜欢这个东东,简约而不简单。我以前一直用mplayer,不过还是喜欢totem的长相。很多人说不能播放,可以这么做,让它支持全部(用mplayer的codecs):(1)首先将系统已有的totem移去 # yum remove totem(2…

如何定制一款12306抢票浏览器——处理预订页面和验证码自动识别功能
判断是否进入预订页面我们先看一下预订页面的结构(转载请指明出于breaksoftware的csdn博客)可以见得,这个页面也是嵌入了两个IFrame。关于IFrame的跨域问题,我已经在前一篇文章中讲述了解决办法。我判断是否是预订页面是通过两个依…
利用MTCNN和FaceNet实现人脸检测和人脸识别 | CSDN博文精选
作者 | pan_jinquan来源 | CSDN博文精选(*点击阅读原文,查看作者更多文章)人脸检测和人脸识别技术算是目前人工智能方面应用最成熟的技术了。本博客将利用MTCNN和FaceNet搭建一个实现人脸检测和人脸识别的系统。基本思路也很简单,…

[导入]郁闷`````[原]
阅读全文 类别:职场生涯 查看评论文章来源:http://hi.baidu.com/huqing7002/blog/item/b69a27082063fbd263d98619.html转载于:https://www.cnblogs.com/huqing7002/archive/2007/12/14/1007049.html

code标签的妙用
code标签的秒用是: 当你写了一大版的css或者html或者其他代码,想要去掉代码中多余的空格和换行从而达到压缩的目的的时候,可以新建一个html文件,然后把想要压缩的代码段放到code标签里,保存,浏览器浏览&…

如何定制一款12306抢票浏览器——完结篇
差不多花了一个星期的业余时间去完成了相关的编码。最后也只是使用了5篇文章将整个大题流程和使用的关键技术介绍了一下。其中有很多酸甜苦辣,其中记忆最为深刻的就是我对图像做了处理后,tesseract-ocr对验证码识别的准确度提升非常大。当我还沉浸子在这片喜悦之中时,12306将…

所有各数据库或文件的连接串定义CHM文件.
从www.connectionstrings.com 中制作生成/Files/margiex/DotnetConn.rar