从谷歌AutoML到百度EasyDL,AI大生产时代,调参师不再是刚需
出品 | AI科技大本营
头图 | 付费下载于视觉中国
2018 年,Google Cloud 宣布将 AutoML 作为机器学习产品的一部分。至此,AutoML 开始进入大众的视野。
实际上,2013 年AutoWEKA的发布可以算作AutoML的开端;2014 年,ICML开始组织AutoML研讨会,AutoML成为学术界的研究热点之一;2018 年,Google 将AutoML产品化,产业界开始全面关注。
到底什么是AutoML?AutoML能解决什么问题?
其实,AutoML理念就是用 AI 设计 AI,将特征提取、模型选择、参数调节等需要人工干预的环节进行自动化,使得机器学习模型无需人工干预即可被应用。
Google CEO Sundar Pichai 曾表示:Google 希望简化设计机器学习模型的神经网络,从而降低 AI 的门槛。设计神经网络是极其耗费时间的,其对专业知识的极高要求将适用人群缩小到了科研人员和工程师。这就是Google创造 AutoML 的原因,AutoML 表明,利用神经网络设计神经网络也是可行的。Google希望 AutoML 能拥有现在一些博士所具备的能力,并在 3~5 年内使众多开发者也能通过 AutoML 设计神经网络,满足其特定的需求。
由于AI 人才的极度稀缺,AutoML 诞生的初衷是为了降低 AI 开发者的门槛,帮助各行各业都能使用AI 的能力,让更多的 AI 应用落地。但 AutoML 只是针对 AI 落地中的特定环节,并不能真正解决 AI 落地的实际问题。
根据百度与波士顿咨询公司的联合调研报告,约86% 的市场需求需要定制开发业务场景下的AI模型。定制模型过程中,企业用户和开发者往往会面临缺少模型训练经验、数据采集和标注成本较高、模型适配与部署流程较为繁琐、模型优化迭代周期长等核心难点,从而会造成整个项目的成本高、周期长、且在前期对项目效果无法准确预期。
因此,需要降低门槛的不只是算法调优,被取代的也不仅仅是调参师,AI 大规模落地需要 AI 生产流程的全面自动化,于是就有了百度EasyDL。
从谷歌AutoML到百度EasyDL,被自动化的不只是模型设计
2017 年 11 月,为解决面临AI转型压力的企业开发者的问题,EasyDL 应运而生,百度也成为国内最早推出零门槛深度学习平台的公司。
2018 年 4 月,百度宣布全面开放EasyDL,基于百度飞桨在深度学习领域深厚的技术积累,EasyDL 开始走上快车道。
作为百度大脑推出的零门槛AI开发平台,EasyDL 支持面向各行各业有定制 AI 需求的企业用户及开发者使用。
EasyDL 集成了百度自研的AutoDL技术,帮助模型在给定的数据集上自动调优,获得更好效果。其中,AutoDL 包含Auto Augment(自动数据增强)、Auto Finetuner(自动超参搜索)、NAS(自动网络架构搜索)等自动化建模技术,旨在进行模型自动调优,获得更好效果,降低算法工程师进行模型调优的成本。
算法调优只是AI 应用落地中的一小部分,除此之外,EasyDL也通过技术手段尽可能降低AI 模型生产、应用全流程的成本。
总的来说,EasyDL有以下几大技术优势:
一站式AI服务:EasyDL提供围绕AI服务开发的端到端的一站式AI开发和部署平台,包括数据上传、数据标注、训练任务配置及调参、模型效果评估、模型部署。
完善安全的数据服务:针对开发者在 AI 开发过程面临的数据痛点,EasyDL支持训练数据的高质量采集与高效标注,支持在模型迭代过程中不断扩充数据,助力持续提升模型效果。包含软硬一体采集方案、自动数据清洗/扩充、智能标注、自动数据闭环等。将模型开发所需人工标注的数据量减少70%,数据采集效率从周提升到小时。
超高精度训练效果:内置基于百度超大规模数据训练的预训练模型,包括超大规模视觉预训练模型,及文本预训练模型文心ERNIE,底层结合百度自研 AutoDL/AutoML技术,基于少量数据就能获得出色效果和性能的模型。
端云结合灵活部署:基于 EasyDL训练完成的模型可发布为公有云API、设备端 SDK、私有服务器部署、软硬一体方案,灵活适配各种使用场景及运行环境。用户无需关注模型转换、适配加速、服务部署等细节,能获得可直接运行、部署的镜像及可进行二次开发的SDK。特别是设备端部署已经支持四大操作系统,15+芯片类型,广泛适配了市场上的主流硬件设备。
目前,EasyDL还从覆盖更广泛的技术方向出发,推出传统ML 方向、语音识别方向、OCR、视频追踪等定制化能力,并从易用性的角度着手,在数据、模型、服务等各个方面,持续降低使用门槛。并且,EasyDL也会推出更多 QuickStart、Demo 教程,帮助用户快速上手。
简单只是外在,专业才能帮助AI真正大规模落地
EasyDL 通过对 AI 生产全流程的优化,极大降低了深度学习的应用门槛,使得企业不必花费高昂的成本构建算法工程师团队,也能享受到 AI 浪潮带来的红利。
百度的理念是,希望通过先进的技术把 AI 开发变得像使用家电一样简单,用户不必了解家电的内部构造和电路原理,也能享受家电带来的便捷。
然而越是追求使用简单,它的内在就会越复杂。EasyDL也是一样,为了面向用户提供简单易用的使用流程,EasyDL平台内部采用了诸多复杂的深度学习算法和工程技术,以保证应用效果。
1)数据处理
在很多场景中,数据难收集和难处理是一大痛点,也是阻碍 AI 模型开发和应用的常见问题之一。今年 5 月 EasyDL 全新发布了 EasyData 智能数据服务平台,提供一站式的数据采集、数据清洗、数据标注、数据回流的完整解决方案,助力开发者高效获取AI 开发所需的高质量数据。
在数据采集方面,EasyData提供软硬一体、端云协同的自动数据采集方案,目前支持接入摄像头采集图片、云服务数据回流两种数据采集方式,其中摄像头采集图片提供了免费的本地采集 SDK,可以支持各类硬件平台的自定义抽帧采集图片,并将图片即时同步到 EasyData 管理。
在数据标注方面,EasyData 提供了图片、文本、音频、视频四种数据格式的11 种数据标注模板,并提供了最全面的智能标注方案,在物体检测、图像分割、文本分类三类任务场景中,通过百度自研的Hard Sample主动学习挖掘算法,进行针对性适配,在同样的模型效果指标下,可减少 70% 的数据标注量。
在数据清洗方面,EasyData提供了图片数据清洗的完整解决方案,支持相似度去重、去模糊、裁剪、旋转、镜像5种标准的清晰方案,以及高级清洗方案,可过滤无人脸、无人体的图片,并可根据需求保留识别出来的人脸或人体数据做为标注信息,大幅提升清洗数据的效率。
2)模型训练
AI 的行业应用场景是非常分散的,如何保障各个场景下模型的效果都达到较高的水平,使得精度符合应用要求,也是非常大的挑战。
目前EasyDL在这个方向上,一方面是通过大规模预训练模型,基于百度积累多年的海量数据和知识预训练,能够保证模型的泛化效果和通用性;另一方面是通过建设领域模型,针对特定场景提供具备更好适配性的算法模型。
在视觉任务中,图像分类训练任务内置百度基于海量互联网数据,包括 10万+分类、6500 万图片训练的超大规模预训练模型,平均精度可提升3.24%-7.73%;物体检测训练任务内置百度基于 800+ 标签、170 万图片,1000 万+ 检测框训练的超大规模物体检测预训练模型,平均精度可提升 1.78%-4.53%。
在自然语言处理方向,EasyDL预置了由百度自研预训练模型文心(ERNIE)。据悉,文心在中英文的 16 个任务上已经超越了业界最好模型,全面适用于各类NLP 应用场景。
由于目前大部分模型采用的都是分布式训练,为了提升训练效率,提高加速比,EasyDL基于飞桨 DGC 加速机制,通过只传送重要梯度(稀疏更新)的方式来减少通信带宽使用,在网络带宽受限的情况可以大幅提升通信效率,相比普通分布式训练,有70% 以上的训练速度增益。
3)服务部署
在最后的部署环节上,AI 模型小型化和边缘计算的发展是技术趋势也是挑战,而百度一直在这一领域有着深厚的积累。目前,EasyDL的设备端SDK已经适配了百度昆仑芯片、Intel 神经加速棒、华为 NPU、华为 Atlas、高通 DSP、RK 等15+芯片类型,以及 4 大常用操作系统,并实现了模型自动的量化压缩和性能加速。在软硬一体方案部署上,EasyDL提供了 基于 Nvidia Jetson 和百度自研硬件EdgeBoard的共6款软硬一体方案,支持专项适配与加速,覆盖高中低全矩阵,模型识别速度可提升 10 倍。
因此,对于开发者来说,简单的流程只是外在,而EasyDL的专业才是帮助 AI 大规模落地的秘籍。
AI的“万有引力”:人人做AI,才能AI为人人
据了解,目前使用EasyDL的用户数已经超过70 万,目前已经覆盖20多个行业场景,包括安全、互联网、工业、农业、医疗、物流、零售、教育、科研等。
随着 AI 技术的发展,各行各业应用 AI 进行转型的需求也在爆发式增长。当前,AI 赋能千行万业的愿景仍然处于起步阶段,AI 在很多时候更被认为是很高深需要非常大投入的技术领域,而实际上EasyDL正在颠覆这一点。
百度EasyDL平台正在不断升级自身技术,同时为 AI 落地持续赋能,为产业智能化转型提供更多创新力量。与此同时,EasyDL也正在积极的推进生态的建设,比如9 月底新上线的模型AI市场,就是通过平台化的基础设施,促进生态的繁荣。
为了进一步降低企业应用 AI 的门槛与成本,EasyDL也重磅推出“万有引力”计划,为有 AI 应用需求的企业提供专项基金,助力万家企业,创享 AI 能力。
AI 的作用是相互的,只有人人做 AI,人人用 AI,才能最终实现AI for Everyone。
更多精彩推荐
四款5G版iPhone 12齐发,苹果股价却应声而跌
魏永明:我们的目标是取代物联网中的安卓
性能超越图神经网络,将标签传递和简单模型结合实现SOTA
隐私数据在隐私AI框架中的安全流动
证监会回应蚂蚁集团暂缓上市;网易严选宣布退出“双11”;TypeScript 4
相关文章:

Python 语法小知识
为什么80%的码农都做不了架构师?>>> 序列解包 将含有多个值的序列解开,然后把值存放到变量中,当函数或者方法返回元组时这个特性很有用,可以把返回的序列值直接赋值给变量,在序列解包时等号两边的元素个数…

CSS布局之-水平垂直居中
对一个元素水平垂直居中,在我们的工作中是会经常遇到的,也是CSS布局中很重要的一部分,本文就来讲讲CSS水平垂直居中的一些方法。另外,文中的css都是用less书写的,如果看不懂less,可以把我给的demo链接打开&…

DataGrid连接Access的快速分页法——动态生成SQL语句
作者:黎波using System;using System.Text;namespace Paging{/// <summary>/// FastPaging 的摘要说明。/// </summary>public class FastPaging {private FastPaging() {}/// <summary>/// 获取根据指定字段排序并分页查询的 SELECT 语句。/// &…
一文读懂机器学习“数据中毒”
作者 | Ben Dickson翻译 | 火火酱~出品 | AI科技大本营头图 | 付费下载于视觉中国在人类的眼中,下面的三张图片分别展示了三样不同的东西:一只鸟、一只狗和一匹马。但对于机器学习算法来说,这三者或许表示同样的东西:一个有黑边的白色小方框。…

chartee
2019独角兽企业重金招聘Python工程师标准>>> 一个绘制图表的类库,支持绘制股票的K线图,还可以绘制曲线、柱状图等等。 Code4App编译测试,测试环境:Xcode 4.3, iOS 5.0。 转载:http://www.adobex.com/ios/source/detail…

C语言存储类关键字
1、static这个关键字有三种用法:(1)第一种是用来修饰局部变量,使之成为静态局部变量;静态局部变量存储在数据段/bss段中,作用域是代码块作用域,生命周期是程序生命周期,链接属性是无…

显示DataGrid序号的一个适用的方法
作者Blog:http://blog.csdn.net/wangj2001/如果数据量小的话没有问题,一旦数据量大,显示特别慢,还有个缺点就是拖动行高时行号不随行高的变化而变动,出现是几个序号在一个单元格中显示。我自己对他们的算法进行总结&am…

Integer的自动缓存
2019独角兽企业重金招聘Python工程师标准>>> Interger装箱有个自动缓存的概念 Integer a 100;Integer b 100;Integer c 200;Integer d 200;System.out.println(a b); //trueSystem.out.println(c d); //false Integer是对象,比较的是对象在内存中…
崩溃!双十一第 4 天,某互联网公司黄了?
01打折这么狠是不是要黄了??今年的双十一,开始地比以往早一些!不知道各位程序员小哥哥们的战绩如何,是不是已经被一轮又一轮的定金、尾款,折腾到数学细胞耗尽?付款了也不清楚自己有没有真正的「…
FreeBSD设备驱动管理介绍(BSP: Ti AM335x)
这段时间一直在忙FreeBSD驱动移植的项目,因此对FreeBSD做了一定的了解,鉴于网上对于FreeBSD的设备驱动资料较少,在这里给出本人对于FreeBSD驱动管理的理解心得(主要是USB驱动管理),希望能对开源开发者有所帮…

视障人士体验自动驾驶:携导盲犬登车,未来有望“自己开”
6月27日,滴滴出行首次面向公众开放自动驾驶服务。用户可通过滴滴APP线上报名,审核通过后,将能在上海自动驾驶测试路段,免费呼叫自动驾驶车辆进行试乘体验。现阶段,滴滴自动驾驶载人测试范围仅限于在上海开放测试道路上…

Listview获取选中行的值
一般情况请注意别先删除了选中行,又去使用。那就会导致找不到选中行。。。。。哥犯了这个错误。。。找了很长时间问题if (this.lstwlview.SelectedIndices.Count > 0) { if (MessageBox.Show("确认删除该条码?",…

asp.net中DataGrid性能测试
作者Blog:http://blog.csdn.net/yzdy/ 测试环境:数据库服务器:2.4G P4 CPU,2G 内存,Windows Advanced Server 2000,SQL Server 2000Web服务器:2.4G P4 CPU,1G 内存,Windows Advanced…

javassist学习笔记
2019独角兽企业重金招聘Python工程师标准>>> 介绍:www.javassist.org/ javassist、ASM 对比 1、javassist是基于源码级别的API比基于字节码的ASM简单。 2、基于javassist开发,不需要了解字节码的一些知识,而且其封装的一些工具类可…
金融领域首个开源中文BERT预训练模型,熵简科技推出FinBERT 1.0
出品 | AI科技大本营头图 | CSDN付费下载于东方IC为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 FinBERT 1.0。据悉,这是国内首个在金融领域大规模语料上训练的开源中文BERT预…

raspberry pi下使用mp3blaster播放mp3音乐
首先:sudo apt-get install mp3blaster mp3blaster wode.mp3会报错 但是加padsp mp3blaster wode.mp3 就可以正常播放了

把Excel文件中的数据读入到DataGrid中
作者Blog:http://blog.csdn.net/net_lover/使用Excel文件做为DataGrid的数据源是非常简单的,一旦数据被装载进来,就可以把数据再保存进SQL Server或XML中。我们只需要简单地使用OLE DB Provider 来访问Excel文件,然后返回DataSet即…

Vue 数组中更新属性值后,视图不更新,等待其他元素更新后会触发的解决办法...
因为 JavaScript 的限制,Vue.js 不能检测到下面数组变化: 直接用索引设置元素,如 vm.items[0] {}; 修改数据的长度,如 vm.items.length 0。 this.examineIntro.questionList[0].selList[1].url url;为了解决问题 (…
DeepMind 最新论文解读:首次提出离散概率树中的因果推理算法
翻译 | 高卫华出品 | AI科技大本营头图 | CSDN付费下载自视觉中国当前,一些前沿AI研究人员正在寻找用于表示上下文特定的因果依赖关系清晰的语义模型,这是因果归纳所必需的,在 DeepMind的算法中可看到这种概率树模型。概率树图用于表示概率空…

使用c#+(datagrid控件)编辑xml文件
作者Blog:http://blog.csdn.net/ouyang76cn/ 使用c#(datagrid控件)编辑xml文件 这个源码是我根据网上一个vb.net编辑xml文件的原理用c#重写的。除重用xml文件外.并未重用任何代码!. 这小段代码,可对xml文件的记录进行删除,修改&am…

HorizontalTable
2019独角兽企业重金招聘Python工程师标准>>> HorizontalTable 实现了可水平滚动的 TableView。 转载:http://www.adobex.com/ios/source/details/00000761.htm 转载于:https://my.oschina.net/u/868244/blog/106055

敏捷软件开发的12个原则
作为一个软件工程师,软件设计和开发是最重要的技能,但是,从整个产品的角度上讲,项目管理能力比开发能力更重要,本文摘自Robert大叔的《敏捷软件开发》,粗体是Robert大叔的话,细体是我的理解。 1…

JAVE EE 企业级开发之从零开始学JAVA【51CTO技术论坛】
http://bbs.51cto.com JAVE EE 企业级开发之从零开始学JAVA 从零开始学JAVA?YES!本刊内容全部为午饭redking整理、撰写,所涉及内容均为原创,非常适合入门级JAVA新人学习,从理论到实际,跟随redking一起学习JAVA&#x…
打工人,打工魂,抽终身会员,成为人上人!
今年双11,CSDN直接来了个前所未有的福利大奖!CSDN终身会员还有全站课程免费学!喜欢吗?哈哈哈哈,还没完呢!买CSDN年会员,不要¥299,只要¥199!超级年…

如何创建一个用弹出窗口来查看详细信息的超链接列
如何创建一个用弹出窗口来查看详细信息的超链接列出处:www.dotnetjunkie.com 这篇文章来自于一位忠实的DotNetJunkie的建议,他最初发了一封email给我们,要求我们给出一个例子来说明如何在DataGrid中设置一个当用户点击时能够弹出显示其…

HashSet的使用
2019独角兽企业重金招聘Python工程师标准>>> 1.Set中元素是无序的 HashSet setnew HashSet(); set.add("a"); set.add("b"); set.add("c"); set.add("d"); System.out.println(set);//结果:[d,b,c,a]2.Set不允许…

python实现nginx图形界面管理
好久没有更新博客了,最近一直在学习python,于是,在有空闲的时间写下python视图界面管理nginx,写得不够好,不过希望能帮忙到其他童鞋,再次感叹,强大的python,不说了,上代码。 [rootlo…
小马智行获2.67亿美元新融资,估值超53亿美元
11月6日,小马智行(Pony.ai)宣布获得由加拿大安大略省教师退休基金会(Ontario Teachers Pension Plan,OTPP)旗下教师创新平台(Teachers’ Innovation Platform, TIP)领投总计2.67亿美…

DataSet导出CSV格式(ASP.NET,C#)
DataSet导出CSV格式(ASP.NET,C#)作者:NotMSN:notkinghotmail.comEmail:notssohu.com本文引用下面的 Microsoft .NET 框架类库命名空间:System.Data;System.Web.UI.WebControls;概要本文解决将DataSet导出到CSV格式问题、将DataGrid中的数据导出到CSV格式…

ArcEngine的ToolbarControl解析
转自Love Lyre原文 ArcEngine的ToolbarControl解析 ToolbarControlClass有三个主要的接口: IToolbarControl, IToolbarControl2, IToolbarControlDefault 其中,IToolbarControl2是IToolbarControl的新版本.而IToolbarControlDefault is a pure dispatch interface,始终是I…