第四范式戴文渊:AI落地,为什么不能照搬教科书?
“年少成名”、“天才”,在中国 AI 行业里用这两个词同时形容一个人的牛人不多,第四范式创始人戴文渊位列其中。
在上海交通大学就读本科期间,戴文渊就带领三人团队夺得了 2005 年 ACM 的世界冠军和三个亚洲冠军,并担任ACM竞赛教练指导学生多次获得亚洲冠军,戴文渊在当时被人称为神级存在。而在学术成就上,其论文多次被 NIPS, ICML, AAAI, KDD 等国际顶级学术会议收录,有人形容其发顶级会议如同探囊取物。
在香港科技大学读研期间,戴文渊投身到下一代机器学习技术——迁移学习的研究与探索中,根据 Google Scholar 统计,戴文渊于 2007 年发表的论文《Boosting for Transfer Learning》在迁移学习领域论文引用数至今排名世界第三。
进入业界后,他先是担任百度“凤巢”系统的技术负责人,帮助百度建立机器学习驱动业务的能力,随后在短短三年内就成为最年轻的百度高级科学家、T10 员工,一举扩大了其在业界的广泛知名度。
2013 年,戴文渊入职华为,任华为诺亚方舟实验室主任科学家。那一年,华为进入金融领域的势头正盛,但与其他科技巨头相比其解决方案的赢面并不大。但戴文渊凭借其对技术方案的整体把控能力,最终扭转了局面。而在华为的短暂一年,戴文渊获得了“President Award”。
但这并没有满足戴文渊更大的技术野心。戴文渊是一个害怕被“供养”的闲不住的技术人,而大公司难以提供实现其技术野心的空间。
电影《肖申克的救赎》一句台词说,“有些鸟儿是关不住的,因为它们的羽毛太鲜亮了。”
戴文渊(左)和杨强(右)
2015 年,戴文渊走上创业道路。为了帮助企业拥有整个机器学习的闭环系统,产生智能能力,带着“AI for everyone”的使命,戴文渊和他的老师——香港科技大学教授杨强一起创办了现在的第四范式,他们用机器学习技术对数据进行精准预测与挖掘,帮助企业提升效率、降低风险,获得更大的商业价值。
第四范式立足金融行业,把银行把反欺诈的规则数量从几千条,提升到了 25 亿条规则,由此银行的反欺诈识别准确率提升了数倍。同时,它们也在不断探索人工智能在媒体、医疗、电商等行业的商业及公益应用,与各行业的标杆企业、权威机构展开深度合作。
实际上,这是戴文渊在华为那一年时就在做的事,他要让 AI 变成使用门槛不高的工具,能够让更多地业务人员能够操作 AI。比如他们所开发的 AI 平台去产生类似今日头条或者是快手这样的千人千面的推荐系统,或者提供金融领域的风控模型。
第四范式发布首个人工智能全流程平台“先知”,获得了“吴文俊人工智能科学技术创新奖”的一等奖,这是中国在智能科技领域的最高奖。
一如既往,无论是学生时代,进入大公司还是成为创业者,戴文渊每一次社会身份的转变都稳扎稳打,大跨步前进,但不变的是他对技术变革的深刻理解。
作为第四范式的 CEO,戴文渊的已经不需要负责具体的技术研发工作,但作为人工智能领域的大牛,他对技术的了解和思考似乎从未让他远离研发一线,积累了务实而丰富的 AI 落地经验。
由于 AI 技术的火热发展,很多开发者都通过教科书来学习机器学习。但随着数据、应用环境的不断变化,现在的很多教科书很快在过时,有时,即便是作者本人也很难描述出 AI 技术实践的本质。
在一次内部演讲中,戴文渊就曾指出机器学习教材的七个经典问题。
教材与实际应用有出入,他指出,在实际工业应用中,他们不会完全按照教科书中的方式去实践。虽然他们也会设计很深的模型、很深的决策树、很多的特征、会过拟合一点,但他们更强调按时间拆分,不强调均衡采样。
以特征选择为例。有些教科书会单独开个章节来讲特征选择,告诉技术人员在拿到数据后,要先删除一些不重要的特征,甚至有的教科书注明,特征数不能超过一千,否则模型效果不好。但其实这个结论也是有前提条件的,如果数据量少,是不能够充分支撑很多特征,但如果数据量大,结论就会不一样。所以他们做 Logistic Regression 时会有几十亿个特征,而不是限制在几百个特征。
现在,随着数据量增加,特征量也需要增加。所以在他看来,在大数据环境下,整个机器学习教科书里关于特征选择的章节已经落后于时代,需要根据新的形式重新撰写;当然在小数据场景下,它仍然具有价值。
又比如过拟合的问题。以前如果模型做的太复杂就会过拟合,但现在来看,大多数的实际场景都是在拿过去预测未来,过拟合不一定不好,还是要看具体场景。
戴文渊称,实际上在他们的设计里面,很多时候会倾向于往过拟合靠一点,在拿过去预测未来的应用场景下,有的时候过拟合不一定不好。
所以他认为,技术人员需要学会根据实际场景做出相应灵活判断。
人工智能落地在术的层面,观念层面的纠偏戴文渊已经指出来了,但究竟如何根据应用场景来做出技术调整,他还有哪些 AI 落地还有哪些颠覆行业人士认知的实践经验?
9.6-7 日,作为 AI ProCon 2019 的 Keynote 嘉宾,第四范式创始人、CEO 戴文渊将同来自全球各地的 60 余位 AI 专家和学者,包括亚马逊首席科学家李沐、微软(中国)首席技术官韦青、驭势科技联合创始人&董事长&CEO 吴甘沙、华为诺亚方舟实验室语音语义首席科学家刘群、Google Brain 工程师俞玶等将齐聚一堂,共同研讨人工智能领域最新的技术趋势与最严峻的挑战和难题。
本次大会,我们邀请到来自阿里、华为、Google Brain、Amazon、微软中国、百度、京东、小米、快手、科大讯飞、商汤、旷视、图森、云知声、思必驰等企业和机构的重磅嘉宾,在 Keynote 和机器学习、计算机视觉、自然语言处理、知识图谱、推荐系统、5G 驱动 AIoT、AI 开源、AI+小程序、AI+DevOps 9 大技术论坛上分享硬核 AI 技术。
此外,AI ProCon 2019 邀请到了亚马逊首席科学家@李沐,在大会的前一天(9.5)亲授「深度学习实训营」,通过动手实操,帮助开发者全面了解深度学习的基础知识和开发技巧。

9大技术论坛、60+主题分享,百余家企业、千余名开发者共同相约 2019 AI ProCon!技术驱动产业,聚焦技术实践,倾听大牛分享,和万千开发者共成长。5折优惠票抢购中!

社群福利
扫码添加小助手,回复:大会,加入2019 AI开发者大会福利群,每周一、三、五 更新学习资源、技术福利,还有抽奖活动~
推荐阅读
最前沿:堪比E=mc2,Al-GA才是实现AGI的指标性方法论?
开源之战
别再造假数据了,来试试Faker这个库吧!
国外大神制作的超棒NumPy可视化教程
突发!Python再次第一,Java和C下降,凭什么?
白话中台战略:中台是个什么鬼?
伟创力回应扣押华为物资;谷歌更新图片界面;Python 3.8.0b3 发布 | 极客头条
沃尔玛也要发币了,Libra忙活半天为他人做了嫁衣?
知名饮料制造商股价暴涨500%惊动FBI,只因在名字中加入了"区块链" ?

相关文章:

Kong Api 网关使用 docker 部署
Kong 镜像: https://hub.docker.com/_/kong 官网给定的用户安装手册上并没有设置 PG 的密码,导致如下问题无法启动 nginx: [error] init_by_lua error: /usr/local/share/lua/5.1/kong/init.lua:277: [PostgreSQL error] failed to >retrieve server_version_num…

Windows7中搭建Android x86_64及armv8-a操作步骤
1. 从https://developer.android.com/tools/sdk/ndk/index.html 下载android-ndk-r10d-windows-x86_64.exe 和 android-ndk-r10d-linux-x86_64.bin; 2. 在Ubuntu1404 64位中通过终端安装ndkr10d:./android-ndk-r10d-linux-x86_64.bin ; 3.…

ContentResolver.query()—buildQueryString()
Cursor cursor context.getContentResolver().query(Sms.CONTENT_URI, new String[]{"thread_id from sms where type 3 group by thread_id—"}, // 可以这样使用。 null, null, null); 07-17 10:55:17.084: E/AndroidRuntime(30157): FATAL EX…

Room Database完全使用手册
前言 Android数据持久层直接使用SQLite很麻烦,Google官方推出了Room, Google对Room的定义: The Room persistence library provides an abstraction layer over SQLite to allow fluent database access while harnessing the full power of …

wiki的使用
Wiki一词来源于夏威夷语的”weekee wee kee”,被译为”维基”或”维客”。Wiki是一种多人协作的写作编辑平台。在Wiki网站上,访问者可以修改、完善已经存在的页面,或者创建新内容。 可以利用”维基百科:沙盒”来练习如何编辑&…

GAMIT安装备忘
2019独角兽企业重金招聘Python工程师标准>>> 系统环境: VMware Workstation9 ubuntu 10.04 操作 1.安装VMware Workstation 参考: VMware Workstation下载:http://pan.baidu.com/share/link?shareid407480&uk258569718…

FreeType简介及在vs2010的编译使用
FreeType库是一个开源、高质量、可扩展、可定制、可移植的字体引擎,它提供统一的接口来访问多种字体格式文件,包括点阵字、TrueType、OpenType、Type1、CID、CFF、Windows FON/FNT、X11 PCF等。 FreeType有两个License,一个是BSD-stype&…

firefox下的调试工具
2019独角兽企业重金招聘Python工程师标准>>> vue-devtools https://addons.mozilla.org/en-US/firefox/user/13100848/ 转载于:https://my.oschina.net/u/3371661/blog/3003299

NLP为RPA带来了什么价值?
什么是 RPA(Robotic Process Automation)?机器人流程自动化(RPA)是一种自动化工具,用于创建软件机器人的虚拟劳动力,从而优化和降低企业中端到端业务流程的成本。RPA 可以翻译成机器人流程自动化…

从原理到代码,轻松深入逻辑回归模型!
整理 | Jane出品 | AI科技大本营(ID:rgznai100)【导语】学习逻辑回归模型,今天的内容轻松带你从0到100!阿里巴巴达摩院算法专家、阿里巴巴技术发展专家、阿里巴巴数据架构师联合撰写,从技术原理、算法和工程…

JVM内存管理学习总结(一)
I.JVM进程的生命周期 JVM实例的生命周期和java程序的生命周期保持一致,即一个新的程序启动则产生一个新的JVM进程实例,程序结束则JVM进程实例伴随着消失。那么程序启动和程序终止就是JVM实例生命周期的两个边界,两个边界点可以这么理解&#…
开源库Simd在vs2010中的编译及简单使用
Simd是开源的图像处理库,它提供了很多高性能的算法,这些优化算法主要由SIMD指令来实现,包括SSE、SSE2、SSSE3、SSE4.1、SSE4.2、AVX等,此库可以应用在windows/linux 32bit/64bit等系统中。此库更新较频繁。此库的license是MIT。下…

Dubbo2.6.5+Nacos注册中心(代替Zookeeper)
在上一节的小栗子的基础上,只需要更改两个地方 第一个:父工程的pom依赖增加 <!-- Dubbo Nacos registry dependency --><dependency><groupId>com.alibaba</groupId><artifactId>dubbo-registry-nacos</artifactId>…

Nginx(二) 配置与调试
nginx 主配置文件在安装目录下的conf中,名字为nginx.conf:主配置文件主要分为4部分:main(全局设置)、server(主机设置)、upstream(负载均衡服务器设置)和location&#x…

AI编程语言图鉴
作者 | 元宵大师责编 | 胡巍巍来源 | CSDN(CSDNnews)当前最炙手可热的领域非“人工智能”(Artificial Intelligence)莫属。其实,“人工智能”的火热并非一蹴而就,早在1956年“人工智能”概念就已经被提出了…

C++动态二维数组演示的代码
将代码过程中经常用到的代码珍藏起来,下边资料是关于C动态二维数组演示的代码。 #include <iostream> #include <string>using namespace std;{for( int i 0; i < x; i ){List[i] new int[y];for( int j 0; j < y; j ){List[i][j] 0;}}for( i…

linux发送email错误 501 Syntax: HELO hostname
2019独角兽企业重金招聘Python工程师标准>>> 查看你的hostname hostnamecentos58 然后vi /etc/hosts 添加hostname对应的ip 103.24.3.171 centos58 参考http://blog.csdn.net/tammy_zhu/article/details/5563383 转载于:https://my.oschina.net/u/257088/bl…

redux-thunk使用教程
从无到有一步一步创建一个react-redux、redux-thunk使用教程:本教程GitHub地址:https://github.com/chunhuigao/react-redux-thunk创建react工程在电脑上找一个文件夹,在命令窗使用create-react-app 创建我的react工程;这一步应该…

VLC SDK在VS2010中的配置及简单使用举例
1. 从http://www.videolan.org/vlc/download-windows.html下载vlc-2.2.0-win32.7z,解压缩;2. 新建一个VLCtest控制台工程;3. 将/vlc-2.2.0-win32/vlc-2.2.0/sdk/include添加到工程属性中,C/C -->General …

百万奖金悬赏AI垃圾分类,就问你来不来?
也许我们从来没有想过,看似简单的垃圾分类居然给“聪明”的人类带来如此大的困扰2019年7月1日,史称“最严格的垃圾分类法”《上海市生活垃圾管理条例》正式开始施行一夜之间上海人最常用的见面语从“侬好”变成了“侬是什么垃圾?”虽然只有可…

资质申报 - 系统集成企业资质等级评定条件(2012年修定版)
关于发布《计算机信息系统集成企业资质等级评定条件(2012年修定版)》的通知工信计资[2012]6号各省、自治区、直辖市、计划单列市工业和信息化主管部门、新疆生产建设兵团工业和信息化委员会、各级资质评审机构,各有关单…

@HostListener 可接收的事件列表
下面有一个文档详细介绍Angular 中的事件列表: https://github.com/angular/angular/blob/master/packages/compiler/src/schema/dom_element_schema_registry.ts#L78。 星号代表的是事件 (no prefix): property is a string.*: property represents an event.!: pr…

GraphSAGE: GCN落地必读论文
作者 | William L. Hamilton, Rex Ying, Jure Leskovec来源 | NIPS17导读:图卷积网络(Graph Convolutional Network,简称GCN)最近两年大热,取得不少进展。作为 GNN 的重要分支之一,很多同学可能对它还是一知…

Ubuntu14.04 32位上编译VLC2.2.0源码操作步骤
1. 首先安装必须的依赖软件,打开终端,执行:sudo apt-get install git libtool build-essential pkg-config autoconf2. 从 http://www.videolan.org/vlc/download-sources.html 下载vlc-2.2.0源码,将其存放到/home/spring/VLC目录…

根据PromiseA+规范实现Promise
Promise是ES6出现的一个异步编程的一个解决方案,改善了以往回调函数的回调地狱(虽然写起来也挺像的)。不会Promise的可以移步阮一峰的Promise,这里讲的非常清晰。 就现在的发展情况而言,Promise这种解决方案频繁的在我们的代码中出现…

黄浴:基于深度学习的超分辨率图像技术发展轨迹一览
作者 | 黄浴转载自知乎导读:近年来,使用深度学习技术的图像超分辨率(SR)取得了显著进步。本文中,奇点汽车自动驾驶首席科学家黄浴对基于深度学习技术的图像超分辨率技术进行了一次全面的总结,分析了这门技术…

Qt简介、安装及在Ubuntu14.04 32位上简单使用举例
Qt是一个跨平台的C图形用户界面应用程序开发框架。它既可以开发GUI程序,也可用于开发非GUI程序。Qt是面向对象的框架,很容易扩展。Qt是一个C工具包,它由几百个C类构成,你在程序中可以使用这些类。Qt具有OOP的所有优点。 跨平台的…

FOSCommentBundle功能包:设置Doctrine ODM映射(投票)
原文出处:12b-mapping_mongodb.md原文作者:FriendsOfSymfony授权许可:创作共用协议翻译人员:FireHare校对人员:适用版本:FOSCommentBundle 2.0.5文章状态:草译阶段Step 12b: Setup MongoDB mapp…

Python最大堆排序实现方法
Python最大堆排序实现方法,具体代码如下: # -*- coding: utf-8 -*- def merge_sort(seq, cmpcmp, sentinelNone): """合并排序,伪码如下: MERGE(A, p, q, r) 1 n1 ← q - p 1 // 前个子序列长度 2 …

内含福利 | 世界人工智能大会:对话大咖,深挖机器学习的商业应用
机器学习作为人工智能时代的关键技术突破,已经在日常生活中广泛应用,给用户带来便利。越来越多的企业也通过机器学习,解决生产和经营中的难题。传统制造业:应用机器学习,部署系统异常检测方案,预测组件寿命…