当前位置: 首页 > 编程日记 > 正文

如何确定最佳训练数据集规模?6 大必备“锦囊”全给你了

【导读】对于机器学习而言,获取数据的成本有时会非常昂贵,因此为模型选择一个合理的训练数据规模,对于机器学习是至关重要的。在本文中,作者针对线性回归模型和深度学习模型,分别介绍了确定训练数据集规模的方法。

作者 | Theophano Mitsa

译者 | Johanna

编辑 | 十月 Rachel、Jane

出品 | AI科技大本营(ID:rgznai100)

数据是否会成为新时代的“原油”是人们近来常常争论的一个问题。

无论争论结果如何,可以确定的是,在机器学前期,数据获取成本可能十分高昂(人力工时、授权费、设备运行成本等)。因此,对于机器学习的一个非常关键的问题是,确定能使模型达到某个特定目标(如分类器精度)所需要的训练数据规模。

在本文中,我们将对经验性结果和研究文献中关于训练数据规模的讨论进行简明扼要的综述,涉及的机器学习模型包括回归分析等基本模型,以及复杂模型如深度学习。训练数据规模在文献中也称样本复杂度,本文将对如下内容进行介绍:

  • 针对线性回归和计算机视觉任务,给出基于经验确定训练数据规模的限制;
  • 讨论如何确定样本大小,以获得更好的假设检验结果。虽然这是一个统计问题,但是该问题和确定机器学习训练数据集规模的问题很相似,因此在这里一并讨论;
  • 对影响训练数据集规模的因素,给出基于统计理论学习的结果;
  • 探讨训练集增大对模型表现提升的影响,并着重分析深度学习中的情形;
  • 给出一种在分类任务中确定训练数据集大小的方法;
  • 探讨增大训练集是否是应对不平衡数据集的最好方式。

基于经验确定训练集规模的限制

首先,我们依据使用的模型类型,探讨一些广泛使用的经验性方法:

  • 回归分析:依据统计学中的“十分之一”经验法则(one-in-ten rule),每个预测器都需要使用 10 个实例训练。这种经验法则还有其他版本,例如用于解决回归系数缩减问题的“二十分之一”规则(one-in-twenty rule)。最近,《Sample Size For Binary Logistic Prediction Models: Beyond Events Per Variable Criteria》一文中还提出了一种有趣的二元逻辑回归变体。在该文中,作者通过预测器中变量的个数、总样本量,以及正样本量与总样本量的比值,对训练数据规模进行了估计。
  • 计算机视觉:对于利用深度学习的图像分类问题,根据“经验法则”,建议每一个类别收集 1000 张图像。如果使用预训练模型,数据集的规模则可以大幅减少。

通过假设检验确定样本规模

假设检验是数据科学常用的一种统计工具,一般也可以用于确定样本规模。

举个例子:某科技巨头搬去 A 城后,A 城的房价便急剧上涨,而某记者想知道现在每套公寓的均价是多少。那么问题来了,在保证 95% 的置信度,60 K 的公寓价格标准差,且价格误差在10K 以内的条件下,计算多少栋公寓的均价较为合理?

相应公式见下图,其中 N 为所需的样本规模,1.96 为标准正态分布在 95% 置信度下所对应的常数:

根据上述公式,该记者需要考虑大概 138 栋公寓的价格。

该公式将随着检验问题的不同而改变,但是都要通过置信区间、可容忍误差和标准差值来计算。

训练数据规模的统计学习理论

我们先介绍一下著名的 VC 维(Vapnik-Chevronenkis dimension)。VC 维是一种模型复杂度的度量;模型越复杂,它的 VC 维就越高。下面介绍根据 VC 维来确定训练数据规模的公式。

首先,通过一个例子来看一下 VC 维是如何计算的:假设一个二维平面上有三个点需要被分类,而我们的分类器为该平面上的一条直线。无论这三点怎样组合(均为正例,两正一负、一正两负等),这条直线都能正确地将正负样本归类/分开。那么,我们就认为一个线性分类器可以划分这三点中的任意一点,因而它的 VC 维至少为 3。

另外,由于存在四个点的组合不能被一条直线准确分开,所以这个线性分类器的 VC 维为 3。可以证明,训练数据规模 N 是 VC 维的一个函数:

其中 d 为失败率, epsilon 为学习中的误差率。由此可见,学习模型所需的样本量取决于模型的复杂度。但该方法有一个弊端,就是在面对神经网络显著的复杂度时,会要求十分庞大的训练数据规模。

当训练集增大时,模型的表现会持续提升吗?在深度学习任务又如何呢?

上图展示了随着数据规模的增长,传统的机器学习算法(回归等)和深度学习表现的变化。

具体来看,对于传统的机器学习算法,模型的表现先是遵循幂定律(power law),之后趋于平缓;而对于深度学习,该问题还在持续不断地研究中,不过图一为目前较为一致的结论,即随着数据规模的增长,深度学习模型的表现会按照幂定律持续提升。例如,有人曾用深度学习方法对三亿张图像进行分类,发现模型的表现随着训练数据规模的增长按对数关系提升。

值得注意的是,在深度学习中也有一些与上述例子不同的结果。比如,在《Learning Visual Features from Large Weakly Supervised Data》一文中,作者使用了一亿条 Flickr 上的图片和标签来训练卷积神经网络,刚开始模型表现会随着数据规模的增大而提升,但超过五千万张图片后模型的效果提升就不太明显了。

文章《How Training Data Affect the Accuracy and Robustness of Neural Networks for Image Classification》的作者还发现,随着训练数据规模的增加,图像分类的准确度确实会上升;但是,模型的鲁棒性会在数据规模到达一定程度后开始下降。

分类任务中确定训练数据集大小的方法

该方法基于我们所熟知的学习曲线,一般而言,学习曲线图的纵轴为误差,横轴为训练数据集大小。《 Tutorial: Learning Curves for Machine Learning in Python》和《Learning Curve》是很好的参考资料,可以用于进一步了解机器学习中的学习曲线,以及它们是如何随着偏差或方差的增加而变化的。Python 在 scikit-learn 中提供了一种学习曲线函数。

在分类任务中,我们往往会使用学习曲线的一种轻微变体,在该曲线图中,纵轴为分类准确度,横轴为训练数据集大小。训练集规模的确定十分简单:只需针对你的问题,先确定学习曲线的确切形状,然后找到曲线上你预期的分类准确度所对应的训练数据集大小即可。

例如,在文章《Predicting Sample Size Required for Classification Performance》和《How Much Data Is Needed to Train A Medical Image Deep Learning System to Achieve Necessary High Accuracy?》中,作者们将学习曲线的方法应用到了医学领域,并且给出了一个相应的幂函数:

其中,y 为分类准确度,x 为训练集,b1,b2 分别为学习率和衰减率。根据问题的不同,参数会有所不同,可以通过非线性回归或加权非线性回归对参数进行估计。

增大训练集是应对不平衡数据集的最好方式?

文章《Precision-Recall Versus Accuracy and the Role of Large Data Sets》对该问题进行了讨论。该文作者提出了一个很有意思的观点:在不平衡的数据集下,准确度并不是一个分类器表现好坏的最佳度量。

原因很简单,对于一个负样本为主的数据集,模型往往通过将大部分样本分类为负样本,以提高准确度。为了更好地衡量模型效果,他们将准确率和召回率(又称敏感性)作为不平衡数据集下度量模型表现的合理标准。

除了上述提到的关于准确度的问题,作者们还指出,对于存在不平衡数据的问题而言,模型的准确率往往对其更加重要。比如一个医院的警报系统而言,高精确率就意味着当警铃响起时,很有可能确实有病人遇到了麻烦。

之后,该文章分别使用较大的非平衡训练集和不平衡学习包(imbalanced-learn, 基于Python scikit-learn)对模型进行了训练,并使用准确率和召回率对训练效果进行了分别的度量。

第一个模型使用了一个包含5万个样本的药物研发数据,并构建了使用不平衡矫正方法的K-近邻模型。第二个模型使用了一个包含大约100万个样本的数据集上,构建了一个简单的K-近邻模型。

其中,不平衡矫正方法包括欠采样、过采样和集成学习。文章作者重复了200次实验,其结论为,当把精确率和召回率作为度量时,没有任何一种不平衡矫正方法比增加更多训练数据的效果更好。

原文链接:

https://towardsdatascience.com/how-do-you-know-you-have-enough-training-data-ad9b1fd679ee

(本文为 AI科技大本营编译文章,转载请微信联系 1092722531)


CTA核心技术及应用峰会

5月25-27日,由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开,峰会将围绕人工智能领域,邀请技术领航者,与开发者共同探讨机器学习和知识图谱的前沿研究及应用。

更多重磅嘉宾请识别海报二维码查看,目前会议早鸟票发售中(原票价1099元),点击阅读原文即刻抢购。添加小助手微信15101014297,备注“CTA”,了解票务以及会务详情。

相关文章:

Android实现左右滑动效果

本示例演示在Android中实现图片左右滑动效果。 关于滑动效果,在Android中用得比较多,本示例实现的滑动效果是使用ViewFlipper来实现的,当然也可以使用其它的View来实现。接下来就让我们开始实现这种效果。为了方便大家理解,我们先…

假如AI也会diss人类,他们会这样.....

1酷炫、未来感、强大、没灵气、不给力、垃圾、高深——如果有一个东西适用于以上所有这些词,那它一定是人工智能。人工智能的火爆一直伴随着争议和调侃。尤其是现在,大数据和机器学习已经融入到我们的生活,网上关于人工智障的吐槽却只增不减。…

[Go]在vscode中添加对模板文件tmpl的html语法自动补全的支持

1、打开设置界面 依次点击:“文件” --> “首选项” --> “设置” 2、打开文件配置 依次点击:“文本编辑器” --> “文件” --> “在settings.json中编辑” 3、添加对tmpl后缀文件的html语法自动补全支持 4、效果 html关键字高亮显示…

Docker 宿主机定时清除容器的运行日志

为什么80%的码农都做不了架构师?>>> docker 宿主机定时清除容器的运行日志 一般docker容器都是最小化安装,不仅如此系统定时器相关的服务也不存在,自己去安装也很麻烦,故此直接使用宿主机的定时器即可。 一、在容器中…

企业数据库合规的最佳实践

PCI DSS当前对于数据库要求有下述明确的控制措施: • 对访问任意数据库的所有用户进行认证。 • 所有用户访问任何数据库时,用户的查询和操作(例如移动、拷贝和删除)只能通过编程性事务(例如存储过程)。 •…

Docker网络解决方案-Flannel部署记录

Docker跨主机容器间网络通信实现的工具有Pipework、Flannel、Weave、Open vSwitch(虚拟交换机)、Calico实现跨主机容器间的通信。其中Pipework、Weave、Flannel,三者的区别是: Weave的思路 12在每个宿主机上布置一个特殊的route的…

【FFmpeg】警告:[hls] pkt.duration = 0, maybe the hls segment duration will not precise

1、问题描述 在使用ffmpeg编程生成m3u8文件时,报警告 [hls @ 0x7f26b4181840] pkt->duration = 0, maybe the hls segment duration will not precise2、原因分析 根据警告提示信息, AVPacket.duration的值设为了0,可能会导致hls在分段时时间不精确。 根据警告信息搜索…

反转字符串/列表、改变递归次数限制、else用法...Python 冷知识(四)

本文转载自Python编程时光(ID:Python-Time)冷知识系列,已经更新至第四篇。前三篇传送门在此,还没阅读的可以学习一下。谈谈 Python 那些不为人知的冷知识(一)谈谈 Python 那些不为人知的冷知识(…

我学Delphi心得与笔记-------在控件上如何禁用Ctrl+V

项目中用到一个TJamShellList组件,此组件实现绑定查询图片,发现在使用CtrlC的同时也可以使用CtrlV结果将一个图处复制了多份,这样就不行了:( 于是,想了一个办法,禁用了CtrlV组合按键,代码如下: //在KeyDown事件中写如下…

15分钟带你入门sklearn与机器学习——分类算法篇

作者 | 何从庆本文转载自AI算法之心(ID:AIHeartForYou)【导读】众所周知,Scikit-learn(以前称为scikits.learn)是一个用于Python编程语言的免费软件机器学习库。它具有各种分类,回归和聚类算法,…

【FFmpeg】警告:[mpegts] H.264 bitstream error, startcode missing, size 0

1、问题描述 在使用FFmpeg编程,编码成h.264后,再封装成hls时,报警告 [mpegts] H.264 bitstream error, startcode missing, size 02、原因分析 根据警告提示信息可知:264位流错误,开始码丢失,大小为0。 根据警告信息搜索源码,在 FFmpeg-n4.2.2/libavformat/mpegtsenc…

svg: svg预定义的形状

SVG 有一些预定义的形状元素&#xff0c;可被开发者使用和操作&#xff1a;矩形 <rect>圆形 <circle>椭圆 <ellipse>线 <line>折线 <polyline>多边形 <polygon>路径 <path> 矩形 <rect x"20" y"20" width&qu…

[转]会自动消失的对话框API函数:MessageBoxTimeout

//以下两个函数由user32.dll导出&#xff0c;只是没有微软官方文档记载&#xff0c;大家在cpp中包含了以下部分&#xff0c;就可以调用MessageBoxTimeout了。 extern "C"{int WINAPI MessageBoxTimeoutA(IN HWND hWnd, IN LPCSTR lpText, IN LPCSTR lpCaption, IN UI…

GitHub告急!黑客威胁程序员不交钱就删库

作者 | 伍杏玲出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;5月3日&#xff0c;当中国程序员正愉快地过五一节时&#xff0c;国外程序员突然发现自己GitHub上的代码不翼而飞&#xff01;自己的GitHub一秒变成悬疑片现场&#xff0c;不仅被黑客攻击删代码了&#…

【FFmpeg】ffmpeg中函数返回的错误码:AVERROR及AVERROR_*

1、AVERROR FFmpeg的错误码大部分使用的PIOSIX标准中错误码的负值。 AVERROR定义在文件 FFmpeg-n4.2.1/libavutil/error.h 中 #define AVERROR(e) (-(e)) // Returns a negative error code from a POSIX error code, to return from library functions. //FFmpeg库的错误…

entjs 键盘监听

1.应用在textfield中的回车方式&#xff1a; var siteName new Ext.form.Field({id: loadUrl,//表单元素最好使用Id&#xff0c;不然在IE浏览器中表单内容将变形fieldLabel: 密码,listeners : {specialkey : function(field, e) {if (e.getKey() Ext.EventObject.ENTER) {ale…

IIS 7.5 + FastCGI + PHP + Drupal 7 + Oracle

2019独角兽企业重金招聘Python工程师标准>>> 运行SQL命令行&#xff1a;conn system 删除drupal表空间:drop tablespace drupal INCLUDING CONTENTS; 创建drupal表空间: create tablespace drupal logging datafile d:\htdocs\db\drupal.dbf size 32m autoexten…

Yann LeCun推荐!自监督学习、全景FPN...内容平台的四大技术指南

编译整理 | 一一出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;去年陷入“数据丑闻”后的 Facebook 日子并不好过&#xff0c;在这之后他们对外界强调的关键词大部分都是“隐私”和“安全”。即便如此&#xff0c;在刚刚过去的 Facebook F8 大会上&#xff0c;扎克伯…

【FFmpeg】打印日志函数分析(可以根据不同级别打印不同颜色的日志)

FFmpeg的打印日志实现在FFmpeg-n4.2.1/libavutil/log.c中。 一、设置log等级 1、设置日志级别 日志默认级别是AV_LOG_INFO static int av_log_level = AV_LOG_INFO;使用av_log_set_level将日志级别设置为调试级别(AV_LOG_DEBUG) av_log_set_level(AV_LOG_DEBUG);源码: …

创建MySQL数据库

创建数据库命令&#xff1a; CREATE DATABASE testdb DEFAULT CHARACTER SET utf8mb4 COLLATE utf8_general_ci; 注意&#xff1a;COLLATE是校对集的意思&#xff0c;可以理解为&#xff0c;排序规则等。字符集选择utf8mb4 参考文档&#xff1a;永远不要在MySQL中使用utf8&…

Android 对象型数据库 db4o

你有木有烦恼过数据库的crud&#xff0c;有木有对sql很烦躁&#xff0c;Android虽然有封装好的ContentProvider&#xff0c;但是操作还是有点复杂了。不是很喜欢。 这两天花时间整了下DB4O&#xff0c;确实很不错&#xff0c;不用建表&#xff0c;不用写sql&#xff0c;只要写好…

【FFmpeg】设置H264参数

0、fffmpeg源码编译时,何时需要连接libx264库? ffmpeg其自带H.264解码功能,但是要实现H.264编码时就需要链接编码库libx264 ubuntu16.04安装libx264的库: sudo apt install libx264-148 sudo apt install libx264-dev一、设置x264参数的接口 // 获取编码器 AVCodec *co…

TIOBE 5 月编程语言排行榜:Python、C++竞争白热化,Objective-C已沦为小众语言

作者 | 屠敏出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;日前&#xff0c;TIOBE 编程语言社区最新发布了 2019 年 5 月排行榜。和 4 月榜单相比&#xff0c;5 月编程语言排行榜的 Top 10 位置并没有太大变化。但是在 C 和 Python 激烈的竞争局势下&#xff0c;随…

Caused by: org.xml.sax.SAXParseException: 不允许有匹配 [xX][mM][lL] 的处理指令目标。

版权声明&#xff1a;本文为 testcs_dn(微wx笑) 原创文章&#xff0c;非商用自由转载-保持署名-注明出处&#xff0c;谢谢。 https://blog.csdn.net/testcs_dn/article/details/81001749 Caused by: org.xml.sax.SAXParseException: 不允许有匹配 "[xX][mM][lL]" 的处…

Centos 64位使用 yum 会安装两个相同软件包的解决方法

Centos 64位使用 yum 会安装两个相同软件包的解决方法 - 后山一根葱Centos 64位使用 yum 会安装两个相同软件包的解决方法[Linux]post by 后山一根葱 / 2011-6-24 1:43 Friday系统环境&#xff1a;Centos 5.6 X86_64事项&#xff1a;关于yum install 安装两个相同软件包问题今天…

php的基础知识(四)

14、数组&#xff1a; 索引数组&#xff1a; 下标就是数字开始的。 $arr [a,b,c,1,2,3]; 关联数组&#xff1a; $arr [ a > b, c > d; e > f ]; 二维数组&#xff1a; 关联和索引混合的。 $arr [ a, b, c, d > [ e > h, f, g ], i, ]; 三维数组和多维数组。 …

【Ubuntu】解决问题:tcp :8080: bind: address already in use

1、问题描述 在ubuntu中启动一个web程序时报错 tcp :8080: bind: address already in use2、原因查找 查找占用8080的服务&#xff1a;sudo netstat -tanlp 注意&#xff1a;不加sudo权限时&#xff0c;不显示PID和程序名字 $ sudo netstat -tanlp 激活Internet连接 (服务器…

ICLR 2019最佳论文揭晓!NLP深度学习、神经网络压缩夺魁 | 技术头条

整理 | Linstansy责编 | Jane出品 | AI科技大本营&#xff08;id&#xff1a;rgznai100&#xff09;【导语】ICLR 是深度学习领域的顶级会议&#xff0c;素有深度学习顶会 “无冕之王” 之称。今年的 ICLR 大会将于5月6日到5月9日在美国新奥尔良市举行&#xff0c;大会采用 Ope…

浅析flex中的焦点focus

一、无焦点的困扰——组件监听不到键盘事件原因&#xff1a;只有获得焦点的组件&#xff08;确切说是InteractiveObject&#xff09;才能监听到键盘事件的目标阶段&#xff1b;键盘事件&#xff08;flash.events.KeyboardEvent&#xff09;参与冒泡阶段&#xff0c;所以焦点组件…

专访NIPS主席:如何保证论⽂评审的公平性?| 人物志

记者 | 阿司匹林编辑 | 琥珀出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;作为人工智能领域顶会 NIPS&#xff08;Conference and Workshop on Neural Information Processing Systems&#xff0c; 更名为 NeurIPS&#xff09;的主席&#xff0c;Terrence Sejnowsk…