避坑指南:如何选择适当的预测评价指标?| 程序员评测
作者 | Nicolas Vandeput
译者 | Tianyu
责编 | Jane
出品 | AI科技大本营(ID:rgznai100)
【导语】因为不存在一个适用于所有情况的评价指标,所以评估预测精度(或误差)就变成了一件不是那么容易的事情。只有通过试验,才能知道哪个性能评估指标适用于当前情况。在这个过程中,你会发现每个指标都可以避开某些陷阱,但同时也容易掉进其他陷阱。今天,我们就把几大预测评价指标一一为大家分析对比,从而对它们的适用情况更了解。
先了解一下预测的准确率和偏差:
偏差(Bias)指历史平均误差。你的预测结果对于平均值来说,过高还是过低?偏差展示了误差的整体趋势。
准确率(Precision)可以评估你的预测值与实际值之间的误差。预测结果的准确率可以揭示误差的大小幅度,但无法体现其整体趋势。
当然,如下图所示,我们想要的预测结果是既有高准确度,又没有偏差。
下面,会讲到五种指标,从它们的定义开始,然后再对比它们的适用与不足。
0、Error(误差)
首先对 error 进行定义,即预测值减去实际值。如果预测值高于实际值,那么误差为正,若低于实际值,则误差为负。
预测性能的评估指标有哪些?
1、Bias
Bias 的定义为误差的平均值。此处,n 为历史的时刻数,即预测值与实际值的个数。
由于一个正误差可能会抵消掉另一个负的误差,因此预测模型可能会得到很低的 bias,而精度却很低。很明显,只使用 bias 不足以对预测精度进行评估。
2、MAPE
平均绝对百分误差(MAPE,Mean Absolute Percentage Error)是评估预测精度的最常用指标之一。MAPE 为每个绝对误差的和除以实际值。实际上,它是误差百分率的平均值。
MAPE 是个很奇特的性能评估指标。由公式可以看出,MAPE 用每个误差值除以实际值,所以会产生倾斜:若某个时刻的实际值很低,而误差很大,就会对 MAPE 的值产生很大影响。因此,对 MAPE 的优化会导致奇怪的预测结果,很可能会使预测值低于实际值。
3、MAE
绝对平均误差(MAE,Mean Absolute Error)是一个很好的预测评估指标。如名字所描述的,它是绝对误差的平均值。
MAE 的第一个缺点是,它没有考虑到实际值的平均数。如果有人告诉你某个预测结果的 MAE 为 10,你无法知道这个结果是好是坏。如果实际值的平均数为 1000,当然这个预测精度是很不错的,但如果实际值平均为 1,这个预测的精度实在太低了。为了解决这个问题,可以用 MAE 除以实际值的平均数,得到一个百分率:
MAPE/MAE 混淆 —— 很多人会使用 MAE 的公式,却把它当成 MAPE。很多人会对此存在混淆。当我和别人讨论预测误差时,我会要求其明确解释预测误差是如何计算的,以免发生混淆。
4、RMSE
均方根误差(RMSE,Root Mean Squared Error)是一个看似不合理却很实用的指标,稍后我们会进行详细解释。它的定义为误差平方平均值的方根。
和 MAE 一样,RMSE 没有考虑到实际值的大小范围。我们同样可以定义一个 RMSE%,如下:
实际上,许多算法(特别是机器学习算法)都是基于均方误差的(MSE,Mean Squared Error):
MSE 被许多算法使用,因为它计算速度快,且比 RMSE 更容易操作。但它没有考虑到原误差值(因为误差被做了平方计算),可能导致指标无法关联到原始误差值的大小范围。因此,我们不常用它作为评估预测模型精度的指标。
MAE vs RMSW:误差权重
与 MAE 相比,RMSE 对每个误差值不是平等对待的,它会给大的误差更大的权重。这意味着一个过大的误差值会让 RMSE 值很差。
我们来看一个虚构的时间序列:
现在我们对比两个预测结果,这两个结果存在的唯一差别是最后一个预测值:预测 #1 比实际值低 7 个单位,预测 #2 低了 6 个单位。
两次预测结果的性能评估指标如下:
有趣的是,只把最后一次预测的值改变了 1 个单位,就导致整体的 RMSE 值降低了 6.9%(从 2.86 到 2.66),但 MAE 值只降低了 3.6%(从 2.33 到 2.25)。很明显,RMSE 把更大的注意力放在最大的误差值上,而 MAE 给每个误差值相同的权重。你可以自己尝试降低某个误差值,会发现对 RMSE 几乎不会产生影响。
接下来你会看到关于 RMSE 更有趣的特性。
RMSE 的预测实例
刚刚我们介绍了每个性能评估指标的定义(bias、MAPE、MAE、RMSE),但还不清楚它们使用在模型上的差异。有人可能认为用 RMSE 代替 MAE,或者用 MAE 替代 MAPE,不会有太大差异,但事实上不是这样的。
我们来看个简单的例子。假设某个产品每周的销量始终比较低且平稳,偶尔会有一笔大订单(可能受促销活动等影响)。下面是我们观察到的最近几周的销量情况:
对于该产品的销量,我们虚构三个不同的预测结果。第一个预测每天销量为 2,第二个预测每天销量为 4,第三个预测每天销量为 6,如下图所示:
我们看看每个预测的 bias、MAPE、MAE 和 RMSE 结果:
预测 #1 基于 MAPE 表现最好,预测 #2 基于 MAE 表现最好,预测 #3 基于 RMSE 和 bias 表现最好(但基于 MAE 和 MAPE 表现最差)。下面我们来看每个预测结果的组成:
预测结果 #1 取了一系列较低的值
预测结果 #2 为实际值的中位数
预测结果 #3 为实际值的平均数
中位数 vs 平均数 —— 数学最优化
在进一步讨论不同的预测性能评估指标之前,我们花点时间来了解为什么以中位数作为预测值会得到较好的 MAE,以及用平均数作为预测值会得到较好的 RMSE。
这里会涉及一些数学知识,如果你对这些公式不理解,不要在意。你可以略过这部分,直接跳到 RMSE 和 MAE 的结论部分。
1、RMSE
首先来看 RMSE:
实际上,我们可以用它的简化版,即 MSE:
如果你的预测模型把 MSE 当作指标,它会将其最小化。我们可以通过使其导数为零,来将数学函数最小化:
若要使预测最优化,模型会趋于让整体预测值与实际值相等。
2、MAE
接下来,我们对 MAE 做同样的分析:
或者
以及
这意味着
若要使 MAE 最优化(如,使其导数为零),预测模型要让预测值高于实际值的次数等于低于实际值的次数。换句话说,我们希望找到一个值可以把数据集一分为二,这也正是中位数的定义。
3、MAPE
遗憾的是,MAPE 的导数不具备直接明了的特性。我们可以简单认为,MAPE 会优先给出较低的预测值,因为当实际值比较低时,预测误差会被分配较高的权重。
结论
综上所述,在任何模型上,对 RMSE 的最优化是试图找到平均值,而 MAE 的最优化是让预测偏高的次数与偏低的次数相等。不得不承认,MAE 和 RMSE 在数学本质上存在较大的差异。一个瞄准中位数,另一个瞄准平均数。
MAE 还是 RMSE?如何选择?
我们不能说瞄准中位数好或者瞄准平均数好,这不是一个非黑即白的问题。每项技术都存在优点和隐患,下面我们会讨论这个问题。只有经过试验,才能知道哪项技术适用于当前的数据集。你甚至可以同时选择 RMSE 和 MAE。
下面我们花点时间,来讨论选择 RMSE 或 MAE 对偏差值、异常值灵敏度以及无规律序列的影响。
Bias
对于许多实例,你会发现实际值的中位数与平均数不同。可能发生的是,实际值中存在一些峰值,导致整体分布产生偏移。这些偏移的分布在供应链行业常常发生,因为定期的促销活动或客户的批量采购。这会使实际的中位值比平均数低,如下图所示:
这说明预测模型在使 MAE 最小化时会产生偏差,然而在使 RMSE 最小化时不会产生偏差(因为它瞄准的是平均数)。这确实是 MAE 的主要缺陷。
异常灵敏度
如我们所讨论的,RMSE 会为大的误差值分配高权重,同时也要付出代价:对异常点过于敏感。我们看下面的例子:
若一个序列的中位值为 8.5,平均值为 9.5。我们已经知道,如果模型使 MAE 最小化,我们会预测出中位数(8.5),这样整体会比平均数低 1 个单位(bias = -1)。之后你可能会选择对 RMSE 做最小化,预测平均值来避免这种情况。
不过,如果我们突然观察到一个值为 100:
中位数仍然为 8.5,并没有发生改变,但平均值变成了 18.1,在这种情况下,我们不希望预测结果趋近于平均数,而是重新使用中位数。
一般来说,对于存在异常值的情况,中位数比平均数的鲁棒性更强。在供应链产业中,这一点尤为重要,因为我们要面对很多异常点。
对于异常点来说,鲁棒性总是一个好的特性吗?答案是否定的。
无序序列
糟糕的是,在异常点存在的情况下,中位数的鲁棒性可能会对无规律的序列产生非常不好的影响。
试想我们对一个客户出售产品,该产品的利润很高,客户似乎每三个星期中会有一个星期下订单。遗憾的是,客户的购买行为没有任何规律。我们可以观察到其平均数为 33,但而中位数为 0。
我们不得不对该产品做每个星期的预测。试想,我们让预测模型瞄准平均数(33),经过一段时间,我们得到的总平方误差为 6667(RMSE 为 47),总绝对误差为 133(MAE 为 44)。
如果我们让预测模型瞄准中位数(0),我们得到的总绝对误差为 100(MAE 为 33),总平方误差为 10000(RMSE 为 58)。
很明显,对于没有规律的序列,MAE 是一个比较差的性能评估指标。
结论
MAE 会忽略异常值,而 RMSE 会注意到异常值并得到没有偏差的预测。那么应该使用哪个指标呢?很遗憾,不存在确定的答案。如果你是一名供应链领域的数据科学家,你应该多做试验:如果使用 MAE 作为性能评估指标会得到很大偏差,你可能需要使用 RMSE。如果数据集包含很多异常值,导致预测结果产生偏移,你可能需要用 MAE。
还需要注意的是,你可以选择一个或多个评估指标(如 MAE&bias)来计算预测的误差,然后用另一个指标(RMSE?)来对模型进行优化。
还有最后一个技巧,面对实际值较低的序列,可以将其聚合到一个更大的时间范围。例如,如果以星期为周期的值很低,你可以试试按照月份来进行预测,甚至按季度预测。你也可以通过简单的除法,把原始时间序列分解到较小的时间范围上。这一方法可以帮助你更好地使用 MAE 作为评估指标,同时对峰值做平滑处理。
原文链接:
https://medium.com/analytics-vidhya/forecast-kpi-rmse-mae-mape-bias-cdc5703d242d
(*本文为 AI科技大本营编译文章,转载请联系 1092722531)
◆
精彩推荐
◆
“只讲技术,拒绝空谈!”2019 AI开发者大会将于9月6日-7日在北京举行,这一届AI开发者大会有哪些亮点?一线公司的大牛们都在关注什么?AI行业的风向是什么?2019 AI开发者大会,倾听大牛分享,聚焦技术实践,和万千开发者共成长。目前,大会早鸟票抢购中~扫码购票,领先一步!
推荐阅读
阿里达摩院做AI这两年
性能比GPU高100倍!华人教授研发全球首个可编程忆阻器AI计算
豪投10亿!华为放话:3年培养100万AI人才!网友神回应了
《长安十二时辰》教了哪些算法知识?
非科班出身程序员,如何超越科班程序员?
谷歌停止中国版搜索引擎;李楠宣布离职魅族;微软用 Rust 替代 C/C++ | 极客头条
首批8款5G手机获3C认证:华为占4款;IBM获AT&T“几十亿美元”云计算合同;马库斯:未来薪酬将以Libra发放
用50年前NASA送阿波罗上天的计算机挖矿什么体验? 出一个块要10^18年……

相关文章:

利用JNI技术在Android中调用C++代码
JNI是Java Native Interface的简称,也就是Java本地接口,它提供了若干的API实现Java和其它语言的通信(主要是C&C)。 1、打开Eclipse,File-->New-->Project…-->AndroidApplication Project-->Application Name:TestJNI,Packag…

微软开源数据处理引擎 Trill,每天可分析万亿次事件
微软近日开源了数据处理引擎 Trill,它每天能够分析万亿次事件。项目地址:https://github.com/Microsoft/trill当下每毫秒处理大量数据正成为一种常见的业务需求,此次微软开源的 Trill,据说每秒能够处理高达数十亿事件,…

【杭电ACM】1097 A hard puzzle
【杭电ACM】1097 A hard puzzle http://acm.hdu.edu.cn/showproblem.php?pid1097 先用int手写了算法结果竟然wrong answer,估计是测试数据很大,直接上BigInteger 和modPow(),轻松解决。 1 //author:pz2 3 import java.math.BigInteger;4 im…

mvc 下的 signalR使用小结
2019独角兽企业重金招聘Python工程师标准>>> sirnal下有两种使用。 一种是 Persistent Connection ,另外一种是Hubs 。详细请看 https://github.com/SignalR/SignalR/wiki ; hubs支持浏览器与客户端互相调用方法。所以应用更广泛。 在前台…

利用JNI技术在Android中调用C++形式的OpenGL ES 2.0函数
1、 打开Eclipse,File-->New-->Project…-->Android-->AndroidApplication Project,Next-->Application Name:FillTriangle, PackageName:com.filltriangle.android,Minimum Required SDK:API 10Android2.3.3(Gingerbread),Next--&g…
Python三十年技术演变史
作者 | 宋天龙,大数据技术专家,触脉咨询合伙人兼副总裁,前Webtrekk中国区技术和咨询负责人(Webtrekk,德国的在线数据分析服务提供商)。擅长数据挖掘、建模、分析与运营,精通端到端数据价值场景设…

php 扩展包链接
https://pecl.php.net/package-stats.php?cid7转载于:https://www.cnblogs.com/gaoyuechen/p/10148754.html

面向中小企业的视频云服务 视频托管
2019独角兽企业重金招聘Python工程师标准>>> 面向中小企业的视频云服务解决方案 如果你是一个传统的企业网站,想要在网站首页加入一段视频,或者是一个垂直资讯网站想要开设视频频道,又或者想要进行一项活动的在线直播。这时候也许…

VS2010下编译OpenCV2.4.6静态库
1、 从 http://sourceforge.net/projects/opencvlibrary/files/opencv-win/2.4.3/ 下载最新的OpenCV2.4.6; 2、 将OpenCV-2.4.6.0.exe存放到D:\Soft\OpenCV2.4.6文件夹下,解压到当前文件夹下,生成一个opencv文件夹; 3、 下…

【性能优化之道】每秒上万并发下的Spring Cloud参数优化实战
一、写在前面 相信不少朋友都在自己公司使用Spring Cloud框架来构建微服务架构,毕竟现在这是非常火的一门技术。 如果只是用户量很少的传统IT系统,使用Spring Cloud可能还暴露不出什么问题。 如果是较多用户量,高峰每秒高达上万并发请求的互联…
共话数据智能新经济,首届市北·GMIS 2019全球数据智能峰会隆重召开
7月19日,上海市市北高新技术服务业园区(以下简称“市北高新”)成功举办首届「市北GMIS 2019全球数据智能峰会」(以下简称“市北GMIS峰会”)。为期两天的市北GMIS峰会以“拥抱数智经济,赋能产业生态”为主题…

最新剑桥《AI全景报告》出炉:中国发表机器学习学术研究超过美国
来源 | 转载自新智元(ID:AI_era)2019年即将过去一半,剑桥大学的两位研究人员近日推出了本年度的State AI 2019全景报告。本报告基本沿袭去年的大体框架,从产业、人才、政策、预测等方面对过去一年来AI领域的技术的新进步、产业格局…

《OpenMP编译原理及实现技术》摘录
内容摘自《OpenMP编译原理及实现技术》第2章 代码测试环境:Windows7 64bit, VS2010, 4核机。 可以说OpenMP制导指令将C语言扩展为一个并行语言,但OpenMP本身不是一种独立的并行语言,而是为多处理器上编写并行程序而设计的、指导共享内存、多…

C# 36进制转10进制
代码是Java转过来的,变量名都没有改……有空再整理一下好了。public long toDecimal(string input, long bs){try{long Bigtemp 0, temp 1;int len input.Length;for (int i len - 1; i > 0; i--){if (i ! len - 1)temp * bs;long num changeDec(input[i]);…

Oracle Cloud Native Framework推出云原生解决方案
摘要:Oracle Cloud Native Framework云原生平台提供托管云服务和本地软件,同时在现Oracle云基础架构上跨应用程序配置和分析大量服务。developer relations for Oracle Cloud Infrastructure副总裁Bob Quillin讨论了该框架的优势以及对2019年云原生市场的…
OpenMP知识点汇总
1. OpenMP(Open Multi-Processing)官网:http://openmp.org/wp/ 2. OpenMP最新版本4.0,2013年7月发布。Visual Studio 2010内置支持OpenMP2.0,选中工程属性->C/C->Language->Open MP Support:选中Yes(/openmp)即可,然后在…

chsop 兼容jquery(解决与transport.js冲突)
2019独角兽企业重金招聘Python工程师标准>>> $(function() { window.__Object_toJSONString Object.prototype.toJSONString; delete Object.prototype.toJSONString; }); 要用到jquery的页面放入此代码即可 转载于:https://my.oschina.net/netmouse/blog/1241…

进程详细剖析(二)
摘自《C多核高级编程》 5.6.3 进程状态 在进程执行期间,它的状态会发生改变。进程的状态时指进程的当前状况。在POSIX兼容的环境中,进程可以处于以下状态: 1)运行(running) 2)就绪(runnable, r…

AI算力需求6年增长30万倍,「超异构计算」才能满足下一个10年
今年 3 月,「强化学习教父」Richard Sutton 在《苦涩的教训》一文中指出,「70 年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最有效的方法。要在短期内有所提升,研究人员要利用专门领域的人类知识。但如果想要长期的获…

一览六月最热的5篇AI技术论文
作者 | 神经小姐姐转载自HyperAI超神经(ID: HyperAI)导语:始建于 1991 年的 arXiv.org 至今已收录超过 100 万篇论文预印本,近年来,其每月提交量已经超过 1 万篇。这里成为一个巨大的学习宝库。本文罗列了 arXiv.org 上…

OnCheckedChanged的触发需要AutoPostBack=true
OnCheckedChanged的触发需要AutoPostBack"true"
OpenCV中resize函数五种插值算法的实现过程
最新版OpenCV2.4.7中,cv::resize函数有五种插值算法:最近邻、双线性、双三次、基于像素区域关系、兰索斯插值。下面用for循环代替cv::resize函数来说明其详细的插值实现过程,其中部分代码摘自于cv::resize函数中的源代码。 每种插值算法的前…

企业金融云存储建设之路
当前世界形势千变万化,各种技术创新层出不穷,新兴业务模式也是波谲云诡,企业的信息化建设如何紧跟业务,适应业务乃至驱动业务转型是各级管理者的头等题目。对于底层执行者,如何能够快速满足企业的要求,如何…

【原创】VB利用堆栈实现算术表达式计算
这个抽象算法早已为人所知,只不过在VB的公开文档中鲜见示例代码。于是,为了提高自己的程序设计水平,锻炼自己的能力,我写了如下代码。 【VB代码版权所有,允许转载修改用作学习目的,转载必须注明来源】 【求…

树莓派4与英伟达Jetson Nano性能大比拼,谁是最佳的嵌入式“电脑”?
作者 | Chris Pietschmann译者 | 弯月,责编 | 屠敏转载自CSDN(ID:CSDNnews)导读:日前,Raspberry 基金会发布了开发者为之兴奋的 Raspberry Pi 4,其不仅在性能上进行了全面的升级,而且…

作为互联网流量入口,CDN日志大数据你该怎么玩?
CDN是非常重要的互联网基础设施,用户可以通过CDN,快速的访问网络中各种图片,视频等资源。在访问过程中,CDN会产生大量的日志数据,而随着如今越来越复杂的网络环境变化,和业务的迅速增长,日志数据…
OpenCV中图像旋转(warpAffine)算法的实现过程
在OpenCV中,目前并没有现成的函数直接用来实现图像旋转,它是用仿射变换函数cv::warpAffine来实现的,此函数目前支持4种插值算法,最近邻、双线性、双三次、兰索斯插值,如果传进去的参数为基于像素区域关系插值算法(INTE…

10亿美元续命!OpenAI获微软投资,意在通用人工智能?
来源 | OpenAI官博译者 | 孙薇编辑 | 一一出品 | AI科技大本营(ID:rgznai100) 7 月 22 日,微软宣布将对非营利人工智能研究组织 OpenAI 投资 10 亿美元,用于通用人工智能(AGI)的开发。双方将以微软原有的公…

TrayIcon 类 添加系统托盘不显示托盘图标
为什么80%的码农都做不了架构师?>>> 好久不碰 java swing最近写了一个swing 程序 添加托盘时,怎么也不显示图标,就一空白 ,在网上搜了老半天,大部无效。 边看帖子边看 java api ,结合理解,有一属性设置了一…

Crystal Report 加载模板报错 无法在c++ 堆栈中打开由jrc 引擎处理的文档
2019独角兽企业重金招聘Python工程师标准>>> 纠结了很久, 尝试过录入一个错误的路径,文件读取也是包相同的错误,也就是表示找不到路径文件而已,并不是开发环境的问题 于是设置一个最简单的路径,放置下去rpt模板,代码后续没有报错; 再次之前也修复了一个关于引用的dl…