当前位置: 首页 > 编程日记 > 正文

机器学习问题的十个实例【转】

机器学习是什么?这个问题的答案可以参考权威的机器学习定义,但是实际上,机器学习是由它所解决的问题定义的。因此,理解机器学习最好的方式是观察一些实例。

首先来看一些现实生活中众所周知和理解的机器学习问题的实例,然后讨论标准的机器学习问题的分类(命名系统),学习如何辨别一个问题是属于哪种标准案例。这样做的意义是,了解所面对的问题类型,我们就可以思考所需要的数据和可尝试的算法。

机器学习问题的十个实例

机器学习问题到处都是,它们组成了日常使用的网络或桌面软件的核心或困难部分。推特上“想来试试吗”的建议和苹果的Siri语音理解系统就是实例。

以下,是十个真正有关机器学习到底是什么的的实例。

  • 垃圾邮件检测:根据邮箱中的邮件,识别哪些是垃圾邮件,哪些不是。这样的模型,可以程序帮助归类垃圾邮件和非垃圾邮件。这个例子,我们应该都不陌生。
  • 信用卡欺诈检测:根据用户一个月内的信用卡交易,识别哪些交易是该用户操作的,哪些不是。这样的决策模型,可以帮助程序退还那些欺诈交易。
  • 数字识别:根据信封上手写的邮编,识别出每一个手写字符所代表的数字。这样的模型,可以帮助程序阅读和理解手写邮编,并根据地利位置分类信件。
  • 语音识别:从一个用户的话语,确定用户提出的具体要求。这样的模型,可以帮助程序能够并尝试自动填充用户需求。带有Siri系统的iPhone就有这种功能。
  • 人脸识别:根据相册中的众多数码照片,识别出那些包含某一个人的照片。这样的决策模型,可以帮助程序根据人脸管理照片。某些相机或软件,如iPhoto,就有这种功能。
  • 产品推荐:根据一个用户的购物记录和冗长的收藏清单,识别出这其中哪些是该用户真正感兴趣,并且愿意购买的产品。这样的决策模型,可以帮助程序为客户提供建议并鼓励产品消费。登录Facebook或GooglePlus,它们就会推荐可能有关联的用户给你。
  • 医学分析:根据病人的症状和一个匿名的病人资料数据库,预测该病人可能患了什么病。这样的决策模型,可以程序为专业医疗人士提供支持。
  • 股票交易:根据一支股票现有的和以往的价格波动,判断这支股票是该建仓、持仓还是减仓。这样的决策模型,可以帮助程序为金融分析提供支持。
  • 客户细分:根据用户在试用期的的行为模式和所有用户过去的行为,识别出哪些用户会转变成该产品的付款用户,哪些不会。这样的决策模型,可以帮助程序进行用户干预,以说服用户早些付款使用或更好的参与产品试用。
  • 形状鉴定:根据用户在触摸屏幕上的手绘和一个已知的形状资料库,判断用户想描绘的形状。这样的决策模型,可以帮助程序显示该形状的理想版本,以绘制清晰的图像。iPhone应用Instaviz就能做到这样。

这十个实例展示了一个机器学习问题是什么样的很好的理念。有一个专门的文集记录那些有着历史意义的例子。其中一个例子是,一个需要建模的决策,为该决策有效地的自动建模为某一行业或者说领域带来了利益。

有些问题是人工智能中,如自然语言处理和机器视觉(处理人们很容易处理的问题),最困难的问题。其他一些也很困难,但它们同时是很经典的机器学习问题,如垃圾邮件检测和信用卡欺诈检测。

想想你在过去的一周中跟线上或线下的软件之间的交互。你肯定能很轻易的推测出十或二十个直接或间接使用的机器学习实例。

机器学习问题的类型

通过上述的机器学习问题的实例,你一定已经意识到一些相似性之处。这种技能很有价值,因为擅长从现象看本质,使得你可以高效的思考需要的数据和可尝试的算法类型。

关于机器学习,有一些常见的分类。以下这些分类,是我们在研究机器学习时碰到的大多问题都会参考的典型。

  • 分类:标记数据,也就是将它归入某一类,如垃圾/非垃圾(邮件)或欺诈/非欺诈(信用卡交易)。决策建模是为了标记新的未标记的数据项。这可以看做是辨别问题,为小组之间的差异性或相似性建模。
  • 回归:数据被标记以真实的值(如浮点数)而不是一个标签。简单易懂的例子如时序数据,如随着时间波动的股票价格。这个建模的的决策是为新的未预测的数据估计值。
  • ?聚类:不标记数据,但是可根据相似性,以及其他的对数据中自然结构的衡量对数据进行分组。可以从以上十个例子清单中举出一例:根据人脸,而不是名字,来管理照片。这样,用户就不得不为分组命名,如Mac上的iPhoto。
  • 规则提取:数据被用作对提议规则(前提/结果,又名如果)进行提取的基础。这些规则,可能但不都是有指向的,意思是说,这些方法可以找出数据的属性之间在统计学上有说服力的关系,但不都是必要的涉及到需要预测的东西。有一个找出买啤酒还是买尿布之间关系的例子,(这是数据挖掘的民间条例,真实与否,都阐述了期望和机会)。

当你认为一个问题是机器学习问题时(如需要从数据中建模的决策问题),接着思考下什么问题类型可以直接借用,或者,用户或需求期待什么样的结果,反过来也这样做。

资源

很少有资源列出现实世界中机器学习的问题清单。也可能它们就在那,但我没发现。我还是找到了一些很酷的资源供你们参考:

一年一度的“Humies”奖:这是一些授予那些计算到的结果可以媲美人类的算法的奖项。这些算法只是工作在数据或者付费函数上,就能够如此有创造性,足以违反专利。太了不起了!

人工智能效应:有这样一种观念:只要人工智能程序取得了足够好的成绩,就不再被看做人工智能,而只当做是科技,然后被日常使用。这个观念,同样适用于机器学习。
人工智能大赛:这个大赛涉及了人工智能领域中非常困难的问题,如果这些问题能够解决,将会是强大的证明人工智能的案例(科幻小说中想象的那种,真正的人工智能)。计算机视觉和自然语言处理都是人工智能竞赛问题的实例,它们也被当作是机器学习问题的特定领域的分类。

2013年机器学习十大问题:这个Quora上的问题有一些非常精彩的回答,其中一个答案列出了实际的机器学习问题的粗略分类。

上文我们讨论了一些现实世界中机器学习问题的常见实例及其种类。现在,我们有信息谈论一个问题是否属于机器学习问题,并且能够从问题描述中挑选出一些元素来判断它属于分类类型,回归雷系,还是属于规则提取类型。

转载于:https://www.cnblogs.com/fuleying/p/3894156.html

相关文章:

node项目部署到服务器报错,记一次部署node项目到centos服务器经历

:-}先从网上随便搜了个 contos 安装 node 的教程,大概就是这样。准备命令:yum -y install gcc make gcc-c openssl-devel wget下载源码及解压:编译及安装:cd node-v0.10.26make && make install验证是否安装配…

用shell脚本监控系统

简单的用shell脚本写一个“监控”程序作为思路,大致为:实时检测系统的内存使用率,如果大于阈值那么报警(如果有条件可以使用短信接口或者实在不行可以使用邮件通知),并记录到日志文件里,如果小于…

P2480 [SDOI2010]古代猪文 Lucas+CRT合并

\(\color{#0066ff}{ 题目描述 }\) 猪王国的文明源远流长,博大精深。 iPig在大肥猪学校图书馆中查阅资料,得知远古时期猪文文字总个数为N。当然,一种语言如果字数很多,字典也相应会很大。当时的猪王国国王考虑到如果修一本字典&…

Linux进程管理: 多进程编程

多进程编程 mind-Mapping保存有xmind原始文件,可直接获取 无名管道PIPE 命名管道FIFO POSIX共享内存 POSIX消息队列 POSIX信号量 SYS V共享内存 SYS V消息队列 SYS V信号量

关于HtmlAgilityPack解析页面中数据乱码问题

第一种方式:publicstaticHtmlDocument LoadHtmlByUrls(stringurl){HtmlDocument htmldoc;HtmlWeb htmlWeb new HtmlWeb(); //不够完善 此内置方法导致中文乱码//htmlWeb.OverrideEncoding Encoding.UTF8;htmldoc htmlWeb.Load(url);Encoding coding htmldoc.S…

服务器无线网卡驱动程序,在Ubuntu里使用Windows的无线网卡驱动程序的方法教程...

Ubuntu的“帮助和支持”说“Ubuntu支持一种称为NDISWrapper的系统。它可以让你在Ubuntu下使用Windows无线设备驱动程序”。1、准备好无线网卡的Windows驱动程序,我是用for Windows XP的。2、先用有线网络联网,在新立得软件包管理器里安装ndisgtk。或到ht…

绿色版mysql使用方法

一、下载MySQLhttp://www.mysql.org/downloads我下载的是mysql-noinstall-5.0.67-win32.zip 二、安装过程1、解压缩 mysql-noinstall-5.0.67-win32.zip 到一个C盘,重新命名为 MySQL5 。假定MYSQL_HOMEC: MySQL52、编辑mysql的运行配置文件my.ini,如果没有…

C# 栈 、队列的概念

栈: 也是System.Collections下的数据结构 存储依然是Object类型的对象 Stack 名字 new Stack(); Count:实际拥有的元素个数 栈的释放顺序是先进后出(后进先出) 压栈——Push(object 对象)把这个对象添加到栈的顶部 弹栈——Pop()…

Linux多线程管理: 多线程编程

多线程编程 mind-Mapping保存有一下导图的xmind文件,可直接获取 互斥变量 互斥对象 ptrhead相关接口 条件变量 future异步访问类 async类 promise类 package_task类

codeforces 165B(Burning Midnight Oil)

【题意描述】 本题就是给定代码任务为n行,起始代码书写能力为v行,然后每经过一次除以k,当v变为0时看是否完成代码任务n?并求出最小的v。 【解题思路】 我们可以对v值进行二分,然后确定最后的v值。 【AC代码】 1 #inclu…

服务器计费系统安卓,GitHub - NWAFU/dms_client: 服务器计费系统(客户机端):用于统计租户的服务器使用情况...

概述在电信的业务中,有一种Unix实验室出租业务。只要用户向电信运营商申请一个Unix帐号,就可以远程登录Unix实验室,并使用Unix系统。用户使用电信运营商提供的Unix实验室的服务需要缴纳一定的费用,电信运营商需要一套数据采集系统…

mac的终端下面使用ssh user@localhost输入密码 不能正常登录

2019独角兽企业重金招聘Python工程师标准>>> 今天回来后发现系统突然很奇怪,以前在mac的终端下面使用ssh userlocalhost输入密码就可以连接到远程的SSH服务器,今天连接的时候老是提示如下错误: KENFORFORLIN:~ kenforstar$ sudo …

spring mvc + mybatis 框架搭建 ( idea + gradle)

spring mvc mybatis 框架搭建 idea gradle 刚刚入门,只是个人见解,如有错误或者问题欢迎指出指正。 邮箱: [ wgh0807qq.com ] 文章引用: [apache - log4j] [mybatis 配置] 一、 build.gradle 加载相关包 在dependencies下配置 相…

Linux系统性能分析: CPU

CPU 原始文件路径mind-Mapping CPU上下文切换 CPU使用率

jquery-tmpl 插件

做项目时页面上有处功能是:在页面有处列表、有添加,我添加修改或删除后要刷新这个列表,首先想到的是局部刷新,但我们一般说的局部刷新就是利于ajax去后台调用数据并显示,而这里是一整个列表就比较麻烦了,刷…

java mongodb存base64_阿里JAVA面试分享经验【文末有福利】

基础篇参考这里的面试题:面试题写在后面了能回答上百分之七十,基础的广度就算OK了。如果达不到,那么缺什么就赶紧补什么。广度达到了,还需要对个别热点问题有深度。每个人的精力都有限,可以适当挑选两个热点问题进行深…

win7/8SVN必备的4个服务

为什么80%的码农都做不了架构师?>>> 最近刚刚学会用vpn,某次用某软件加速系统后svn不能用了,反复查看,发现是Event Log的原因。所以和大家分享一下SVN必备的4个系统服务。 Windows Event Log Secure Socket Tunneling…

Spark集群部署(standLone)模式

安装部署: 1. 配置spark为1个master,2个slave的独立集群(Standlone)模式, 可以在VMWare中构建3台运行Ubuntu的机器作为服务器; master主机配置如下: vim /etc/hostname 编辑此文件,设…

读书:一百个 终身受益的 思维模型(持续更新)

《第二曲线》 刻意练习 金字塔原理

map 小模板~~~ 写的不好 继续添加

#include<map>#include<string.h>#include<iostream>using namespace std;int main(){ ///map插入 map<string,int> mp; ///<key值 val值> mp["a"]1; mp["b"]2; mp["c"]3; map<string,int…

为什么二级菜单会被挡住_二级建造师为什么这么难考?2021年二建考试也会很难吗?...

2020年二建考试难到上热搜&#xff0c;广大考生被难到怀疑人生&#xff0c;老考生一副"我看透你了"的过来人嘴脸&#xff0c;新考生只能在角落瑟瑟发抖。随着2020年二建考试逐渐落幕&#xff0c;2021年二建备考被提上日程&#xff0c;许多考生心中也逐渐产生疑问&…

Nginx与PHP(FastCGI)的安装、配置、优化

一、什么是 FastCGIFastCGI是一个可伸缩地、高速地在HTTP server和动态脚本语言间通信的接口。多数流行的HTTP server都支持FastCGI&#xff0c;包括Apache、Nginx和lighttpd等&#xff0c;同时&#xff0c;FastCGI也被许多脚本语言所支持&#xff0c;其中就有PHP。FastCGI是从…

Cobbler-自动化部署神器

Cobbler-自动化部署神器 前言&#xff1a; 网络安装服务器套件 Cobbler(补鞋匠)从前&#xff0c;我们一直在做装机民工这份很有前途的职业。自打若干年前 Red Hat 推出了 Kickstart&#xff0c;此后我们顿觉身价倍增。不再需要刻了光盘一台一台地安装 Linux&#xff0c;只要搞定…

Linux系统性能分析: I/O栈 优化

原始文件路径Mind-mapping Linux I/O栈性能分析及优化

[转]优化Flash性能

原文&#xff1a;http://www.adobe.com/devnet/flash/articles/optimizing-flash-performance.html 翻译&#xff1a;http://bbs.9ria.com/thread-156860-1-1.html 在这篇文章中&#xff0c;你会学到优化Flash Professional应用性能的策略。优化过程包括编辑你的FLA工程文档确保…

python 自动填充表单,如何在Django / Python中自动填充PDF表单?

I have PDF forms that I want to autopopulate with data from my Django web application and then offer to the user to download. What python library would let me easily pre-populate PDF forms? These forms are intended to be printed out.解决方案Reportlab is g…

模拟宽度自适应的输入框

看代码&#xff1a; !DOCTYPE HTML><html><head><meta http-equiv"Content-Type" content"text/html; charsetutf-8"><style type"text/css"> h2 { margin:0; padding:10px 0; font-size:14px; } .mod-retweet { bac…

洛谷 - P1426 - 小鱼会有危险吗 - 模拟

https://www.luogu.org/problemnew/show/P1426 题目说的是小鱼进入探测器一秒后就会有危险&#xff0c;所以不应该让小鱼先游&#xff0c;而是先检测探测器。 #include<bits/stdc.h> using namespace std; #define ll long longint s,x;int main(){scanf("%d%d"…

Linux系统性能分析:内存 优化

整体的内存基本原理和内存性能指标、性能瓶颈分析以及优化思路可参考如下导图 原始xmind文件路径Mind-Mapping

zoj 1010 (线段相交判断+多边形求面积)

链接&#xff1a;http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId10 AreaTime Limit: 2 Seconds Memory Limit: 65536 KB Special JudgeJerry, a middle school student, addicts himself to mathematical research. Maybe the problems he has though…