当前位置: 首页 > 编程日记 > 正文

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

来源 | AI 算法与图像处理

主要内容

  • What is Machine Learning

  • Applications of Machine Learning

  • Components of Machine Learning

  • Machine Learning and Other Fields


What is Machine Learning

什么是“学习”?学习就是人类通过观察、积累经验,掌握某项技能或能力。就好像我们从小学习识别字母、认识汉字,就是学习的过程。而机器学习(Machine Learning),顾名思义,就是让机器(计算机)也能向人类一样,通过观察大量的数据和训练,发现事物规律,获得某种分析问题、解决问题的能力。

机器学习的过程是从资料出发,经过电脑的计算之后,最终得到某一种表现。

比如通过电脑让电脑学会预测股票。利用十年前的数据去学习,告诉我明天该怎么去投资,如果机器真的做到了,那么说明机器真的学到了这些。这是我们希望机器学习能做的事情。

举例:如何识别一棵树

  • 设计一个程序去定义一棵树,是非常困难的

  • 通过学习数据去辨认一棵树(3岁小孩能做)

  • 机器学习系统去识别一棵树比设计一个程序更加容易的多

通过我们的脑力去分析这些东西比较困难,因为希望通过机器自己去学习和分析,发现这些规律。

机器学习在构建一个复杂系统的时候是一个可选的方法:

比如:

  • 当人类没办法做一个复杂的系统,将所有的规律都写清楚,比如机器人探测火星,没办法预测机器人在火星上会遇到什么情况,例如遇到坑,要怎么办,这就需要机器自己去学习怎么处理

  • 没办法定义一个规则的时候——语音/可视化识别

  • 有一些人没想过的应用——股市交易

  • 在大规模的数据下一个用户取向的问题——用户个性化的市场

机器学习要做的事情,是类似于教电脑钓鱼的方法,让它可以一辈子受用。

那么什么场景下,考虑使用机器学习解决呢?

机器学习的三个关键条件:

  • 事情本身存在某些潜在规律可以去学习,并且有明确的目标

  • 事情存在一定的规则,但是我们不知道怎么把它用代码写下来

  • 机器学习需要资料,否则机器不知道如何去学习

当三个关键条件都满足的时候才考虑使用机器学习

测试&答案:

1、预测小孩子接下来的几分钟后会哭?no(没有规则)

2、判断图中是否存在圆?no(规则可以轻松定义)

3、决定是否该给用户分发信用卡?yes,不容易编程实现,有大量的客户历史信息

4、地球什么时候会毁灭?no(没有足够的数据)

Applications of Machine Learning

机器学习在我们的衣食住行等各个方面中都有应用。

(1)Food:

数据来源:推特(评价+定位)

功能:了解这家饭店食物的味道如何

(2)Clothing

数据:商品的图片、用户穿搭

功能:告诉我们怎样去搭配衣服才能更加Fashion

(3)Housing

数据:房子的建筑特点、使用的能源

功能:预测房子在节能减排上面的能力

(4)Transportation

数据:交通灯的图片和含义

功能:准确识别交通灯信号

上面只是举一些例子,当然这样子的例子还有很多!

机器学习在教育上的应用

数据:学生在上网课中的一些记录,答题记录和上课记录等

功能:预测学生会哪些内容,不会哪些内容,并推荐一些资料。

那么机器学习要如何去设计呢?

  • 从3000学生中给出900万数据

  • 利用机器学习去自动确定问题的难度等

娱乐方面的应用,推荐系统

数据:有多少用户喜欢什么电影

功能:预测一个用户有多大概率喜欢一个没看过的电影

那么电脑是如何去学习这些特征呢?

利用模型将用户和电影用一串特征来描述,对两串特征求内积,如果相乘的分数高,则会给非常高的推荐分数。但是我们没有办法去定义这些特征,所以机器学习通过以往的数据,去学习这些特征,并预测用户有多喜欢这部电影。

测试&答案

机器在以下哪些领域用不到?

1、金融 (预测股市)

2、医疗 (预测药效)

3、法律 (从公文书自动给出摘要,便于搜寻和阅读)

4、不是上述的任何一个 yes

Components of Machine Learning


如何公式化机器学习的问题

基础的术语:

  • 输入:x(用户的行为)

  • 输出:y(根据预测结果好/坏,决定是否要发卡)

  • 目标函数:f,未知的规则--->目标函数

  • 数据,训练样本(过去收集的数据)

  • 假说,选择一个最佳的假说对应的函数称为矩g,g能最好地表示事物的内在规律,也是我们最终想要得到的模型表达式

机器学习流程图:

从未知规律的数据中,通过学习算法去挖掘,让最终的 g 接近 f

注意点:

  • 目标函数,f是未知

  • 假说是希望g尽可能的接近f,但是可能还是不同于f

举例,以信用卡为例

g 到底长什么样

今天决定要不要发给客户信用卡,以下是一些可能的公式

h1:年收入有没有超过800000,超过就给

h2:负债超过100000给信用卡

h3:工作不满两年给他信用卡

将所有的可能h,都放到g的集合中,并从集合中找到最有可能的结果

学习模型=算法+假说

机器学习的定义:从资料出发,机器学习算法要算出一个假说(hypothesis)g,我们希望这个g要很接近我们最渴望的那个f。

测试&答案

歌曲推荐

Machine Learning and Other Fields

与机器学习相关的领域有:

  • 数据挖掘(Data Mining) ——>从数据中挖掘一些有用的资料

  • 人工智能(Artificial Intelligence)——>计算一些东西并显示出很聪明的行为(比如AI下棋)

  • 统计(Statistics)——>使用数据做一些推论(比如硬币问题)

机器学习和数据挖掘,非常相像,有些地方还是一样,密不可分

机器学习是实现人工智能的一种方式

统计是实现机器学习的一种方法,统计更加关注使用数学理论来给出结果,很少关心计算的问题。统计学给机器学习提供了很多有用的工具。

测试&答案

总结


本节课主要引入了机器学习的概念,机器学习实际上是从资料出发找到一个函数,然后找到的函数和我们最渴望的目标是很接近的。机器学习在很多地方都有应用,其核心 算法,数据(资料),假说(hypothesis)最后得到g。

机器学习和数据挖掘、人工智能、统计这三个领域做个比较,和各个领域的关系,他们各自有各自的取向。

参考资料:

https://www.bilibili.com/video/BV1Cx411i7op?p=1

https://blog.csdn.net/red_stone1/article/details/101303228

【end】◆精彩推荐◆今晚8点,我们一起来看Sophon KG如何追寻新冠病毒轨迹,运用AI技术、工具建立相关知识图谱,通过确诊案例的亲属、同事和朋友的关系网找出密切接触者进行及时隔离,同时刻画出确诊案例的活动轨迹,找到其关系网之外的密切接触者及病毒可能的“行凶环境”。推荐阅读
  • 用于单图像超分辨率的对偶回归网络,达到最新SOTA | CVPR 2020

  • 悼念前端大牛司徒正美

  • 罗永浩抖音直播首秀:3小时1.1亿;微软曝三屏折叠机专利;Linux Mint 20仅提供64位版本

  • “死扛”高并发大流量,大麦抢票的技术涅槃之路

  • 比特币由"蒙面人"创造,那下一个"比特币"还会由蒙面人创造吗?

  • 在容器上构建持续部署及最佳实践初探

  • 你点的每个“在看”,我都认真当成了AI

相关文章:

裸创,你敢吗?

呵呵

ecshop修改注册、增加手机

1.去掉“用户名”注册 a.去掉提交 user_passport.dwt页面去掉 <input name"username" type"text" size"30" id"username" οnblur"is_registered(this.value);" class"input_login" />提交 b.去掉js表单验证…

使用NetBeans IDE开发C程序

使用NetBeans IDE开发C程序 在windows下开发调试linux环境的代码&#xff0c;同时还可以拷贝到Linux环境。 其实是NetBeans可以连接到远程Linux服务器&#xff0c;使用其中的GNU编译环境。 1.打开NetBeans&#xff0c;新建C/C项目&#xff1a; 下一步&#xff1a; 如果之前配置…

实验七 访问列表配置

实验七 访问列表配置 预备知识&#xff1a; ACL指令的放置顺序是很重要的。 当路由器在决定是否转发或者阻止数据报的时候&#xff0c;Cisco的IOS软件&#xff0c;按照ACL中指令的顺序依次检查数据报是否满足某一个指令条件。 当检测到某个指令条件满足的时候&#xff0c;就不会…

京东商城背后的AI技术能力揭秘 - 基于关键词自动生成摘要

来源 | 京东智联云开发者过去几十年间&#xff0c;人类的计算能力获得了巨大提升&#xff1b;随着数据不断积累&#xff0c;算法日益先进&#xff0c;我们已经步入了人工智能时代。确实&#xff0c;人工智能概念很难理解&#xff0c;技术更是了不起&#xff0c;背后的数据和算法…

CSS哲学伪命题

标题党。这篇文章断断续续的修改过好几次&#xff0c;也没有满意&#xff0c;本来是想总结一下我这些零散的 CSS 知识结构&#xff0c;可能由于知识体系不全面&#xff0c;总是没能把知识点串联成一个通顺的内容。贴出来权当大家一起讨论下“前世今生”。文章后续可能会不定时更…

Linux TCP/IP协议栈笔记

数据包的接收作者&#xff1a;kendoKernel&#xff1a;2.6.12一、从网卡说起这并非是一个网卡驱动分析的专门文档&#xff0c;只是对网卡处理数据包的流程进行一个重点的分析。这里以Intel的e100驱动为例进行分析。大多数网卡都是一个PCI设备&#xff0c;PCI设备都包含了一个标…

技术大佬的肺腑之言:“不要为了 AI 而 AI”! | 刷新 CTO

扫描上方二维码直达精彩回顾整理 | 伍杏玲出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;据 CSDN 最新数据统计显示&#xff0c;在 CSDN 3000万的注册开发者中&#xff0c;689 万开发者有阅读、撰写与研究 AI 技术的行为&#xff0c;聚焦 AI 学习及应用的开发者人…

Silverlight中使用CompositionInitializer宿主MEF

MEF可以在传统应用程序中使用&#xff08;包括桌面的Winform、控制台程序和Web的ASP.NET&#xff09;&#xff0c;也可以在RIA的Silverlight中使用。在Silverlight中只是宿主的方式有所不同&#xff0c;实际上在Silverlight中也可以像传统应用程序中是方式去宿主&#xff0c;ME…

Verilog与SystemVerilog编程陷阱:怎样避免101个常犯的编码错误

这篇是计算机类的优质预售推荐>>>>《Verilog与SystemVerilog编程陷阱&#xff1a;怎样避免101个常犯的编码错误》 编辑推荐 纠错式学习&#xff0c;从“陷阱”中学习编程&#xff0c;加深对语言本身的理解。逆向式学习&#xff0c;从错误中学习避免错误的方法。让读…

Linux网卡驱动程序编写

Linux网卡驱动程序编写 [摘自 LinuxAID] 工作需要写了我们公司一块网卡的Linux驱动程序。经历一个从无到有的过程&#xff0c;深感技术交流的重要。Linux作为挑战微软垄断的强有力武器&#xff0c;日益受到大家的喜爱。真希望她能在中国迅速成长。把程序文档贴出来&#xff0…

旷视提双边分支网络BBN:攻坚长尾分布的现实世界任务 | CVPR 2020 Oral

作者 | 旷视研究院出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;导读&#xff1a;本文是旷视 CVPR 2020 论文系列解读文章&#xff0c;也是 CVPR 2020 Oral展示论文之一&#xff0c;它揭示了再平衡方法解决长尾问题的本质及不足&#xff1a;虽然增强了分类器性能&a…

kissy core

http://code.google.com/p/kissy/转载于:https://www.cnblogs.com/pinnasky/archive/2010/07/07/1772646.html

VIM多窗口编辑

vim提供多窗口编辑的功能&#xff0c;可以简化复合的编辑任务。vim的多窗口并不是说在终端上启动多个vim实例。启动多窗口编辑 vi&#xff4d;的多窗口是动态的&#xff0c;可以开始编辑时就打开多窗口&#xff0c;也可以工作时随时增加新窗口&#xff0c;或者删除一个窗口。$ …

从Nginx绑定80端口学套接字编程

《UNIX网络编程(卷1)&#xff1a;套接字联网API(第3版)》 ngx_connection.c ngx_int_t ngx_open_listening_sockets(ngx_cycle_t *cycle) {int reuseaddr;ngx_uint_t i, tries, failed;ngx_err_t err;ngx_log_t *log;ngx_socket_t …

中国无人机“老炮儿”回忆录

整理 | 夕颜采访嘉宾 | 刘宾&#xff0c;通飞航空总工程师、飞行教员来源 | CSDN&#xff08;ID:CSDNnews&#xff09;今天的采访嘉宾有些与众不同&#xff0c;在我的印象中&#xff0c;这是一位不原意用“中国式”讲话与人沟通的人&#xff0c;因为费劲&#xff0c;也只有在回…

一些常用DOS命令

1. gpedit.msc-----组策略2. sndrec32-------录音机3. Nslookup-------IP地址侦测器4. explorer-------打开资源管理器5. logoff---------注销命令6. tsshutdn-------60秒倒计时关机命令7. lusrmgr.msc----本机用户和组8. services.msc---本地服务设置9. oobe/msoobe /a----检查…

linux文本编辑nano

2019独角兽企业重金招聘Python工程师标准>>> Nano命令指南 今天在输命令时&#xff0c;无意中输入了nano&#xff0c;对这个命令不太熟悉&#xff0c;结果不知道如何才能退出&#xff0c;保存&#xff0c;赶快查了一下资料&#xff0c;原来是这样的啊。打开文件与新…

write的奥秘

在Linux下我们在使用设备的时候&#xff0c;都会用到write这个函数&#xff0c;通过这个函数我们可以象使 用文件那样向设备传送数据。可是为什么用户使用write函数就可以把数据写到设备里面 去&#xff0c;这个过程到底是怎么实现的呢&#xff1f; 这个奥秘就在于设备驱动…

常用的键盘命令

Alt空格C 关闭窗口 <?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />Alt空格N 最小化当前窗口 Alt空格R 恢复最小化窗口 Alt空格X 最大化当前窗口 Alt空格M 移动窗口 Alt空格S 改变窗口大小 AltTab 两个程序交换 Alt255 QQ号中输…

京东智能内容创作算法的演进与实践:基于关键词自动生成摘要

来源 | 京东智联云开发者导读&#xff1a;京东商城背后的 AI 技术能力揭秘&#xff1a; 基于关键词自动生成摘要过去几十年间&#xff0c;人类的计算能力获得了巨大提升&#xff1b;随着数据不断积累&#xff0c;算法日益先进&#xff0c;我们已经步入了人工智能时代。确实&…

【基础复习】二:预处理、const与sizeof

赋值语句 1.i的值为&#xff1f; #include <iostream> using namespace std; int i 1; int main() {int i i; } 解析&#xff1a; 此时main函数内的i是优先考虑局部变量&#xff0c;除非使用作用域符号&#xff0c;否则是和外面值为1的i是无关的。 其次&#xff0c;使用…

使用多线程还是用IO复用select/epoll? epoll 或者 kqueue 的原理是什么?

原作者&#xff1a;蓝形参 原文&#xff1a;http://www.zhihu.com/question/20114168/answer/14024115 使用多线程还是用IO复用select/epoll? 多线程模型适用于处理短连接&#xff0c;且连接的打开关闭非常频繁的情形&#xff0c;但不适合处理长连接。多线程模型默认情况下…

使用大batch优化深度学习:训练BERT仅需76分钟 | ICLR 2020

作者 | Yang You, Jing Li等译者 | 刘畅在海量数据集上训练大型深度神经网络&#xff0c;是非常具有挑战性的。最近&#xff0c;有许多研究均使用大batch随机优化方法来解决此问题。在该研究领域中&#xff0c;目前最杰出的算法是LARS&#xff0c;它通过采用分层自适应学习率&a…

华为AR28-11路由器配置

公司使用华为AR28-11路由器&#xff0c;宽带接入。现使用2M光纤接入&#xff0c;地址&#xff1a;124.117.254.* 255.255.255.252.公司电脑使用192.168.1.0 255.255.255.0 网段地址参考配置#version 5.20, Release 1205P02, Basic#sysname H3C#domain default enable system#vl…

PHPExcel使用-使用PHPExcel导出文件-导出MySQL数据

现在数据库里面有一组数据&#xff0c;我们将它按照不同的难度进行分sheet. 首先我们需要写一个mysql的配置文件- db.config.php(utf-8编码) : <?php $dbconfig array( host > 127.0.0.1, username > root, password > , database > xxx, charset &…

C语言清空输入缓冲区的N种方法对比

C语言中有几个基本输入函数&#xff1a; //获取字符系列 int fgetc(FILE *stream); int getc(FILE *stream); int getchar(void); //获取行系列 char *fgets(char * restrict s, int n, FILE * restrict stream); char *gets(char *s);//可能导致溢出&#xff0c;用fgets代替之…

低耗时、高精度,微软提基于半监督学习的神经网络结构搜索算法

作者 | 罗人千、谭旭、王蕊、秦涛、陈恩红、刘铁岩 来源 | 微软研究院AI头条&#xff08;ID:MSRAsia&#xff09;编者按&#xff1a;近年来&#xff0c;神经网络结构搜索&#xff08;Neural Architecture Search, NAS&#xff09;取得了较大的突破&#xff0c;但仍然面临搜索耗…

《虚拟化与云计算》读书感(三)数据中心的概述

看了《虚拟化与云计算》的第一章第一节‘数据中心的概述’。在我读这一节开始&#xff0c;我看到这个题目的时候总是联想到类似谷歌数据中心一类的东西&#xff0c;多个硬盘或者服务器的堆叠。然后整来几个集装箱把这些堆叠的服务器塞进去&#xff0c;然后供用户使用。然而自从…

golang笔记——struct

1、定义一个结构体 type User struct {userid intusername stringpassword string } 2、初始化一个结构体 有两种情况&#xff0c;一是得到结构体的对象&#xff0c;一是得到结构的对象指针&#xff0c;分别有三种方式&#xff1a; //第1种方式&#xff0c;先声明对象&#x…