了解机器学习的八大专业术语
转自:https://www.sohu.com/a/217453268_178466
1 自然语言处理
自然语言处理对于许多机器学习方法来说是一个常用的概念,它使得计算机理解并使用人所读或所写的语言来执行操作成为了可能。
自然语言处理最重要的最有用的实例:
① 文本分类和排序
这项任务的目标是对一个文本进行预测标签(类别)或对列表中相关联的文本进行排序。它能够用于过滤垃圾邮件(预测一封电子邮件是否是垃圾邮件),或进行文本内容分类(从网络上筛选出那些与你的竞争者相关的文章)。
② 情感分析
句子分析是为了确定一个人对某个主题的看法或情感反应,如正面或负面情绪,生气,讽刺等。它广泛应用于用户满意度调查(如对产品的评论进行分析)。
③ 文件摘要
文件摘要是用一些方法来得到长文本(如文档,研究论文)短且达意的描述。https://sigmoidal.io/boosting-your-solutions-with-nlp/
④ 命名实体识别
命名实体识别算法是用于处理一系列杂乱的文本并识别目标(实体)预定义的类别,如人,公司名称,日期,价格,标题等等。它能够将杂乱的文本信息转换成规则的类表的格式,来实现文本的快速分析。
⑤ 语音识别
语音识别技术是用于得到人所讲的一段语音信号的文本表达。你可能听说过Siri助手?这就是语音识别应用的一个最好的例子。
⑥ 自然语言的理解和生成
自然语言的理解是通过计算机,将人类生成的文本转换成更正式的表达。反过来,自然语言生成技术是将一些正式又有逻辑性的表达转换成类人的生成文本。如今,自然语言理解和生成主要用于聊天机器人和报告的自动生成。
从概念上来说,它与实体命名识别任务是相反的。
⑦ 机器翻译
机器翻译是将一段文本或语音自动从一种语言翻译成另一种语言的一项任务。请见:https://youtu.be/Io0VfObzntA
2 数据库
数据库是机器学习一个必要的组成部分。如果你想构建一个机器学习系统,你要么可以从公众资源中得到数据,要么需要自己收集数据。所有的用于构建和测试机器学习模型的数据集合成为数据库。基本上,数据科学家会将数据划分为三个部分:
训练数据:训练数据是用于训练模型。这意味着机器学习模型需要认识并通过学习得到数据的模式以及确定预测过程中最重要的数据特征。
验证数据:验证数据是用于微调模型参数和比较不同模型来确定最优的模型。验证数据应该不同于训练数据,且不能用于训练阶段。否则,模型将出现过拟合现象,且对新的数据泛化不佳。
测试数据:这看起来似乎有些单调,但这通常是第三个也是最后的测试集(经常也被称为对抗数据)。一旦最终的模型确定,它就用于测试模型在从未见过的数据集上的表现,如这些数据从未在构建模型或确定模型时使用过。
图像:混合使用t-SNE和Jonker-Volgenant算法得到的MNIST数据库的可视化结果。T-SNE是一种广泛使用的降维算法,通过压缩数据的表达来得到更好的可视化和进一步处理。
3 计算机视觉
计算机视觉是一个专注于分析并深层次理解图像和视频数据的人工智能领域。计算机视觉领域最常见的问题包括:
① 图像分类
图像分类是教模型去识别给定的图像的一种计算机视觉任务。例如,训练一个模型去识别公共场景下的多个物体(这可以应用于自动驾驶)。
② 目标检测
目标检测是教模型从一系列预定义的类别中检测出某一类别的实例,并用矩形框框注出来的一种计算机视觉任务。例如,利用目标检测来构建人脸识别系统。模型可以在图片中检测出每张脸并画出对应的矩形框(顺便说下,图像分类系统只能识别出一张图片中是否有脸的存在,而不能检测出脸的位置,而目标检测系统就可以)。
③ 图像分割
图像分割是训练模型去标注类的每一个像素值,并能大致确定给定像素所属的预定义类别的一种计算机视觉任务。
显著性检测
显著性检测是训练模型产生最显著区域的一种计算机视觉任务。这可以用于确定视频中广告牌的位置。需要详细了解计算机视觉?请阅读 https://sigmoidal.io/dl-computer-vision-beyond-classification/
4 监督学习
监督学习是用实例来教模型学习的一类机器学习模型集合。这意味着用于监督学习任务的数据需要被标注(指定正确的,真实类别)。例如,如果我们想要构建一个机器学习模型用于识别一个给定的文本是否被标记过的,我们需要给模型提供一个标记过的样本集 (文本+信息,是否该文本被标记过)。给定一个新的,未见过的例子,模型能够预测它的目标,例如,规定样本的标签,1表示标记过的而0表示未标记的。
5 无监督学习
相比于监督学习,无监督学习模型是通过观察来进行自我学习。算法所用的数据是未标记过的(即提供给算法的是没有真实标签值的数据)。无监督学习模型能够发现不同输入之间的相关关系。最重要的无监督学习技术是聚类方法。对于给定的数据,模型能够得到输入的不同聚类(对于相似的数据聚合在同一类中),并能将新的、未见过的输入归入到相似的聚类中。
6 强化学习
强化学习区别于先前我们提到的那些方法。强化学习算法一种“游戏”的过程,其目标是最大化 “游戏奖励”。该算法通过反复的实验来尝试确定不同的 “走法”,并查看哪种方式能够最大化 “游戏收益”
最广为人知的强化学习例子就是教计算机来解决魔方问题或下象棋,但是强化学习能解决的问题不仅只有游戏。最近,强化学习大量地应用于实时竞价,其模型负责为一个广告竞拍价格而它的报酬是用户的转换率。
想要学习人工智能在实时竞价和程序化广告中的应用吗?详见:https://sigmoidal.io/ai-for-advertising/
7 神经网络
神经网络是一个非常广泛的机器学习模型集合。它的主要思想是模拟人类大脑的行为来处理数据。就像大脑中真实神经元之间相互连接形成的网络一样,人工神经网络由多层组成。每层都是一系列神经元的集合,这些神经元负责检测不同的食物。一个神经网络能够连续地处理数据,这意味着只有第一层才与输入直接相连,随着模型层数的增加,模型将学到越来越复杂的数据结构。当层数大量地增加,模型通常就是一个所谓的深度学习模型。很难给一个深度网络确定一个特定的网络层数,10年前通常3层神经网络就可谓深,而如今通常需要20层。
神经网络有许许多多不同的变体,最常用的是:
- 卷积神经网络—它给计算机视觉任务带来了巨大的突破(而如今,它同样对于解决自然语言处理问题有很大帮助)。
- 循环神经网络—被设计为处理具有序列特征的数据,如文本或股票票价。这是个相对古老的神经网络,但随着过去20年现代计算机计算能力的突飞猛进,使得它的训练变得容易并在很多时候得以应用。
- 全连接神经网络—这是处理静态/表格式数据最简单的模型。
8 过拟合
当模型从不充分的数据中学习会产生偏差,这对模型会有负面的影响。这是个很常见,也很重要的问题。
当你在不同的时间进入一个面包坊,而每一次所剩下的蛋糕都没有你喜欢的,那么你可能会对这个面包坊失望,即使有很多其他的顾客可能会对剩下的蛋糕满意。如果你是个机器学习模型,可以说你对这一小数量样本产生了过拟合现象—要构建一个具有偏置量的模型,其得到的表示才不会过度拟合真实数据。
当过拟合现象发生,它通常意味着模型将随机噪声当作数据,并作为一个重要的信号去拟合它,这就是为什么模型在新数据上的表现会出现退化(噪声也有差异)。这在一些非常复杂的模型如神经网络或加速梯度模型上是很常见的。
想象构建一个模型来检测文章中出现的有关奥运的特定体育项目。由于所用的训练集与文章是由偏差的,模型可能学习到诸如 “奥运”这样词的特征,而无法检测到那些未包含该词的文章。
相关文章:

34.TokenInterceptor防止表单重复提交
转自:https://wenku.baidu.com/view/84fa86ae360cba1aa911da02.html 由于某些原因,用户在进行类似表单提交的操作后,以为表单未被提交,会进行多次的重复提交。为了避免用户多次提交给服务器带来负荷。我们会对表单提交这样的操作进…

使用arthas采集火焰图
火焰图是用图形化的方式来展现profiler工具采集的性能数据,对数据进行统计和分析,方便找出性能热点。 现在我们使用arthas采集JVM的火焰图。 1.首先你需要安装arthas 说是安装其实就是下载解压,arthas是不需要安装的。 下载 — Arthas 3.5…

sudo配置文件详解及实战
2019独角兽企业重金招聘Python工程师标准>>> 安装NGINX之后每次都需要切换ROOT用户做配置文件修改和启动,为了加强安全,ROOT用户一般是不允许直接提供给应用开发人员或者运维人员的,所以需要提供一种方法可以一般用户执行ROOT用户…

Centos中文输入法安装以及切换
鼓捣鼓捣(我是一只菜鸟),终于在我的Centos上面装上我的大中华输入法了,哈哈哈哈下面就简单描述下安装过程吧!!!centos6.5用yum安装中文输入法打开终端,进入root用户(命令…

【MATLAB】矩阵信息的获取
1、矩阵结构 矩阵的结构是指矩阵子元素的排列方式。 函数名称函数功能isempty(A)检测矩阵是否为空isscalar(A)检测矩阵是否是单元素的标量矩阵isvector(A)检测矩阵是否是只具有一行或一列元素的一维向量issparse(A)检测数组是否是系数矩阵 返回1表示该矩阵是某一特定类型的矩…
Android Gradle Plugin 源码解析(上)
一、源码依赖 本文基于: android gradle plugin版本: com.android.tools.build:gradle:2.3.0 gradle 版本:4.1 Gradle源码总共30个G,为简单起见,方便大家看源码,此处通过gradle依赖的形式来查看源码,依赖源…

Guice系列之用户指南(七)
原文地址:https://code.google.com/p/google-guice/wiki/ToConstructorBindings Constructor Bindings(构造器绑定):在父类型上绑定子类实现的构造函数。 贴代码: 12345678910111213141516171819202122232425262728293…

Linux系统火焰图
CentOS7.8 安装perf #yum install perf 执行perf 执行perf record 命令,记录该PID的行为 #perf record -a -g -p 14851 -- sleep 30 --30秒后退出 需要注意后面生成svg图片的所有命令要和当前perf在同一目录,不然会报错。 #perf report 安装git …

深圳杯---垃圾焚烧厂的经济补偿问题
垃圾围城是世界性难题,在今天的中国显得尤为突出。2012年全国城市生活垃圾清运量达到1.71亿吨,比2010年增长了1300万吨。数据显示,目前全国三分之二以上的城市面临垃圾围城问题,垃圾堆放累计侵占土地75万亩。因此,垃圾…

make -j8以及linux下查看cpu的核数
# 总核数 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数 cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数) cat /proc/cpuinfo| grep "cpu …

IDEA2021.3.2拉取maven报错maven-default-http-blocker解决方法
因为IDEA2021.3.2 的Maven是3.8.1后,mvn编译的时候总是提示拉不到依赖,报错如下: Could not validate integrity of download from http://0.0.0.0/... 因为使用HTTP协议下载依赖,可能会导致中间人攻击。 所以Maven 3.8.1就禁止…

2013高教社杯---B碎纸片的拼接复原
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技术的发展&a…

oracle--with as
with as把一段查询结果放在临时表,后面的查询中可多次使用 语法: with 别名 as(select * from table) 或 with 别名1 as(select * from table1), ............. 别名n as(select * from tablen) 示例: with 别名 as(select * from table wher…

Flask上下文管理源码分析
略略略...转载于:https://www.cnblogs.com/dzf123456/p/9446220.html

IDEA函数调用关系图插件
Call Graph是一款IDEA插件,用于可视化基于IntelliJ平台的IDE的函数调用图。 这个插件的目标是让代码更容易理解,有助于读懂和调试代码。 安装插件 安装后,通过View - Tool Windows - Call Graph ,激活窗口 激活后,需要…

[Notice]博客地址转移 vitostack.com
个人博客地址转移至vitostack.com 这里可能不会经常更新。 欢迎访问新地址。 转载于:https://www.cnblogs.com/Vito2008/p/5595430.html

【MATLAB】find 函数 总结
【MATLAB版本为2014a】 MATLAB中函数find函数的作用是进行矩阵元素的查找,它通常与关系函数和逻辑运算相结合。 indfind(X,...):该函数查找矩阵中的非零元素,函数返回这些元素的双下标[row,col]find(X,...):该函数查找矩阵X中的…

与HTTP关系密切的协议:IP、TCP、DNS
TCP/IP协议族的协议挺多的,我们精力有限,不可能一个个都了如指掌,那就挑一些与HTTP协议关系了解吧~ 负责传输的IP协议 按层次分,IP协议位于网络层。 IP协议的作用是把各种数据包传送给对方。而要保证确实传送到对方那里࿰…

C#精髓 第四讲 GridView 72般绝技
说明:准备出一个系列,所谓精髓讲C#语言要点。这个系列没有先后顺序,不过尽量做到精。可能会不断增删整理,本系列最原始出处是csdn博客,谢谢关注。 C#精髓 第四讲 GridView 72般绝技 作者:清清月儿 主页:ht…
Android layer-list(3)
Android layer-list(3) 在附录文章3、4的基础上,就Android layer-list再写一个较为复杂的应用。 先写布局文件,该布局涉及到LinearLayoutCompat,关于LinearLayoutCompat参看附录文章5。 布局文…
【MATLAB】二维矩阵可视化 MATLAB绘图
基本绘图函数 1、plot(y) 如果y是向量,则采用向量的索引值作为横坐标值,以向量元素的值作为纵坐标值。 如果y是实数矩阵,则相当于对y的每一列进行二维绘图。 如果y是复数组成的向量,则相当于plot(real(y),imag(y))。 2、plot…

phpstudy一个域名配置两个网站(一个是thinkphp5,一个是原生php)
phpstudy一个域名配置两个网站(一个是thinkphp5,一个是原生php) 一、总结 一句话总结:把原生php的网站直接放到thinkphp5的public目录下可以解决以stem.aaaa.hk\**方式访问原生网站会被当成thinkphp子模块的问题 最后的解决方法&a…

bzoj3442 学习小组
目前处于迷之TLE状态 -----6.21更新 已AC 3442: 学习小组 Time Limit: 5 Sec Memory Limit: 128 MBSubmit: 200 Solved: 87Description 【背景】坑校准备鼓励学生参加学习小组。【描述】共有n个学生,m个学习小组,每个学生有一定的喜好,只愿…
C语言经典著作导读
本人不是卖书的,我也不会给出任何购书链接,只是给C语言学习者推荐一条学习的方向。如果你喜欢看电子书网上很多,如果你喜欢纸质那么就买吧,经典的书值得收藏,是对版权的尊重! 基础篇 1.《写给大家看的C语言…
针对2013年B题碎纸片拼接问题(附件一、附件二)
题目链接:https://blog.csdn.net/CSDN___CSDN/article/details/82051821 http://www.shumo.com/wiki/doku.php?id2013_%E5%B9%B4%E5%85%A8%E5%9B%BD%E5%A4%A7%E5%AD%A6%E7%94%9F%E6%95%B0%E5%AD%A6%E5%BB%BA%E6%A8%A1%E7%AB%9E%E8%B5%9B_cumcm_%E8%AF%95%E9%A2%98…

什么是类型别名?什么是潜在类型?
2019独角兽企业重金招聘Python工程师标准>>> 别名类型 在Go语言里,可以用type声明自定义的各种类型。在这些自定义的类型中,有一种被叫做别名类型。 举个例子: type MyString string这句代码的意思是:MyString是strin…
Linux网络编程必看书籍推荐
首先要说讲述计算机网络和TCP/IP的书很多。 先要学习网络知识才谈得上编程 讲述计算机网络的最经典的当属Andrew S.Tanenbaum的《计算机网络》第五版,这本书难易适中。 《计算机网络(第5版)》是国内外使用最广泛、最权威的计算机…

5个最佳的Android测试框架
2019独角兽企业重金招聘Python工程师标准>>> 谷歌的Android生态系统正在不断地迅速扩张。有证据表明,新的移动OEM正在攻陷世界的每一个角落,不同的屏幕尺寸、ROM /固件、芯片组以及等等等等,层出不穷。于是乎,对于Andr…
【CTF】实验吧 凯撒变异
通过分析可以知道前四个“afZ_”四个的ASCII码值与“flag”的ASCII码值依次相差5,6,7,8。 #include <stdio.h> #include <string.h> int main () {char str[40]"afZ_r9VYfScOeO_UL^RWUc";int i0,j5;while(i<strlen…

ant design pro (八)构建和发布
一、概述 原文地址:https://pro.ant.design/docs/deploy-cn 二、详细 2.1、构建 当项目开发完毕,只需要运行一行命令就可以打包你的应用: npm run build 由于 Ant Design Pro 底层使用的 roadhog 工具,已经将复杂的流程封装完毕&a…