当前位置: 首页 > 编程日记 > 正文

决策树算法原理(ID3,C4.5)

决策树算法原理(CART分类树)

CART回归树

决策树的剪枝

  决策树可以作为分类算法,也可以作为回归算法,同时特别适合集成学习比如随机森林。

1. 决策树ID3算法的信息论基础

   1970年昆兰找到了用信息论中的熵来度量决策树的决策选择过程,昆兰把这个算法叫做ID3。

  熵度量了事物的不确定性,越不确定的事物,熵就越大。随机变量X的熵的表达式如下

其中n代表X的n种不同的离散取值。而pi代表了X取值为i的概率,log为以2或者e为底的对数。举个例子,比如X有2个可能的取值,而这两个取值各为1/2时X的熵最大,此时X具有最大的不确定性。值为如果一个值概率大于1/2,另一个值概率小于1/2,则不确定性减少,对应的熵也会减少。比如一个概率1/3,一个概率2/3,则对应熵为

  熟悉了一个变量X的熵,很容易推广到多个变量的联合熵,这里给出两个变量X和Y的联合熵表达式:

 有了联合熵,又可以得到条件熵的表达式H(X|Y),条件熵类似于条件概率,它度量了我们的X在知道Y以后剩下的不确定性。表达式如下: 

  H(X)度量了X的不确定性,条件熵H(X|Y)度量了我们在知道Y以后X剩下的不确定性,H(X)-H(X|Y)度量了X在知道Y以后不确定性减少程度,这个度量我们在信息论中称为互信息,记为I(X,Y)。在决策树ID3算法中叫做信息增益。信息增益大,则越适合用来分类。

  用下面这个图很容易明白他们的关系。左边的椭圆代表H(X),右边的椭圆代表H(Y),中间重合的部分就是我们的互信息或者信息增益I(X,Y), 左边的椭圆去掉重合部分就是H(X|Y),右边的椭圆去掉重合部分就是H(Y|X)。两个椭圆的并就是H(X,Y)。

2. 决策树ID3算法的思路

 ID3算法思想:信息增益最大的特征来建立决策树的当前节点。下面是一个具体例子。

  15个样本D,其中9个输出为1,6个输出为0。样本中有特征A,取值为A1,A2,A3。在取值为A1的样本的输出中,有3个输出为1,2个输出为0,取值为A2的样本中,2个输出为1,3个输出为0,在取值为A3的样本中,4个输出为1,1个输出为0。

  样本D的熵为:

  样本D在特征下的条件熵为:

  对应的信息增益为:

  已知:输入的是m个样本,样本输出集合为D,每个样本有n个离散特征,特征集合即为A,输出为决策树T。

  

  具体算法过程:

  1. 初始化信息增益的阈值ε
  2. 判断样本是否为同一类输出Di,如果是则返回单节点树T。标记类别为Di
  3. 判断特征是否为空,如果是则返回单节点树T,标记类别为样本中输出类别D实例数最多的类别
  4. 计算A中的各个特征(一共n个)对输出D的信息增益,选择信息增益最大的特征Ag
  5. 如果Ag的信息增益小于阈值ε,则返回单节点树T,标记类别为样本中输出类别D实例数最多的类别。
  6. 否则,按特征Ag的不同值Agi将对应的样本输出D分成不同的类别Di。每个类别产生一个子节点。对应特征值为Agi。返回增加了节点的数T。
  7. 对于所有子节点,令D = Di ,A = A- {Ag}递归调用2-6步,得到子树Ti并返回。

具体实例见:https://blog.csdn.net/gumpeng/article/details/51397737

3. 决策树ID3算法的不足

  • ID3没考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。
  • ID3用信息增益作为标准容易偏向取值较多的特征。然而在相同条件下,取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值,各为1/2,另一个变量为3个值,各为1/3,其实他们都是完全不确定的变量,但是取3个值比取2个值的信息增益大。如何校正这个问题?
  • ID3算法没考虑缺失值问题。
  • 没考虑过拟合问题。

 4. 决策树C4.5算法对ID3的改进

针对ID3算法4个主要的不足,一是不能处理连续特征,二是用信息增益作为标准容易偏向取值较多的特征,最后是缺失值处理的问题过拟合问题

(1)、对不能处理连续值特征,C4.5思路:将连续的特征离散化。

  1. 将m个连续样本从小到大排列。(比如 m 个样本的连续特征A有 m 个,从小到大排列 a1,a2,......am)
  2. 取相邻两样本值的平均数,会得m-1个划分点。(其中第i个划分点Ti表示为:)
  3. 对于这m-1个点,分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。(比如取到的增益最大的点为at,则小于at的值为类别1,大于at的值为类别2,这样就做到了连续特征的离散化。注意的是,与离散属性不同,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。)
  4. 用信息增益比选择最佳划分。

注意:选择连续特征的分类点采用信息增益这个指标,因为若采用增益比影响分裂点信息度量准确性,若某分界点恰好将连续特征分成数目相等的两部分时其抑制作用最大,而选择属性的时候才使用增益比,这个指标能选择出最佳分类特征。

  (2)、对于信息增益作为标准容易偏向于取值较多特征的问题。引入一个信息增益比 IR(Y, X),它是信息增益与特征熵(也称分裂信息)的比。表达式:

其中D为样本特征输出的集合,A为样本特征,对于特征熵 HA(D),表达式:

其中n为特征A的类别数,|Di|为特征A的第i个取值对应的样本个数。|D|为样本个数。

特征数越多的特征对应的特征熵越大,它作为分母,可以校正信息增益容易偏向于取值较多的特征的问题。

(3)、对于缺失值处理的问题,主要需要解决的是两个问题,一是在样本某些特征缺失的情况下选择划分的属性,二是选定了划分属性,对于在该属性上缺失特征的样本的处理。

对于第一个子问题,对于某一个有缺失特征值的特征A。C4.5的思路是将数据分成两部分,对每个样本设置一个权重(初始可以都为1),然后划分数据,一部分是有特征值A的数据D1,另一部分是没有特征A的数据D2. 然后对于没有缺失特征A的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比,最后乘上一个系数,这个系数是无特征A缺失的样本加权后所占加权总样本的比例。

对于第二个子问题,可以将缺失特征的样本同时划分入所有的子节点,不过将该样本的权重按各个子节点样本的数量比例来分配。比如缺失特征A的样本a之前权重为1,特征A有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1,A2,A3。对应权重调节为2/9,3/9, 4/9。

 5. 决策树C4.5算法的不足与改进

(1)、决策树算法非常容易过拟合,因此对于生成的决策树要进行剪枝。C4.5的剪枝方法有优化的空间。思路主要是两种,一种是预剪枝,即在生成决策树的时候就决定是否剪枝。另一个是后剪枝,即先生成决策树,再通过交叉验证来剪枝。后面在下篇讲CART树的时候我们会专门讲决策树的减枝思路,主要采用的是后剪枝加上交叉验证选择最合适的决策树。

(2)、C4.5生成的是多叉树,在计算机中二叉树模型会比多叉树运算效率高。多叉树改二叉树,可以提高效率。

(3)、C4.5只能用于分类

(4)、C4.5由于使用了熵模型,里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。如果能够加以模型简化减少运算强度但又不牺牲太多准确性的话,因此用基尼系数代替熵模型

来自:https://www.cnblogs.com/pinard/p/6050306.html

来自:https://blog.csdn.net/zhangbaoanhadoop/article/details/79904091

来自:http://leijun00.github.io/2014/09/decision-tree/

(有例子容易理解)来自:https://blog.csdn.net/gumpeng/article/details/51397737

转载于:https://www.cnblogs.com/keye/p/10267473.html

相关文章:

对称加密算法之RC4介绍及OpenSSL中RC4常用函数使用举例

RC4是一种对称密码算法,它属于对称密码算法中的序列密码(streamcipher,也称为流密码),它是可变密钥长度,面向字节操作的流密码。 RC4是流密码streamcipher中的一种,为序列密码。RC4加密算法是Ron Rivest在1987年设计出的密钥长度…

SpringMVC中实现的token,防表单重复提交

一&#xff1a;首先创建一个token处理类 &#xff0c;这里的类名叫 TokenHandlerprivate static Logger logger Logger.getLogger(TokenHandler.class);static Map<String, String> springmvc_token new HashMap<String, String>();//生成一个唯一值的tokenSupp…

利用CxImage实现编解码Gif图像代码举例

Gif(Graphics Interchange Format&#xff0c;图形交换格式)是由CompuServe公司在1987年开发的图像文件格式&#xff0c;分为87a和89a两种版本。Gif是基于LZW算法的无损压缩算法。Gif图像是基于颜色表的&#xff0c;最多只支持8位(256色)。Gif减少了图像调色板中的色彩数量&…

SpringBoot b2b2c 多用户商城系统 ssm b2b2c

来源&#xff1a; SpringBoot b2b2c 多用户商城系统 ssm b2b2c用java实施的电子商务平台太少了&#xff0c;使用spring cloud技术构建的b2b2c电子商务平台更少&#xff0c;大型企业分布式互联网电子商务平台&#xff0c;推出PC微信APP云服务的云商平台系统&#xff0c;其中包括…

AI“生死”落地:谁有资格入选AI Top 30+案例?

2019 年&#xff0c;人工智能应用落地的重要性正在逐步得到验证&#xff0c;这是关乎企业生死攸关的一环。科技巨头、AI 独角兽还有起于草莽的创业公司在各领域进行着一场多方角斗。进行平台布局的科技巨头们&#xff0c;正在加快承载企业部署 AI 应用的步伐&#xff0c;曾经无…

liunx 下su 和sudo 的区别

一. 使用 su 命令临时切换用户身份1、su 的适用条件和威力su命令就是切换用户的工具&#xff0c;怎么理解呢&#xff1f;比如我们以普通用户beinan登录的&#xff0c;但要添加用户任务&#xff0c;执行useradd &#xff0c;beinan用户没有这个权限&#xff0c;而这个权限恰恰由…

非对称加密算法之RSA介绍及OpenSSL中RSA常用函数使用举例

RSA算法&#xff0c;在1977年由Ron Rivest、Adi Shamirh和LenAdleman&#xff0c;在美国的麻省理工学院开发完成。这个算法的名字&#xff0c;来源于三位开发者的名字。RSA已经成为公钥数据加密标准。 RSA属于公开密钥密码体制。公开密钥体制就是产生两把密钥&#xff0c;一把…

依图科技CEO朱珑:“智能密度”对AI发展意味着什么?

8月9日&#xff0c;由中央网信办、工业和信息化部、公安部联合指导&#xff0c;厦门市政府主办的“中国人工智能峰会”于厦门召开。中国工程院院士、北京大学教授高文&#xff0c;依图科技创始人兼CEO朱珑博士等出席峰会并发表了主题演讲。当前&#xff0c;人工智能正在扮演越来…

Office 2016使用NTKO OFFICE控件提示“文件存取错误”的解决办法

2019独角兽企业重金招聘Python工程师标准>>> 之前使用NTKO&#xff0c;电脑安装的说OFFICE2007,但是前2天电脑固态硬盘坏了 &#xff0c;重新安装了系统&#xff0c;安装的说win10和office2016&#xff0c;再访问网站使用ntko时&#xff0c;却提示“文件存取错误”&…

如何制作一个类似Tiny Wings的游戏 Cocos2d-x 2.1.4

在第一篇《如何使用CCRenderTexture创建动态纹理》基础上&#xff0c;增加创建动态山丘&#xff0c;原文《How To Create A Game Like Tiny Wings with Cocos2D 2.X Part 1》&#xff0c;在这里继续以Cocos2d-x进行实现。有关源码、资源等在文章下面给出了地址。 步骤如下&…

腾讯优图开源业界首个3D医疗影像大数据预训练模型

整理 | Jane出品 | AI科技大本营&#xff08;ID&#xff1a;rgznai100&#xff09;近日&#xff0c;腾讯优图首个医疗AI深度学习预训练模型 MedicalNet 正式对外开源。这也是全球第一个提供多种 3D 医疗影像专用预训练模型的项目&#xff0c;将为全球医疗AI发展提供基础。许多研…

接口冲突的一种解决方法

问题描述&#xff1a;在一个大的项目中往往会包括很多模块&#xff0c;会有不同的部门或公司来负责实现某个模块&#xff0c;也有可能有第三方或客户的参与。假如他们都用到了某个开源软件&#xff0c;底层模块根据自身的需求对这个开源软件进行了修改或裁减。上层也用到了此开…

程序员:请你不要对业务「置之不理」

成长是条孤独的路&#xff0c;一个人会走得更快&#xff1b;有志同道合者同行&#xff0c;会走得更远。本篇内容整理自 21 天鲲鹏新青年计划线上分享内容。鲲鹏新青年计划是由 TGO 鲲鹏会组织的线上分享活动&#xff0c;希望能帮助更多同学一起学习、成长。12 月 28 日&#xf…

史上最简单的人脸识别项目登上GitHub趋势榜

来源 | GitHub Trending整理 | Freesia译者 | TommyZihao出品 | AI科技大本营&#xff08;ID: rgznai100&#xff09;导读&#xff1a;近日&#xff0c;一个名为 face_recognition 的人脸识别项目登上了 GitHub Trending 趋势榜&#xff0c;赚足了眼球。自开源至截稿&#xff0…

Centos 64位 Install certificate on apache 即走https协议

2019独角兽企业重金招聘Python工程师标准>>> 一: 先要apache 请求ssl证书的csr 一下是步骤&#xff1a; 重要注意事项 An Important Note Before You Start 在生成CSR文件时同时生成您的私钥&#xff0c;如果您丢了私钥或忘了私钥密码&#xff0c;则颁发 证书给您…

C/C++中“#”和“##”的作用和用法

在C/C的宏中&#xff0c;”#”的功能是将其后面的宏参数进行字符串化操作(Stringfication)&#xff0c;简单说就是在对它所引用的宏变量通过替换后在其左右各加上一个双引号。而”##”被称为连接符(concatenator)&#xff0c;用来将两个子串Token连接为一个Token。注意这里连接…

国贫县山西永和:“一揽子”保险“保”脱贫

永和是吕梁山特困连片地区的深度贫困县&#xff0c;生产生活条件极差。 范丽芳 摄 永和是吕梁山特困连片地区的深度贫困县&#xff0c;生产生活条件极差。 范丽芳 摄 中新网太原1月16日电 题&#xff1a;国贫县山西永和&#xff1a;“一揽子”保险“保”脱贫 作者范丽芳 李海金…

内存泄漏检测工具VLD在VS2010中的使用举例

Visual LeakDetector(VLD)是一款用于Visual C的免费的内存泄露检测工具。它的特点有&#xff1a;(1)、它是免费开源的&#xff0c;采用LGPL协议&#xff1b;(2)、它可以得到内存泄露点的调用堆栈&#xff0c;可以获取到所在文件及行号&#xff1b;(3)、它可以得到泄露内存的完整…

天下武功,唯快不破,论推荐系统的“实时性”

作者 | 王喆转载自知乎王喆的机器学习笔记导读&#xff1a;周星驰著名的电影《功夫》里面有一句著名的台词——“天下武功&#xff0c;无坚不摧&#xff0c;唯快不破”。如果说推荐系统的架构是那把“无坚不摧”的“玄铁重剑”&#xff0c;那么推荐系统的实时性就是“唯快不破”…

新疆兵团开展迎新春“送文化下基层”慰问演出活动

演员表演舞蹈。 戚亚平 摄 演员表演舞蹈。 戚亚平 摄演员表演豫剧《花木兰》选段。 戚亚平 摄为物业公司员工送春联。 戚亚平 摄公安民警收到春联后留影。 戚亚平 摄走进退休职工家中表演节目。 戚亚平 摄为退休职工送春联。 戚亚平 摄 1月16日&#xff0c;2019年迎新春新疆生产…

Python爬取B站5000条视频,揭秘为何千万人为它流泪

作者 | Yura编辑 | 胡巍巍来源 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;导语&#xff1a;我们特邀作者Yura爬取B站5000条视频&#xff0c;为你揭秘电影《哪吒》的更多“优秀梗”&#xff0c;看完还能Get新技能&#xff0c;赶快往下滑吧。这个夏天&#xff0c;《哪…

父域与子域之的信任关系

搭了一个测试环境&#xff0c;做一个父、子域间信任关系的测试&#xff0c;过程如下&#xff1a;两台测试服务器&#xff0c;主域为primary.com&#xff0c;子域为child.primary.com客户机Clientpri加入父域&#xff0c;客户机Clientcli加入子域&#xff0c;父域中有一个用户为…

Ubantu安装maven

2019独角兽企业重金招聘Python工程师标准>>> 一、下载maven http://maven.apache.org/download.cgi 二、解压到指定目录 tar -xvf apache-maven-3.6.0-bin.tar.gz 三、添加环境变量 cd /etc vi profile 向其中添加 export M2_HOMEmaven所在目录 export M2$M2_HOME/b…

Leptonica在VS2010中的编译及简单使用举例

在tesseract-ocr中会用到leptonica库&#xff0c;这里对leptonica简单介绍下。Leptonica是一个开源的图像处理和图像分析库&#xff0c;它的license是BSD 2-clause。它主要包括的操作有&#xff1a;位图操作、仿射变换、形态学操作、连通区域填充、图像变换及像素掩模、融合、增…

IJCAI 2019精选论文一览,从底层到应用都有了

作者 | 神经小姐姐来源 | HyperAI超神经&#xff08;ID: HyperAI&#xff09;导语&#xff1a;为期一周的 IJCAI 第一天议程已经圆满结束。在前三天的工作坊上&#xff0c;全球各地人工智能行业人士&#xff0c;在此讨论 AI 在各个领域与方向的最新研究成果与未来动向。超神经特…

UITableView 添加长按手势UILongPressGestureRecognizer

2019独角兽企业重金招聘Python工程师标准>>> 给UITableView 添加长按手势&#xff0c;识别长按哪一行。 长按手势类UILongPressGestureRecognizer&#xff0c; 属性minimumPressDuration表示最短长按的时间 添加手势代码&#xff1a; UILongPressGestureRecogniz…

像我这种垃圾学校出来的人...【原话,不是我编的】

今天这标题&#xff0c;是咱们先行者课程的学生的原话&#xff0c;不是我编的&#xff0c;咱有截图为证&#xff0c;我这没别的意思&#xff0c;就是想说一下我自己的想法&#xff0c; 这种情况怎么办呢&#xff1f;也得生活啊&#xff0c;对吧&#xff0c;也不能人人都上清华北…

二维码Data Matrix简介及在VS2010中的编译

Data Matrix 二维条码原名Datacode&#xff0c;由美国国际资料公司(International Data Matrix, 简称ID Matrix)于1989年发明。Data-Matrix二维条码是一种矩阵式二维条码。Data Matrix符号由规则排列的深浅色正方形模块构成&#xff0c;每个正方形模块就是一个基本单元&#x…

一、数据库设计与性能优化--概述

前言我1998年第一次接触SQL Server 6.5 for Windows NT 4.0&#xff0c;当时的感觉就认为SQL Server只是一个功能强大的Excel文件。现在回想起来&#xff0c;当年抱着这样一种态度&#xff0c;我开发的那些应用程序应该是非常幼稚的&#xff0c;其性能可想而知。记得那时候随便…

第四范式戴文渊:AI落地,为什么不能照搬教科书?

“年少成名”、“天才”&#xff0c;在中国 AI 行业里用这两个词同时形容一个人的牛人不多&#xff0c;第四范式创始人戴文渊位列其中。在上海交通大学就读本科期间&#xff0c;戴文渊就带领三人团队夺得了 2005 年 ACM 的世界冠军和三个亚洲冠军&#xff0c;并担任ACM竞赛教练…