数据挖掘的实现流程
文章目录
- 1.数据、信息与知识
- 2.数据挖掘实现流程概览图
- 3.数据准备(step 1)
- 4.数据挖掘(step 2)
- 5.模型的评估解释(step 3)
- 6.知识运用(step 4)
- 7.小结
1.数据、信息与知识
2.数据挖掘实现流程概览图
这里提供两张图,以下讲解基于第一张图。
3.数据准备(step 1)
Knowledge Discovery in Database即知识发现,简称KDD。KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上进行知识挖掘,需要做一些准备工作,也就是数据的预处理。
数据的预处理包括:
数据的选择(选择相关数据)
净化(消除噪音、冗余数据)
推测(推算缺值数据)
转换(离散型与连续型转换)
数据缩减(减小数据量)
数据准备是KDD的第一个步骤,也是比较重要的一个步骤。数据准备得好坏将直接影响数据挖掘的效率和准确度以继最终模式的有效性。
4.数据挖掘(step 2)
数据挖掘是最为关键的步骤,它根据KDD的目标,选择相应算法的参数,分析数据,得到可能形成知识的模式模型。
目前采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。
5.模型的评估解释(step 3)
通过上面步骤所得到的模式,有可能是没有意义或没有实用价值的,因此需要评估,确定哪些是有效的、有用的模式。
此外,大部分模式使用数学手段描述的的表达式,很难被人理解,还需要将其解释成可理解的方式以呈现给用户。
6.知识运用(step 4)
发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。
运用知识有两种方法:
一种是只需看知识本身所描述的关系或结果,就可以对决策者(数据挖掘又叫数据分析和决策支持)提供支持;
另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。
7.小结
KDD过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。
相关文章:

设计模式:备忘录模式??
定 义:在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态。 这样以后就可以将该对象恢复到原先保存的状态。 结构图: Originator(发起人):负责创建一个备忘录(Memento)ÿ…

如何用Python批量提取PDF文本内容?
本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析。 问题 最近,读者们在后台的留言,愈发五花八门了。 写了几篇关于自然语言处理的文章后,一种…

常用的3种注入方式
构造注入 指通过构造函数来传入具体类的对象设值注入(Setter注入) 指通过Setter方法来传入具体类的对象接口注入 指通过在接口中声明的业务方法传入具体类的对象

WebService客户端添加SOAPHeader信息
WebService客户端添加SOAPHeader信息 通过JAXBContext创建Marshaller对头信息进行解析为dom,获取WSBindingProvider,使用Headers.creat()创建soap的Header元素; 另外就是:将user转换为dom是为了不在有wsdl生成的LicenceInfo类中增…

MATLAB 向量
MATLAB 向量: 1、MATLAB 行向量: 创建行向量括在方括号中的元素的集合,用空格或逗号分隔的元素。 2、MATLAB 列向量: 创建列向量括在方括号中的元素的集合,使用分号来分隔的元素。 3、

Wiki为什么会流行
我来开题,老段补充一下,嘿嘿。。。Wiki的优点:版本管理和版本比较多作者,多编辑的协作简洁Wiki的缺点(或者第一次用不是很习惯的地方): 非所见即所得需要学习一下简单的语法文章的分类好像不是很地道所有的链接基本是自…

hung-yi lee_p18_图神经网络(cont.)
文章目录1. 简介2. 怎么把图喂到神经网络里面呢3. 为什么需要GNN4. 训练GNN遇到的问题5. 后面的内容安排6. GNN要做的事,常用数据集和基准7. 第一种实现GNN的方法(Spatial-based GNN)7.1 NN4G7.2 DCNN7.3 DGC7.4 MoNET番外:聚集的几种方法7.5 GAT7.5 GIN…

SQL Server2008附加数据库之后显示为只读
SQL Server2008附加数据库之后显示为只读时解决方法 啰嗦的话就不多说了,直入主题吧! 方案一: 碰到这中情况一般是使用的sa账户登录的,只要改为Windows身份验证,再附加数据库即可搞定。 方案二: 使用sa登录…

java maven项目使用sonar审核代码
为什么80%的码农都做不了架构师?>>> 一、pom增加插件 <plugin><groupId>org.sonarsource.scanner.maven</groupId><artifactId>sonar-maven-plugin</artifactId><version>3.1.1</version> </plugin> 二…

ERP成功全球实施十大成功案例
、美铝公司(Alcoa) 公司简介 美铝公司创办于19世纪80年代中期,目前是世界最大的氧化铝、电解铝和铝加工产品的生产商,活跃于包括基础研究和开发、技术及回收利用等铝工业的所有主要领域。美铝产品应用于航空航天、汽车、包装、建筑…

CentOS安装Oracle全过程
1.准备工作 (1)安装Java环境 (2)增大SWAP空间 1.1 切换为root用户 1.2 dd if/dev/zero of/home/swap bs1024 count204800 1.3 /sbin/mkswap /home/swap 1.4 /sbin/swapon /home/swap 1.5 free -m 1.6 vi /etc/fstab 添加 /home/…

Hide the common top menu in Ubuntu 12.04
隐藏:1、sudo apt-get autoremove appmenu-gtk appmenu-gtk3 appmenu-qt2、reboot恢复:1、sudo apt-get install appmenu-gtk appmenu-gtk3 appmenu-qt2、reboot转载于:https://www.cnblogs.com/wiessharling/p/3569616.html

在IBatisNet中使用存储过程
其实在IBatisNet中使用存储过程应该很简单了,应为IBatisNet本来就是基于Sql Mapping的。想着Npetshop中应该有例子看一下就行了,可是查了查map文件,发现没有,只要自己动手搞搞了。 在建立的测试数据库中建立一个简单的存储过程del…

人工智能时代,教育如何做人工智能的“弄潮儿”?
汇新杯新兴科技互联网创新大赛报名火热进行中 汇新杯大赛报名入口:https://www.chuangcheng.org.cn/4552016年人工智能火了,它被行业公认为是继互联网、移动互联网之后的又一重大机遇和挑战,并将成为各个领域的“水电煤”,成为行业…

centOS安装Java环境全过程
1.通过ssh将安装包从本地传到/usr/local文件夹下 2.解压安装包 tar -zxvf /usr/local/jdk-**** 3.给解压后的文件夹改名 mv /usr/local/jdk1.8.0_271 /usr/local/java 4.修改配置文件,配置环境变量 vi /etc/profile export JAVA_HOME/usr/local/java export PAT…

vue组件的传参练习
为什么80%的码农都做不了架构师?>>> 首先是父组件与子组件沟通 父组件告诉子组件,“嘿,孩子,我有话和你说” 组件A代码 <template><section><h1>这是组件</h1><test-B :chile-name"u…

Avayaの初体验
这个题目是不是给了你一种无法抗拒的吸引力并引起了你无限的幻想呢?一个名为Avaya的清纯少女……Stop!今天我要说的是电话交换机。说来惭愧,本来是个学通信的,到后来却不务正业搞了软件,到现在突然组织又需要我去搞Ava…

Git fetch和git pull的区别
原文:http://www.tech126.com/git-fetch-pull/ Git中从远程的分支获取最新的版本到本地有这样2个命令:1. git fetch:相当于是从远程获取最新版本到本地,不会自动merge git fetch origin master git log -p master..origin/mas…

powerdesigner中类图的内部类画法
点击一个已有类 点击1看到2 选择3 输入类名 右键类名选择Properties设置内部类的方法和参数 结果 如果在第二步里面找不到inner classfiers怎么办 自己添上

js获取页面属性
一些常用的页面属性获取: 网页可见区域宽:document.body.clientWidth;网页可见区域高:document.body.clientHeight; 类似视口宽度 网页正文全文宽:document.body.scrollWidth;网页正文全文高:document.body.scrollHeig…

jquery-12 折叠面板如何实现(两种方法)
jquery-12 折叠面板如何实现(两种方法) 一、总结 一句话总结:1、根据点击次数来判断显示还是隐藏,用data方法保证每个元素一个点击次数;2、找到元素的下一个,然后toggle实现显示隐藏。 1、toggle的两种用法…

上传图片并生成缩略图
前台<form id"Form1" method"post" runat"server" enctype"multipart/form-data"> <table id"Table1" cellpadding"1" cellspacing"1" width568 border"1"> …

物联网与互联网的6大区别
物联网互联网通过自动方式获取数据通过人工方式获取数据物联网是虚拟与现实的结合互联网构造了网络虚拟世界物联网是将计算机"装到"一切事务中在互联网时代把一切交给计算机去做物联网提供行业性服务互联网提供全球性公共信息服务物联网实现了信息世界与物理世界的融…

centoros 环境安装
1. nginx rpm -ivh http://nginx.org/packages/centos/6/noarch/RPMS/nginx-release-centos-6-0.el6.ngx.noarch.rpm yun install nignx 2.php yum install php yum install php-fpm 3. java yum list java* yum install java-1.7.0-openjdk.x86_64 转载于:https://www.cnblogs…

最优保险(三公子)
最优保险(三公子) 2018-06-29 1、消费型重疾险文章《6款消费型重疾险对比分析》、对标康惠保的一款良心产品 2、少儿重疾险文章《2款少儿重疾险对比分析》 3、定期寿险文章《4款定期寿险的对比分析》 4、医疗险文章《5款百万医疗险的对比分析》 5、意外险…

Love Java , Love IBM , Love Sun ( SunJiHai )
找java资源,找javabean,找spring,找ajax.东找西找,最后发现还是IBM牛!什么都有(Sun 当然也有),文档又好看,不得不佩服一下了.努力!!这个是IBM的DW上的JavaBean的入门:http://www-128.ibm.com/developerworks/cn/java/ejbIntro/ Sun里面的J2EE 5 的Tutorial(现在不叫J2EE了,叫 J…

RFID系统的基本工作原理
文章目录1. RFID的定义2. RFID与条码技术相比有哪些优势3. RFID标签的分类4. RFID系统的基本工作原理4.1 RFID系统的组成4.2 RFID标签的组成4.3 RFID读写器的组成4.4 RFID天线4.5 RFID基本交互原理4.6 被动式RFID标签工作原理4.7 主动式RFID标签工作原理4.8 半主动RFID标签工作…

对WEB前端的几段思考(一)——界面设计和性能优化(整理中)
尽管我并非艺术出生,既没有任何设计基础,又没有较高艺术涵养,也深谙在短时间内创造一定艺术造诣并非易事,但是既然当初选择从事网站前端开发,我的目光不能仅停留在前端代码上。作为一名志向在前端领域发展的人员&#…

CS研究笔记-缓存 (转)
CS中缓存对性能的优化起了非常大的作用,今天做一次深入的研究。经过大致的代码浏览发现CS中的缓存分为2种:一种采用System.Web.Caching,另一种采用HttpContext.Items(由于CS大量的采用服务器端控件没有使用页面级的缓存࿰…

阿里云弹性计算-图形工作站(公测)发布
产品介绍: 阿里云图形工作站,基于GPU 实例,采用AMD 专业GPU,集成了高性能远程桌面功能,非线编软件以及数据存储系统在内的一套完整图形图像处理流程,旨在满足一些高端用户在使用阿里云GPU可视计算实例时的极…