41款实用工具,数据获取、清洗、建模、可视化都有了
诸如结构式访谈、非结构式访谈、开放式问卷调查、封闭式问卷调查、记录评论和观察等技术统称为事实调查方法。这种事实调查方法和其他数据获取方法可以采取自动化,而不必使用人工方法。
使用具有专用软件的物理设备(如终端、传感器和扫描仪等)也可用于管理物理设备和系统之间的接口。随后,这些数据可以通过典型的编程语言(如Java、Visual Basic、C++、MatLab和Lisp)来进行部分管理。也可使用开源和专用的数据采集软件,如MIDAS(最大集成数据采集系统)。
通常,数据采集系统是作为一个专用的独立系统而开发的,这种系统被称为数据记录器。在有特殊需求的情况下,系统的工作模型已准备好,并且也已呈现给了数据科学家。这样的原型有助于用户在系统实际构建之前测试数据获取机制。这有助于收集额外要求并测试已提出系统的可行性。
这里有发现更高层次内容的知识获取和机器学习方法(例如从资源中自动地获取信息和知识),这种知识获取方法的例子如概念图、审计、神经网络和其他与自动知识发现相关的方法。
在其他工具中,数据清洗工具、数据管理和建模工具以及数据可视化工具都非常重要。本文列出了不同类别中的一些主要工具。
01
数据清洗工具
一旦完成数据收集,便需要检查其清洁度。数据清洗通常称为数据净化,即其数据从源中删除或更正脏数据的过程。数据声明程序的目标是识别和消除数据中的错误,为进一步分析、建模和可视化提供一致的数据。
在数据项层级上,一些不正确的数据通过适当的验证被拒绝。在诸如文件和数据库的同构数据集合中,不一致程度和错误数量较少。在来自多个数据源的具有异构性质的大型数据库(如数据仓库、联邦数据库系统或全球基于Web的系统)中,数据清洗变得至关重要。
产生这些问题的原因有:
(1)不同的格式
(2)冗余数据
(3)数据使用的术语和标准不同
(4)合并数据使用的方法
删除不准确的、不完整或不合理的数据会提高数据的质量。缺失值、特殊值、范围检查、演绎修正、插值、最小值调整、错字、审计和工作流规范检查等是数据清洗的常用机制。
除了编程语言外,常用的数据清理工具如下所列。
1. Lavastorm分析
用于分析引擎等产品。
www.lavastorm.com
2. IBM InfoSphere信息服务器
分析、理解、清洗、监视、转换和传输数据。
http://www-03.ibm.com/software/products/en/infosphere-information-server/
3. SAS数据质量服务器
清洗数据,并在数据流管理服务器上执行作业和服务。
www.sas.com
4. Oracle的主数据管理(MDM)
是处理大量数据,并且提供诸如合并、清洗、扩充和同步企业的关键业务数据对象等服务的解决方案。
http://www.oracle.com/partners/en/most-popular-resources/059010.html
5. 益百利 QAS清洗服务
为地址验证提供CASS认证(编码精度支持系统)。
http://www.qas.co.uk/
6. NetProspex
为数据清理、追加以及正在进行的市场数据管理提供支持。在印度,它现在是邓白氏信息服务公司的一部分,其提供数据管理转换和数据质量程序。
http://www.netprospex.com/
http://www.dnb.co.in/
7. Equifax
为数据库管理、数据集成和数据分析提供解决方案。
http://www.equifax.co.in/
8. CCR Data
清理并审计数据。该公司研发了ADAM—数据清理平台。
9. Oceanosinc公司提供的解决方案
用于数据清理、联系发现和商业智能。
http://www.oceanosinc.com/
10. Nneolaki
提供的工具用于数据收集、清理、附加和管理。
http://neolaki.net/
11. 数据清洗产品
为数据清洗提供方案。
http://www.datacleanser.co.uk/
02
数据管理和建模工具
数据科学实践中的其他重要活动是数据管理和数据准备,其也被称作数据整理。数据整理是将数据转换或映射为格式良好的数据流的过程,以便数据可以顺利地用于后续处理。
实际上,该过程允许通过工具便利和自动地使用数据来进行进一步的活动。排序、解析、提取、分解和恢复数据是数据管理阶段的主要活动。诸如Pearl、R、Python等编程工具以及来自编程语言和软件包的一些现成库可用于支持数据管理活动。
一旦数据准备好进行分析,诸如线性回归、运筹学方法以及决策支持系统等技术便通常用于数据建模。在这里,数据建模的基本目标是,为了提高商业洞察力进而确定干净且有效的数据实体之间的关系。
致力于这个阶段的数据科学家或专家被称为数据建模者。数据建模可以在概念层面、企业层面和物理层面完成。以下是支持数据建模的主要工具。
12. CA ERwin数据模拟
为管理复杂数据提供了简单的可视化界面。
http://erwin.com/products/data-modeler
13. Database Workbench
为使用多个数据库进行开发提供了一个单一的开发环境。
http://www.upscene.com/database_workbench/
14. DeZign for Databases
是一个支持数据库设计和建模的工具。它还为数据库应用程序开发提供了复杂的可视化数据建模环境。
http://www.datanamic.com/dezign/
15. Enterprise Architect
是用于数据建模和软件工程的完全集成的图形支持工具。
http://www.sparxsystems.com/products/ea/
16. ER/Studio
为数据管理专业人员提供协作机制以构建和维护企业级数据模型和元数据存储库。
http://www.embarcadero.com/products/er-studio
17. InfoSphere 数据架构师(理性数据架构师)
是一种协作式的数据设计方案。它简化了仓库设计、维度建模以及管理任务的变更。
http://www-03.ibm.com/software/products/en/ibminfodataarch/
18. ModelRight
为数据库设计人员提供了诸如数据库设计、图形支持、报告和可视化界面等活动的支持。
http://www.modelright.com/products.asp
19. MySQL Workbench
为数据库架构师、开发人员和数据库管理员提供了统一的可视化工具。MySQL Workbench还提供数据建模、SQL开发和综合管理。
http://www.mysql.com/products/workbench/
20. Navicat数据模拟器
有助于创建高质量的逻辑数据模型和物理数据模型。
http://www.navicat.com/products/navicat-data-modeler
21. Open ModelSphere
是一款独立于平台且免费的建模工具,可用作开源软件。它为数据建模和软件开发的所有阶段提供了普遍支持。
http://www.modelsphere.org/
22. Oracle SQL Developer Data Modeler
是一款用于创建、浏览和编辑数据模型的免费图形工具。它支持逻辑的、关系的、物理的、多维的以及数据类型的模型。
http://www.oracle.com/technetwork/developer-tools/datamodeler/overview/index.html
23. PowerDesigner
管理设计时间更改和元数据。
http://www.powerdesigner.de/
24. Software Ideas Modeler
通过诸如UML、业务流程模型和符号(BPMN)、系统建模语言(SysML)等的标准图以及多图表,为建模提供支持。
https://www.softwareideas.net/
25. SQLyog
是一个强大的MySQL管理者和管理工具。
https://www.webyog.com/
26. Toad Data Modeler
是一个数据库设计工具,其用于设计新的结构、实体关系图和SQL脚本生成器。
http://www.toad-data-modeler.com/
03
数据可视化工具
数据可视化是指数据的图形表示。数据的可视化使得理解数据和沟通变得更容易。
有很多可用于数据可视化的工具,下面列出了一些常用可视化工具:
27. Dygraphs
是一个快速且灵活的开源JavaScript图表库,其允许用户探索和解释密集的数据集。Dygraphs是一个高度可定制的工具。
http://dygraphs.com/
28. ZingChart
是一个JavaScript图表库,其能为大量数据提供快速和交互式的图表。
http://www.zingchart.com/
29. InstantAtlas
以有效的视觉方式提供交互式示意图和报告软件。
http://www.instantatlas.com/
30. Timeline
可以制作出美观的互动时间表。
http://www.simile-widgets.org/timeline/
31. Exhibit
是由麻省理工学院开发的完全开源软件,其有助于创建交互式的示意图和其他基于数据的可视化。
http://www.simile-widgets.org/exhibit/
32. Modest Maps
对于想要使用交互式示意图的设计者和开发者来说,是一个免费的图书馆。
http://modestmaps.com/
33. Leaflet
是适用于移动友好交互式示意图的现代开源JavaScript库。
http://leafletjs.com/
34. Visual.ly
有助于创建视觉表征。
http://create.visual.ly/
35. Visualize Free
构建交互式可视化,用来说明简单图表不易表示的数据。
http://visualizefree.com/index.jsp
36. 多眼
IBM研发的“多眼”可以帮助用户从数据集创建可视化并启用数据分析。
http://www-969.ibm.com/software/analytics/manyeyes/
37. D3.js
是一个JavaScript库,D3.js从多个数据源使用HTML、SVG和CSS来生成图形和图表。
http://d3js.org/
38. Google Charts
提供一种机制来以多种交互式图表(如线形图、复杂的分层树形图等)的形式对数据进行可视化。
https://developers.google.com/chart/interactive/docs/
39. Crossfilter
是一个JavaScript库,其用于探索浏览器中的大规模多变量数据集。此外,Crossfilter还提供可协调的3D可视化。
http://square.github.io/crossfilter/
40. Polymaps
在地图上提供了快速且多缩放的数据集演示。
http://polymaps.org/
41. Gephi
是一款适用于各种网络、复杂系统、动态和分层图形的交互式的可视化探索平台。它支持探索性数据分析、链接分析、社交网络分析以及生物网络分析。该工具为已识别的类似数据集呈现彩色区域。
https://gephi.github.io/
除了上述工具和技术之外,数据科学领域还需要其他更多的专用新工具。由于数据科学领域是来自多个学科的技术联盟,并且具有无处不在的应用,因此数据科学在研究和开发中必须被赋予最重要的地位。此外,数据科学领域还需要文档编制、新的技术和模型。
典型的模型和技术可能不适合已获取的数据集,这些数据需要典型方法外的支持。在这里,人工智能技术可能会有很大的贡献。
本文摘编自《大数据分析与算法》,经出版方授权发布。
作者:拉金德拉·阿卡拉卡(Rajendra Akerkar)、普里蒂·斯里尼瓦斯·萨加(Priti Srinivas Sajja)
扫码查看详情
推荐理由:
本书详细介绍了数据科学领域的相关智能技术,包括数据分析、基本学习算法、模糊逻辑、人工神经网络、基因算法和进化计算、使用R语言进行大数据分析等。本书可以作为高等院校计算机专业本科生和研究生,以及其他专业研究生的人工智能课程的教材,也可以作为相关教师和数据分析技术人员的参考书。
扫码或者点击阅读原文购买

作为码书商店的运营人员,诚邀你们进入我们的“CSDN码书福利群”,群里会不定时的给大家赠书书籍、优惠券等,有书籍推荐或者物流方面信息也可群里咨询~目前群已满100人,需要加群的请扫下方二维码添加微信,拉你入群哦~对此次活动不了解的也可咨询~
相关文章:

OpenCV中的内存泄漏检测
转自:http://chaishushan.blog.163.com/blog/static/130192897200911685559809/ 内存泄漏时程序开发中经常遇到的问题. 而且出现内存泄漏很难检测,但是其导致的结果却是灾难性的. 这里讲一下opencv中内存泄漏检测的一些技巧.OpenCV中关于内存管理主要涉及到以下3个函…

一文全面了解基于内容的推荐算法
作者丨gongyouliu来源 | 转载自大数据与人工智能(ID:ai-big-data)这篇文章我们主要关注的是基于内容的推荐算法,它也是非常通用的一类推荐算法,在工业界有大量的应用案例。本文会从什么是基于内容的推荐算法、算法基本原理、应用场…

[Nginx优化]分享nginx配置文件及优化说明
1、系统及内核方面 根据服务器用途,建议系统最小化安装或针对web服务器进行系统内核重新编译;在内核参数的一些优化,如下: # Add net.ipv4.tcp_max_syn_backlog 65536 #表示SYN队列的长度 net.core.netdev_max_backlog 3…

laravel项目composer安装
1.下载 Composer (https://pkg.phpcomposer.com/#how-to-install-composer) 安装前请务必确保已经正确安装了 PHP。打开命令行窗口并执行 php -v 查看是否正确输出版本号。 打开命令行并依次执行下列命令安装最新版本的 Composer: 复制php -r…

淘宝装修:第一日 —— 图片轮播
先添加一个自定义内容区,进入源码编辑,如下图所示: 添加源码如下: <TABLE border0 cellSpacing0 cellPadding0 width773 height220> <TBODY> <TR> <TD width773> <P> <MARQUEE height220 behavi…

强化学习大规模应用还远吗?Youtube推荐已强势上线
来源 | 转载自深度传送门导读:本文将介绍在深度学习的强力驱动下,给推荐系统工业界所带来的最前沿的变化。本文主要根据几大顶会2019的最新论文,总结一下深度强化学习给推荐系统以及CTR预估工业界带来的最新进展。 凡是Google出品,…

layui select 与 vue 的结合使用
2019独角兽企业重金招聘Python工程师标准>>> 1. 创建一个select元素 <form class"layui-form layui-form-pane all-account-filter-form"><div class"layui-form-item"><div class"layui-inline"><label class&…

OpenCV 2.2.0 CvvImage的使用
转自:http://blog.csdn.net/raocong2010/archive/2011/01/17/6146158.aspx# 前几日,OpenCV 2.2.0版本出现了...但是...以前版本的CvvImage类不见了...为了能够继续使用这个类,下面把这个类的源代码贴出来,使用的时候将该代码加入到…

c/c++标准预定义宏
转自:http://www.eefocus.com/andysun001/blog/10-06/192018_008b3.html 一、标准预定义宏The standard predefined macros are specified by the relevant language standards, so they are available with all compilers that implement those standards. Older c…

阿里AI攻克心血管识别技术,冠脉中心线提取论文入选国际医学影像会议
阿里在医疗AI领域取得新进展,继创下肺结节检测、肝结节诊断技术的重大突破后,又攻克了难度系数更高的心血管识别技术。 近日,阿里达摩院机器智能实验室有关冠状动脉中心线提取的论文已被国际顶级医学影像会议MICCAI 2019提前接收。 阿里AI论…

自由程序员在国外
可靠的做法是,在一些像oDesk这样的网站上找一些临时开发任务,在Linked In网站上提交一份个人简历。这样将有助于你在出行后尽早的找到可干的项目,而不必到时大减价来抢其他程序员的活儿(或消减自己的预算)。 从来不缺乏你可以捐赠代码的开源项…

关于spring aop Advisor排序问题
关于spring aop Advisor排序问题 当我们使用多个Advisor的时候有时候需要排序,这时候可以用注解org.springframework.core.annotation.Order或者实现org.springframework.core.Ordered接口。 示例代码: import org.aspectj.lang.ProceedingJoinPoint; im…

NLP重大突破?一文读懂XLNet“屠榜”背后的原理
作者 | 李理 原文链接:https://fancyerii.github.io/2019/06/30/xlnet-theory/ 本文介绍XLNet的基本原理,读者阅读前需要了解BERT等相关模型,不熟悉的读者建议学习BERT课程。 语言模型和BERT各自的优缺点 在论文里作者使用了一些术语&#…

CSS3支持IE6, 7, and 8的边框属性
我们都知道,IE 6,7不支持新增加的CSS3属性,甚至与IE8是CSS3还没有完全准备好。你知道吗,今天给大家分享一个脚本工具,可以帮助您启用CSS3的支持IE浏览器(IE6)与新的CSS3属性,包括:bo…

解决:VS 2005/2008 中 fstream 不能处理带有中文路径的问题
转自:http://blog.csdn.net/code_robot/archive/2010/06/23/5688867.aspx 有时候用ifstream或ofstream打开带有中文路径的文件会失败。 解决办法:1、使用C语言的函数设置为中文运行环境setlocale(LC_ALL,"Chinese-simplified"); 2、使用STL函…

NLP文本标注工具与平台(数据标注公司)
最近在做NLP相关项目,包括句法分析、情感分析等,有大量数据需要标注。我评估了几个文本标注工具,也接触了几家数据标注公司和平台,总结如下,供各位参考。 文本标注平台(标注外包公司) 数据标注公…

一文读懂基于神经网络的图片风格转移
作者 | moliam转载自 CSDN 博客前言将A图片的风格转移到B图片上,指的是将A图片的抽象艺术风格(如线条、色彩等等)和B图片的内容框架合成为一幅图。自然地,A图片称为风格图,而B图片就称为内容图。就像这样:左…
【物联网中间件平台-01】真正面向物联网的组态软件 YFIOs和YFHMI的前生今世
1前言 从2001年进入工控领域以来,前后7年多的时间开发了诸如二型计量监控系统、焦炉四大机车自动化系统、烧结配水监控系统、隧道广告影像系统、通用组态软件、嵌入式系统组态软件(基于WINCE系统)、LED视频影像系统和ICU病室输液管理等系统。…

OpenCV常遇问题解决方法汇总
1、cvLoad的使用和释放: CvMat *mat (CvMat*)cvLoad("a.xml"); cvRelease((void**)&mat); 2、cvCreateMatHeader的使用和释放: CvMat *mat cvCreateMatHeader(4, 2, CV_64FC1); cvReleaseMatHeader(&mat); 在OpenCV2.1及OpenCV2.2中…

分享我如何在7年时间里成长为阿里Java架构师(附学习路线图)
2019独角兽企业重金招聘Python工程师标准>>> 如何更高效的学习? 1.架构师应不应该写代码 总的来说,架构师和程序员在某些方面上有点像产品经理和用户的关系,大部分程序员并不会主动告诉你他们想要什么、哪里需要优化,甚…

github 与git 使用 及配置
git 是网上很流行的版本控制工具 ,尝试 熟悉并使用 它(也有windows版本,这里介绍mac的) 额,再操作前 先看看这个 并跟着做做 http://www.uml.org.cn/pzgl/201204285.asp 1,到github官网 申请账号 2,…

如何发布ActiveX 控件
转自:http://blog.csdn.net/zougangx/archive/2008/07/30/2738147.aspx [背景] 做过ActiveX控件的朋友都知道,要想把自己做的ActiveX控件功能放在自己的网页上使用,那么用户在客户端就必须进行本地的注册,也就是说用户得首先要把该…

200行代码实现一个滑动验证码
作者 | 崔庆才 转载自进击的Coder(ID: FightingCoder)做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动、点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大致说…

Envoy源码分析之Dispatcher
2019独角兽企业重金招聘Python工程师标准>>> 摘要: Dispatcher 在Envoy的代码中Dispatcher是随处可见的,可以说在Envoy中有着举足轻重的地位,一个Dispatcher就是一个EventLoop,其承担了任务队列、网络事件处理、定时器…

Windows 8 快捷键大全
为什么80%的码农都做不了架构师?>>> win8快捷键大全: Windows 键 X :Windows快捷菜单 Windows 键 C :显示个性分类和时钟 Windows 键 I :打开“设置”个性分类 Windows 键 K :打开“设备”…

Activex、OLE、COM、OCX、DLL之间区别、联系
转自:http://baike.baidu.com/view/393671.htm 概述 .ocx是ocx控件的扩展名,与.exe .dll同属于PE文件。下面说说什么是ocx控件! OCX 是对象类别扩充组件。 如果你用过Visual Basic或者Delphi一类的可视化编程工具,那么对控件这个概念一定不会陌生&#…

不写一行代码,也能玩转Kaggle竞赛?
整理 | Jane 出品 | AI科技大本营(ID:rgznai100)【导读】AI科技大本营会给大家分享一些 Kaggle 上的资源,如 Kaggle 开放的数据集,也会分享一些好的竞赛方案或有意义的竞赛经验,帮助大家成长。今天…

认识flask框架-2
1.json:基于键值对的字符串,轻量级的数据交互格式,用来传输数据 2.json模块 dumps:把字典转化成json字符串。 loads:把json字符串转成字典。 dump、load操作的是文件对象。 jsonify可以返回json字符串,会修改响应的类型为applicat…

Sencha-概念-Layouts(布局)(官网文档翻译8)
Sencha-概念-Layouts(布局)(官网文档翻译8) 介绍和HBox 布局描述了在您的应用程序的组件的大小和位置。例如,一个电子邮件客户端可能具有固定到左边的消息的列表,以说,可用的宽度的三分之一,和一个消息观看…

Photoshop图像处理操作汇总
1、给图像添加外边框,保持图像原有大小: 点击图层-->新建-->图层,弹出新图层对话框,点击确定,点按"Ctrl A”键将图像全部选中,再点击编辑>描边,弹出描边对话框,在宽…