Get了!用Python制作数据预测集成工具 | 附代码
作者 | 李秋键
责编 | 晋兆雨
大数据预测是大数据最核心的应用,是它将传统意义的预测拓展到“现测”。大数据预测的优势体现在,它把一个非常困难的预测问题,转化为一个相对简单的描述问题,而这是传统小数据集根本无法企及的。从预测的角度看,大数据预测所得出的结果不仅仅是用于处理现实业务的简单、客观的结论,更是能用于帮助企业经营的决策。
在过去,人们的决策主要是依赖 20% 的结构化数据,而大数据预测则可以利用另外 80% 的非结构化数据来做决策。大数据预测具有更多的数据维度,更快的数据频度和更广的数据宽度。与小数据时代相比,大数据预测的思维具有 3 大改变:实样而非抽样;预测效率而非精确;相关关系而非因果关系。
而今天我们就将利用python制作可视化的大数据预测部分集成工具,其中数据在这里使用一个实验中的数据。普遍性的应用则直接从文件读取即可。其中的效果图如下:
实验前的准备
首先我们使用的python版本是3.6.5所用到的模块如下:
sklearn模块用来创建整个模型训练和保存调用以及算法的搭建框架等等。
numpy模块用来处理数据矩阵运算。
matplotlib模块用来可视化拟合模型效果。
Pillow库用来加载图片至GUI界面。
Pandas模块用来读取csv数据文件。
Tkinter用来创建GUI窗口程序。
数据的训练和训练的GUI窗口
经过算法比较,发现这里我们选择使用sklearn简单的多元回归进行拟合数据可以达到比较好的效果。
(1)首先是是数据的读取,通过设定选定文件夹函数来读取文件,加载数据的效果:
'''选择文件功能'''
def selectPath():# 选择文件path_接收文件地址path_ =tkinter.filedialog.askopenfilename()# 通过replace函数替换绝对文件地址中的/来使文件可被程序读取# 注意:\\转义后为\,所以\\\\转义后为\\path_ =path_.replace("/", "\\\\")# path设置path_的值path.set(path_)return path# 得到的DataFrame读入所有数据
data = pd.read_excel(FILENAME, header=0, usecols="A,B,C,D,E,F,G,H,I")
# DataFrame转化为array
DataArray = data.values
# 读取已使用年限作为标签
Y = DataArray[:, 8]
# 读取其他参数作为自变量,影响因素
X = DataArray[:, 0:8]
# 字符串转变为整数
for i in range(len(Y)):Y[i] = int(Y[i].replace("年", ""))
X = np.array(X) # 转化为array
Y = np.array(Y) # 转化为arrayroot = Tk()
root.geometry("+500+260")
# 背景图设置
canvas = tk.Canvas(root, width=600, height=200, bd=0, highlightthickness=0)
imgpath = '1.jpg'
img = Image.open(imgpath)
photo = ImageTk.PhotoImage(img)
#背景图大小设置
canvas.create_image(700, 400, image=photo)
canvas.pack()
path = StringVar()
#标签名称位置
label1=tk.Label(text = "目标路径:")
label1.pack()
e1=tk.Entry( textvariable = path)
e1.pack()
bn1=tk.Button(text = "路径选择", command = selectPath)
bn1.pack()
bn2=tk.Button(text = "模型训练", command = train)
bn2.pack()
bn3=tk.Button(text = "模型预测", command = test)
bn3.pack()
#标签按钮等放在背景图上
canvas.create_window(50, 50, width=150, height=30,window=label1)
canvas.create_window(280, 50, width=300, height=30,window=e1)
canvas.create_window(510, 50, width=150, height=30,window=bn1)
canvas.create_window(50, 100, width=150, height=30,window=bn2)
canvas.create_window(510, 100, width=150, height=30,window=bn3)root.mainloop()
效果如下可见:
(2)然后是数据的拟合和可视化模型效果:
# 模型拟合
reg = LinearRegression()
reg.fit(X, Y)
# 预测效果
predict = reg.predict(np.array([X[0]]))
Y_predict = reg.predict(X)
print(Y_predict)
# 横坐标
x_label = []
for i in range(len(Y)):x_label.append(i)
# 绘图
fig, ax = plt.subplots()
# 真实值分布散点图
plt.scatter(x_label, Y)
# 预测值分布散点图
plt.scatter(x_label, Y_predict)
# 预测值拟合直线图
plt.plot(x_label, Y_predict)
# 横纵坐标
ax.set_xlabel('预测值与真实值模型拟合效果图')
ax.set_ylabel('蓝色为真实值,黄色为预测值')
# 将绘制的图形显示到tkinter:创建属于root的canvas画布,并将图f置于画布上
canvas = FigureCanvasTkAgg(fig, master=root)
canvas.draw() # 注意show方法已经过时了,这里改用draw
canvas.get_tk_widget().pack()
# matplotlib的导航工具栏显示上来(默认是不会显示它的)
toolbar = NavigationToolbar2Tk(canvas, root)
toolbar.update()
canvas._tkcanvas.pack()
#弹窗显示
messagebox.showinfo(title='模型情况', message="模型训练完成!")
其中的效果如下可见:
其中的效果如下可见:
模型的预测和使用
其中模型的预测主要通过两种方式进行预测,分别是:手动输入单个数据进行预测和读取文件进行预测。
其中手动输入数据进行预测需要设置更多的GUI按钮,其中代码如下:
#子窗口
LOVE = Toplevel(root)
LOVE.geometry("+100+260")
LOVE.title = "模型测试"
#子窗口各标签名
label = ["上升沿斜率(v/us)", "下降沿斜率(v/us)", "脉宽(ns)", "低状态电平(mv)", "低电平方差(mv2)x10-3", "高状态电平(v)", "高电平方差(v2)", "信号质量因子"]
Label(LOVE, text="1、输入参数预测", font=("微软雅黑", 20)).grid(row=0, column=0)
#标签名称,字体位置
Label(LOVE, text=label[0], font=("微软雅黑",10)).grid(row=1, column=0)
Label(LOVE, text=label[1], font=("微软雅黑", 10)).grid(row=1, column=1)
Label(LOVE, text=label[2], font=("微软雅黑", 10)).grid(row=1, column=2)
Label(LOVE, text=label[3], font=("微软雅黑", 10)).grid(row=1, column=3)
Label(LOVE, text=label[4], font=("微软雅黑", 10)).grid(row=1, column=4)
Label(LOVE, text=label[5], font=("微软雅黑", 10)).grid(row=1, column=5)
Label(LOVE, text=label[6], font=("微软雅黑", 10)).grid(row=1, column=6)
Label(LOVE, text=label[7], font=("微软雅黑", 10)).grid(row=1, column=7)
#编辑框位置和字体
en1=tk.Entry(LOVE, font=("微软雅黑", 8))
en1.grid(row=2, column=0)
en2=tk.Entry(LOVE, font=("微软雅黑", 8))
en2.grid(row=2, column=1)
en3=tk.Entry(LOVE, font=("微软雅黑", 8))
en3.grid(row=2, column=2)
en4=tk.Entry(LOVE, font=("微软雅黑", 8))
en4.grid(row=2, column=3)
en5=tk.Entry(LOVE, font=("微软雅黑", 8))
en5.grid(row=2, column=4)
en6=tk.Entry(LOVE, font=("微软雅黑", 8))
en6.grid(row=2, column=5)
en7=tk.Entry(LOVE, font=("微软雅黑", 8))
en7.grid(row=2, column=6)
en8=tk.Entry(LOVE, font=("微软雅黑", 8))
en8.grid(row=2, column=7)
Label(LOVE, text="", font=("微软雅黑", 10)).grid(row=3, column=0)
#测试输入框预测
def pp():x=np.array([int(en1.get()),int(en2.get()),int(en3.get()),int(en4.get()),int(en5.get()),int(en6.get()),int(en7.get()),int(en8.get())])# 预测效果predict = reg.predict(np.array([x]))Label(LOVE, text="预测结果已使用年数为:"+str(predict[0])+"年", font=("微软雅黑", 10)).grid(row=4, column=3)print(predict)
Button(LOVE, text="预测:", font=("微软雅黑", 15),command=pp).grid(row=4, column=0)
Label(LOVE, text="2、选择文件预测", font=("微软雅黑", 20)).grid(row=5, column=0)
path1 = StringVar()
label1 = tk.Label(LOVE,text="目标路径:", font=("微软雅黑", 10))
label1.grid(row=6, column=0)
e1 = tk.Entry(LOVE,textvariable=path1, font=("微软雅黑", 10))
e1.grid(row=6, column=2)
label = ["上升沿斜率(v/us)", "下降沿斜率(v/us)", "脉宽(ns)", "低状态电平(mv)", "低电平方差(mv2)x10-3", "高状态电平(v)", "高电平方差(v2)","信号质量因子"]n = 0for i in predict_value:print(str(label) + "分别为" + str(X[n]) + "预测出来的结果为:" + str(i) + "年" + "\n")f = open("预测结果.txt", "a")f.write(str(label) + "分别为" + str(X[n]) + "预测出来的结果为:" + str(i) + "年" + "\n")f.close()f = open("result.txt", "a")f.write(str(i) + "\n")f.close()n += 1messagebox.showinfo(title='模型情况', message="预测结果保存在当前文件夹下的TXT文件中!")os.system("result.txt")os.system("预测结果.txt")
Button(LOVE, text="预测:", font=("微软雅黑", 15), command=ppt).grid(row=7, column=0)效果如下可见:选择文件进行读取预测和模型训练数据的读取类似,代码如下:
#选择文件预测
def selectPath1():# 选择文件path_接收文件地址path_ =tkinter.filedialog.askopenfilename()# 通过replace函数替换绝对文件地址中的/来使文件可被程序读取# 注意:\\转义后为\,所以\\\\转义后为\\path_ =path_.replace("/", "\\\\")# path设置path_的值path1.set(path_)return path
bn1 = tk.Button(LOVE,text="路径选择", font=("微软雅黑", 10), command=selectPath1)
bn1.grid(row=6, column=6)
def ppt():try:os.remove("预测结果.txt")os.remove("result.txt")except:pass# 文件的名字FILENAME =path1.get()# 禁用科学计数法pd.set_option('float_format', lambda x: '%.3f' % x)np.set_printoptions(threshold=np.inf)# 得到的DataFrame读入所有数据data =pd.read_excel(FILENAME, header=0, usecols="A,B,C,D,E,F,G,H")# DataFrame转化为arrayDataArray =data.values# 读取其他参数作为自变量,影响因素X = DataArray[:,0:8]predict_value = reg.predict(X)print(predict_value)
效果如下:
由于读取文件进行预测的话,数据较多故直接存储在TXT中方便查看:
完整代码链接:
https://pan.baidu.com/s/1yIjK9fc0g8r4Q57_33E-tg
提取码:44mg
作者简介:
李秋键,CSDN博客专家,CSDN达人课作者。硕士在读于中国矿业大学,开发有taptap竞赛获奖等等
更多精彩推荐
YouTube 网红程序员一夜走红,修复美、日、俄多国街景视频
赠书 | 人工智能识万物:卷积神经网络的前世今生
万字长文总结机器学习的模型评估与调参 | 附代码下载
“Talk is cheap, show me the code”你一行代码有多少漏洞?
科普 | 定义 Eth2.0 中的验证者质量
相关文章:

方差,标准差,协方差、期望值
方差:方差是变量与其平均值的平方和的算术平均值,例如: 有一组数据{4,5,6,7}, 平均值为:(4567)/422/45.5 其方差为:[(4-5.5)2(5-5.5)2(6-5.5)2(7-5.5)2]/4 标准差:方差的开2次方 例如上面那组数据的标准差为…

简单代码的性能差异
《.net 框架程序设计》里的几句代码,我重新整理了一下,写成函数,这样下面的反编译代码看起来更方便点:dahuzizyd的专栏 http://blog.csdn.net/dahuzizyd/publicvoidBoxing() { Int32 v 5; Conso…
求助贴:人工智能offer,阿里or腾讯,选哪个?
笔者曾在脉脉上看到一条网友求助帖:拿到两个offer,一个腾讯,一个阿里,选哪个?抛开“柠檬”这件事不说,笔者观察到另一件事:那就是他的offer都是视觉岗。前一阵刚巧也看到一份报告:人…

EIGRP注入默认路由
实验TOP: 三、实验要求: R1,R2,R3运行EIGRP,用ip default-network 命令使EIGRP向EIGRP域内传递缺省路由,各路由器的各环回口之间路由可达。 四:实验过程: 1、 基本接口的配置.(见图) 1(config)#int e0/0 R1(config-if)#ip add 12.0.0.1 255.255.255.0 R1(config-if)…

Python OpenCV学习笔记之:图像读取,显示及保存
为什么80%的码农都做不了架构师?>>> #-*- coding: utf-8 -*- # 读取,保存,显示图片 import cv2 as cv# 读取为灰度图片 img cv.imread("../../datas/images/fish.jpg",0)# 保存图片 cv.imwrite("../../datas/ima…
简单的特征值梯度剪枝,CPU和ARM上带来4-5倍的训练加速 | ECCV 2020
作者 | VincentLee来源 | 晓飞的算法工程笔记在训练过程中,特征值梯度的回传和权值梯度的计算占了大部分的计算消耗。由于这两个操作都是以特征值梯度作为输入,而且零梯度不会占用计算资源,所以稀疏化特征值梯度可以降低回传阶段的计算消耗以…

获得汉字字符串拼音首字母
作者:iwebsms的专栏 返回给定字符串的首字母Function IndexCode(ByVal IndexTxt As String) As StringDim i As IntegerFor i 1 To IndexTxt.LengthIndexCode IndexCode & GetOneIndex(Mid(IndexTxt, i, 1))NextEnd Function得到单个字符的首字母Private Func…

使用HTTP模块扩展 ASP.NET 处理
HTTP 模块是一个通过实现实现 IHttpModule 接口和处理事件,在每次针对应用程序发出请求时调用的程序集。HTTP 模块作为 ASP.NET 请求管线的一部分调用,能够在整个请求过程中访问生命周期事件。因此,HTTP 模块使我们有机会检查传入和传出的请求…

angular指令ng-class巧用
什么是ng-class ng-class最大的妙用就是可以根据你的逻辑表达式。来添加或移除对应的class ng-class是angular.js里面内置的一个指令。 项目中,有时候,我们需要根据需求来切换不同的class function bb($scope){$scope.ss"className"; } <…
小冰拉开人生第二幕:AI时代的“Office”问世,你的虚拟男友“复活”了
作者 | Just出品 | AI科技大本营(ID:rgznai100)2014年,小冰正式推出第一代产品,以对话式聊天机器人形式迅速积累训练数据。2020年8月20日,已从微软独立分拆的小冰团队宣布,第八代小冰“出炉”了。小冰团队表…

如何复制一个目录里面的所有目录和文件
作者: cuike519的专栏 http://blog.csdn.net/cuike519/本文介绍如何将一个目录里面的所有文件复制到目标目录里面。 下面介绍几个我们在该例程中将要使用的类: 1、Directory:Exposes static methods for creating, moving, and enumeratin…

ArcGIS问题:如何定义坐标系
一般情况下,我们在利用ArcCatalog建立shp文件的时候就会把相应的坐标系定义好。 具体做法就是鼠标右键单击选择属性,即可编辑其坐标系了(方法在:http://gisman.blog.163.com/blog/static/3449338820096134452166/ 投影坐标的定…

Unity3D 材料
为什么80%的码农都做不了架构师?>>> http://docs.unity3d.com/Manual/index.html http://www.maiziedu.com/course/u3d/ http://pan.baidu.com/share/home?uk2217874598#category/type0 http://www.devsiki.com/2015/10/08/indiegamedeveloper.html ht…
12 种方式轻松实现 Ruby 调用
作者 | Gregory Witek译者 | 弯月,责编 | 王晓曼头图 | CSDN 下载自东方IC出品 | CSDN(ID:CSDNnews)以下为译文:最近,与同事聊天的时候,我们谈到了有关 Python 编程的某些方面。我们开玩笑说 Py…

如何实现可以带详细表格的DropDownList
作者: cuike519的专栏 http://blog.csdn.net/cuike519/本文详细介绍了如何实现在点击DropDownList的时候弹出DataGrid,然后从DataGrid里面选择相应的项。很早就发现在网上有很酷的下拉选择框,今天我在这里也写一个,该方法旨在说…

在数据库组件中用业务规则剖析挑选数据
2019独角兽企业重金招聘Python工程师标准>>> 直接去 techsmith 吧 http://www.screencast.com/t/6o6iWQac 转载于:https://my.oschina.net/ychenIntegration/blog/61634

如果根据日志去禁用user_agent
查看user_agent打开日志文件 cat /usr/local/apache2/logs/test.com-access_20161111_log如何不显示chrome和curl的日志1.打开虚拟主机配置文件vi /usr/local/apache2/conf/extra/httpd-vhosts.conf添加一代代码<IfModule mod_rewrite.c>RewriteEngine onRewriteCond %{H…

c库的rand/random随机数产生函数性能差?
有网文称c标准库的rand/random随机数产生函数性能极差。一直信以为真,但从没做过验证。最近因其他因缘,写了些代码专门验证rand/random的性能。结果大出意料,颠覆之前的成见。 结论如下: 1) rand/random性极佳。在64位机器上&…

如何实现立体的DataGrid和具有Windows效果的图片按钮
作者: cuike519的专栏 http://blog.csdn.net/cuike519/下文将为您演示如何将DataGrid实现为一个立体的表格,以及如何实现在Image按钮中实现立体感的效果。为了完成上面的内容我们首先要对CSS的自定义样式有所了解,然后就是一些简单的js代码…
用 Python 详解《英雄联盟》游戏取胜的重要因素!
作者 | DeepHub IMBA责编 | 王晓曼介绍在过去的几年里,电子竞技社区发展迅速,曾经只是休闲娱乐的电子竞技产业,到2022年有望创造18亿美元的收入。虽然在这个生态系统中有很多电子游戏,但很少有游戏像《英雄联盟》那样成为社区的主…

用户输入一个数字,找到所有能够除尽它的数的总个数
想不到我这个小学生也会做 <!DOCTYPE html><html lang"en"><head> <meta charset"UTF-8"> <title>Document</title> <script type"text/javascript"> //用户输入一个数字,找到所有能够除…

如何在DataGrid里面使用动态图形表示数字
作者: cuike519的专栏 http://blog.csdn.net/cuike519/本文将要简单的介绍如何在DataGrid里面用图形表是一个数字,听起来好象要用到GUI的编程,其实不然,如果你读完全文你就会发现其实很简单,只是一个“小把戏”而已…

替换 RHEL5的yum源为CentOS5源,亲测线上系统可用
最近安装nagiospnp,各种依赖包啊。rrdtool肿么装的这么费劲,后来实在扛不住了,还是修改rhel的源吧,把yum源搞成centos的不就ok了!哈哈。然后就从网上一顿猛搜,发现“Ayou”老师的文章很靠谱,很有…
如何使用 Python 构建推荐引擎?
作者 | Craig Kerstiens译者 | 弯月,编辑 | 王晓曼头图 | CSDN 下载自东方IC来源 | CSDN(ID:CSDNnews)我非常喜欢数据。数据可以告诉你用户在干什么,还可以提供各种深刻的见解。数据应用的一个方面就是根据历史记录或用…

LVM 类型的 Storage Pool - 每天5分钟玩转 OpenStack(8)
http://www.cnblogs.com/CloudMan6/p/5277927.html LVM 类型的 Storage Pool - 每天5分钟玩转 OpenStack(8)LVM 类型的 Storage Pool不仅一个文件可以分配给客户机作为虚拟磁盘,宿主机上 VG 中的 LV 也可以作为虚拟磁盘分配给虚拟机使用。不过…

.NET中的密码学--对称加密
作者:未知 介绍 在.NET之前,使用非托管的Win32APIs加密解密数据是一件非常痛苦的事情。为了这个加密解密的目的,.NET配置了一组类(和命名空间)。现在你有很多类可以使用每种不同的算法保护你的数据。在.NET里面Crypt…
哪种编程语言最适合初学者?
经常听到有人在说:“现在技术迭代越来越快,程序员的压力更大了,30岁之后的程序员就不好找工作了......”,这不乏很多人在故意贩卖焦虑,但是也会引起我们对自己发展的思考。尤其刚入行的程序员会迷茫,会思考…

地址本在不同手机间的迁移
更换手机时最烦人的莫过于迁移地址本了,近来又迎来了换工作,换手机,先将地址本迁移的方法总结如下: 1)通用方法 功能手机上不能自己写程序的话,迁移起来没有什么好办法,只能先把地址本复制到SIM…

关于flume配置加载(二)
为什么翻flume的代码,一方面是确实遇到了问题,另一方面是想翻一下flume的源码,看看有什么收获,现在收获还谈不上,因为要继续总结。不够已经够解决问题了,而且确实有好的代码,后续会继续慢慢分享…
为什么深度神经网络这么难训练?| 赠书
导读:本文内容节选自《深入浅出神经网络与深度学习》一书,由Michael Nielsen所著,他是实验媒体研究工作室的联合创始人,曾是 YC Research 的 Research Fellow。。本书深入了讲解神经网络和深度学习技术,侧重于阐释深度…