Python 自动化办公之 Excel 对比工具
作者 | 周萝卜
来源丨萝卜大杂烩
今天我们继续分享真实的自动化办公案例,希望各位 Python 爱好者能够从中得到些许启发,在自己的工作生活中更多的应用 Python,使得工作事半功倍!
需求
由于工作当中经常需要对比前后两个 Excel 文件,文件内容比较多,人工肉眼对比太费劲,还容易出错,搞个 Python 小工具,会不会事半功倍
运行脚本,可以把前后两个 Excel 文件当中不同的内容数据展现出来,不同 sheet 页签表示不同的数据处理结果
需求解析
不需要解析,直接干
代码实现
我们先导入两份测试数据,进行 old 和 new 的处理,注意数据中 account number 是唯一索引
old = pd.read_excel('sample-address-1.xlsx', 'Sheet1', na_values=['NA'])
new = pd.read_excel('sample-address-2.xlsx', 'Sheet1', na_values=['NA'])
old['version'] = "old"
new['version'] = "new"
对于我们这个小工具,主要考虑三种变化类型
哪些是新增的 account
哪些是被删除的 account
哪些是被修改的 account
对于新增和删除的 account,我们可以直接用两份数据相减即可
old_accts_all = set(old['account number'])
new_accts_all = set(new['account number'])dropped_accts = old_accts_all - new_accts_all
added_accts = new_accts_all - old_accts_all
接下来我们再将所有的数据拼接到一起,并使用 drop_duplicates 来保留被修改的数据
all_data = pd.concat([old,new],ignore_index=True)
changes = all_data.drop_duplicates(subset=["account number","name", "street","city","state","postal code"], keep='last')
接下来,我们需要找出哪些 account 有重复的条目,重复的 account 表明更改了我们需要标记的字段中的值。我们可以使用重复函数来获取所有这些 account 的列表,并仅过滤掉那些重复的 account
dupe_accts = changes[changes['account number'].duplicated() == True]['account number'].tolist()
dupes = changes[changes["account number"].isin(dupe_accts)]dupe_accts = changes[changes['account number'].duplicated() == True]['account number'].tolist()dupes = changes[changes["account number"].isin(dupe_accts)]
现在我们将旧数据和新数据进行拆分,删除不必要的版本列并将 account 设置为索引
change_new = dupes[(dupes["version"] == "new")]
change_old = dupes[(dupes["version"] == "old")]
change_new = change_new.drop(['version'], axis=1)
change_old = change_old.drop(['version'], axis=1)
change_new.set_index('account number', inplace=True)
change_old.set_index('account number', inplace=True)
df_all_changes = pd.concat([change_old, change_new],axis='columns',keys=['old', 'new'],join='outer')
df_all_changes
接下来我们定义一个函数来展示从一列到另一列的变化
def report_diff(x):return x[0] if x[0] == x[1] else '{} ---> {}'.format(*x)def report_diff(x): return x[0] if x[0] == x[1] else '{} ---> {}'.format(*x)
现在使用 swaplevel 函数来获取彼此相邻的旧列和新列
最后我们使用 groupby 然后应用我们自定义 report_diff 函数将两个相应的列相互比较
df_changed = df_all_changes.groupby(level=0, axis=1).apply(lambda frame: frame.apply(report_diff, axis=1))
df_changed = df_changed.reset_index()df_changed = df_all_changes.groupby(level=0, axis=1).apply(lambda frame: frame.apply(report_diff, axis=1))df_changed = df_changed.reset_index()
接下来我们需要找出被删除和新增的数据
df_removed = changes[changes["account number"].isin(dropped_accts)]
df_added = changes[changes["account number"].isin(added_accts)]df_removed = changes[changes["account number"].isin(dropped_accts)]df_added = changes[changes["account number"].isin(added_accts)]
我们可以使用单独的选项卡将所有内容输出到 Excel 文件,对应于更改、添加和删除
output_columns = ["account number", "name", "street", "city", "state", "postal code"]
writer = pd.ExcelWriter("my-diff.xlsx")
df_changed.to_excel(writer,"changed", index=False, columns=output_columns)
df_removed.to_excel(writer,"removed",index=False, columns=output_columns)
df_added.to_excel(writer,"added",index=False, columns=output_columns)
writer.save()
最后,我们就得到了最开始的效果图片展示的一个新的 Excel 文件
当然上面的代码对于毫无编程的人来说还是有一点点复杂,我们还是做成 GUI 小程序吧,这次我们使用 Tkinter 来编写 GUI 程序
我们首先导入 Tkinter 库并进行初始化
import tkinter
from tkinter import *
from tkinter import Label, Button, Entry, messagebox
from tkinter import filedialog
from deal import deal_excelwindow = tkinter.Tk()
path_file1 = StringVar()
path_file2 = StringVar()
path_path = StringVar()
window.geometry('380x150')
这里我们定义了三个 String 类型的变量,用来保存文件地址和文件夹路径
然后我们进行简单的页面排版,只需要用到 Label,Entry 和 Button 就够了
label1 = Label(window, text="文件1:").grid(column=0, row=0)
txt1 = Entry(window, width="30", textvariable=path_file1).grid(column=1, row=0)
button1 = Button(window, text="文件选择1", command=selectFile1).grid(column=2, row=0)label2 = Label(window, text="文件2:").grid(column=0, row=1)
txt2 = Entry(window, width="30", textvariable=path_file2).grid(column=1, row=1)
button2 = Button(window, text="文件选择2", command=selectFile2).grid(row=1, column=2)label3 = Label(window, text="新文件路径:").grid(column=0, row=2)
txt3 = Entry(window, width="30", textvariable=path_path)
txt3.grid(column=1, row=2)
button3 = Button(window, text="新文件路径", command=selectPath).grid(row=2, column=2)button4 = Button(window, text="开始处理", command=save_path).grid(row=3, column=1)
用于获取文件和文件夹的函数
def selectFile1():path_ = filedialog.askopenfilename()path_file1.set(path_)
用于保存新生成文件和提示消息的函数
def save_path():path = txt3.get()deal_excel(path)res = "对比处理完成!"messagebox.showinfo('萝卜大杂烩', res)
这样,一个简单的 Excel 对比工具就完成啦
好了,这样我们就完成了一个简易的 GUI 拆分 PDF 文件的工具喽~
往
期
回
顾
技术
用Python写了个使命召唤外挂
资讯
俄罗斯 Android 系统受限
技术
面向小白超全Python可视化教程
技术
一行Python代码能干嘛?来看!
分享
点收藏
点点赞
点在看
相关文章:

jQuery简单实现iframe的高度根据页面内容自适应的方法(转)
本文实例讲述了jQuery简单实现iframe的高度根据页面内容自适应的方法。分享给大家供大家参考,具体如下:方式1://注意:下面的代码是放在和iframe同一个页面中调用 $("#iframeId").load(function () {var mainheight $(t…

linux wc 命令简介
此wc命令不是让大家没有食欲的地方。而是linux下一个简单的小命令。NAMEwc — word, line, character, and byte countSYNOPSISwc [-clmw] [file ...]下面让我们来简单的看一下其支持的参数及其代表的含义。 参数及含义 参数含义-c显示文件的Bytes数(字节数)-l将每个文件的行数…

这个插件竟打通了Python和Excel,还能自动生成代码!
作者 | 云朵君来源丨数据STUDIO加载一个Jupyter插件后,无需写代码就能做数据分析,还帮你生成相应代码?没错,只需要加载这个名为Mito的小工具包,用Python做数据分析,变得和用Excel一样简单:介绍以…

集合list set Map问题
2019独角兽企业重金招聘Python工程师标准>>> ####集合list set Map的个人理解 首先集合说的对一类数据的存储容器,对象都是引用类型并不是基本数据类型 collection 接口 list和set都需实现它 collections 抽象了一些集合的基本功能,reverse s…

python学习第四课
#!/user/bin/env python#-*-coding:utf-8-*-# 一、字符串魔法# (1).isalpha()是否是字母或汉字。# 例:# a"张san22"# b"张三lisi"# va.isalpha()# v1b.isalpha()# print(v)# print(v1)# 因为a里含有数字,结果…

PHP 截取字符串专题
1. 截取GB2312中文字符串<?php< ?php//截取中文字符串functionmysubstr($str, $start, $len){$tmpstr ""; $strlen $start $len; for($i 0; $i< $strlen; $i){if(ord(substr($str, $i, 1))> 0xa0){$tmpstr. substr($str, $i, 2); $i; }else$tm…

GPT-3好“搭档”:这种方法缓解模型退化,让输出更自然
作者 | LZM来源丨数据实战派文本生成对于许多自然语言处理应用来说都是非常重要的。但神经语言模型的基于最大化的解码方法(如 beam search)往往导致退化解,即生成的文本是不自然的,并且常常包含不必要的重复。现有的方法通过采样…

(Question)CSS中position的绝对定位问题
RT,绝对定位相对于定位的元素存在是哪里? https://yunpan.cn/crjSMTiak2srZ 访问密码 1570转载于:https://www.cnblogs.com/LiuChunfu/p/5139958.html

BZOJ 4817: [Sdoi2017]树点涂色(LCT+树剖+线段树)
题目描述 Bob有一棵 nn 个点的有根树,其中1号点是根节点。Bob在每个点上涂了颜色,并且每个点上的颜色不同。 定义一条路径的权值是:这条路径上的点(包括起点和终点)共有多少种不同的颜色。 Bob可能会进行这几种操作&am…

ls -l |wc -l命令多统计一行
#ls -l |wc -l注意:总用量也占用1行,所以统计出来的是14而不是13其他网友提醒 #ls -l |wc -l 就统计实际的行,放大就看出效果1和l不同

驱动数字经济加速,摩尔线程发布全新元计算架构MUSA和GPU产品
2022年3月30日,北京——摩尔线程今天举行主题为“元动力 创无限”的春季发布会。摩尔线程创始人兼CEO张建中解读了“元计算”这一产业趋势,并发布全新架构及系列重磅新品,包括:MUSA(Moore Threads Unified System Arch…

HDU 4869 Turn the pokers(思维+组合公式+高速幂)
Turn the pokers 大意:给出n次操作,给出m个扑克。然后给出n个操作的个数a[i],每一个a[i]代表能够翻的扑克的个数,求最后可能出现的扑克的组合情况。Hint Sample Input: 3 3 3 2 3 For the this example: 0 express fac…

马云打响本地生活消费攻坚战,饿了么获手淘一级入口,美团危险了
8月2日,细心的网友可以发现,手机淘宝App首页已上线“饿了么外卖”,饿了么成为手机淘宝首页的10个默认入口之一。这也就意味着以后手机淘宝用户可以通过淘宝首页新入口进入外卖服务,在应用内直接完成由饿了么提供的订餐外卖服务。 …

Linux文件,文件描述符以及dup()和dup2()
一.Linux中文件 可以分为4种:普通文件、目录文件、链接文件和设备文件。1、普通文件是用户日常使用最多的文件,包括文本文件、shell脚本、二进制的可执行和各种类型的数据。ls -lh 来查看某个文件的属性,可以看到有类似 -rw-r--r-- ÿ…

摩尔线程推出首款数据中心级全栈功能GPU:MTT S2000
2022年3月30日,北京——摩尔线程正式推出首款基于其先进架构MUSA统一系统架构(Moore Threads Unified System Architecture)打造的数据中心级多功能GPU产品MTT S2000。摩尔线程MTT S2000基于其第一代MUSA架构GPU芯片苏堤研发制成,…

jquery 获取 outerHtml 包含当前节点本身的代码
在开发过程中,jQuery.html() 是获取当前节点下的html代码,并不包含当前节点本身的代码,然后我们有时候确需要,找遍jQuery api文档也没有任何方法可以拿到。 看到有的人通过parent().html(),如果当前元素没有兄弟元素还…

修改CentOS yum源
解决在CentOS yum源下载慢的办法最近在虚拟机下面安装了个CentOS 5.5,使用yum更新时发现下载速度异常慢。可以修改yum的配置文件,把其镜像指向国内的服务器即可。 方案一: # cd /etc/yum.repos.d/ # mv CentOS-Base.repo CentOS-Base.repo.b…

带monkey的测流量!
为什么80%的码农都做不了架构师?>>> //public static void flow(){ //String command1 "adb shell monkey -p com.netease.newsreader.activity -s 500 -v 2000"; //String command2 "adb shell ps"; //String str"com.nete…

实现AI技术自立自强,国产深度学习框架面临三大难题
作为推动AI应用大规模落地的关键力量,深度学习框架的重要性日益凸显。它不仅关系国计民生的行业和领域广泛的应用,同样也对信息系统的科技安全有着决定性的意义。 “深度学习框架在人工智能技术体系中,处于贯通上下的腰部位置,它下…

关于Android H5混合开发遇到的问题
2019独角兽企业重金招聘Python工程师标准>>> 添加WebChromeClient,复写onJsAlert、onJsConfirm、onJsPrompt方法后,弹框异常退出问题 项目经理说,Android没有处理弹框,点击按钮没有反应,iOS就可以。于是就复…

手动配置lnmp环境
做php开发的,想要进一步提升自己,手动搭建开发环境,我想是必须经历的一个坎。虽然说有很多第三方集成环境可供使用,但我想说的是在你没有自己搭建过一次环境的时候,你没有太多的资本去“偷懒”。虽然我自己也是个菜鸟&…

负载均衡,会话保持,session同步
一,什么负载均衡一个新网站是不要做负载均衡的,因为访问量不大,流量也不大,所以没有必要搞这些东西。但是随着网站访问量和流量的快速增长,单台服务器受自身硬件条件的限制,很难承受这么大的访问量。在这种…

终于“打造”出了一个可以随时随地编程的工具
作者 | 老表来源丨简说Python分享概要 系统:阿里云ECS共享型n4服务器 1核2g 存储50g(双十一便宜买的,180元/3年)环境:自带python3.6.8 方便演示,直接使用它开始动手动脑 首先我们需要连接上服务器ÿ…

JVM堆 栈 方法区详解
一、栈 每当启用一个线程时,JVM就为他分配一个JAVA栈,栈是以帧为单位保存当前线程的运行状态 栈是由栈帧组成,每当线程调用一个java方法时,JVM就会在该线程对应的栈中压入一个帧 只有在调用一个方法时,才为当前栈分配一…

ECSHOP学习笔记
帮助 http://help.ecshop.com/index.phpECSHOP各文件夹功能说明 1、根目录:前台程序文件2、admin:后台程序文件夹 --根目录:后台程序文件 *.php文件 --help\zh_cn:各功能的帮助文件 *.xml文件 --images:后台页面…

Redis主从复制配置
环境描述Redis Master:192.168.1.100 6379(Ubuntu系统)Redis Slave1:192.168.1.101 6380(Ubuntu系统)Redis Slave2:192.168.1.102 6381(Ubuntu系统) 安装redis分别在192.168.1.100、192.168.1.101、192.168.1.102三台机器上安装redis…

利用 Python 打造一个语音合成系统
作者 | thedaydreamer来源丨CSDN博客背景一直对语音合成系统比较感兴趣,总想能给自己合成一点内容,比如说合成小说,把我下载的电子书播报给我听等等。语音合成系统其实就是一个基于语音合成的工具,但是这个东西由于很多厂家都提供…

干货:排名前 16 的 Java 工具类!
2019独角兽企业重金招聘Python工程师标准>>> 干货:排名前 16 的 Java 工具类! 在Java中,工具类定义了一组公共方法,这篇文章将介绍Java中使用最频繁及最通用的Java工具类。以下工具类、方法按使用流行度排名…

使用ecshop电子商务系统的100个小问题
总结100条关于操作ecshop电子商务系统的小问题。1:如何修改网站"欢迎光临本店"回答:languages\zh_cn\common.php文件中, $_LANG[welcome] 欢迎光临本店;将他修改成你需要的字样。2:如何修改首页"热门搜索关键字"回答:后台->系统设置->网…

MyCAT常用分片规则之分片枚举
MyCAT支持多种分片规则,下面测试的这种是分片枚举。适用场景,列值的个数是固定的,譬如省份,月份等。 在这里,需定义三个值,规则均是在rule.xml中定义。 1. tableRule 2. function 3. mapFile 首先ÿ…