python 学术_Python
前几天实验室一个师兄给我一个质谱结果,让帮忙做下go的功能富集,数据格式大概是这样的:
由于之前做go和kegg时都是跑流程,像这种针对性的go富集还没做过,说到底,还是由于自己手上缺少数据,没有属于自己的项目,很多细节性的问题都没有经历过。但这不妨碍咱一颗求知的心,我们都是在学习中成长。由于没事的时候逛论坛逛的比较频繁,知道数据的第二列是UniPro数据库的accession,然后该怎么办呢?作为生信人,Google是少不了的,看到Google结果,瞬间明了。根据Google的指引我从网上下载了UniProt数据库里的idmapping.tb.gz文件(wget -c -t 10000 ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz),大概18G左右,数据结构如下:
一共有22列,依次分别是:UniProtKB accession,UniProtKB ID,EntrezGene,RefSeq,NCBI GI number,PDB,Pfam,GO,PIRSF,IPI,UniRef100,UniRef90,UniRef50,UniParc,PIR-PSD accession,NCBI taxonomy,MIM,UniGene,Ensembl,PubMed ID,EMBL/GenBank/DDBJ,EMBL protein_id;这就有意思了,数据的第八列就是我们想要的go信息。更有意思的是,有了这个数据库信息,我们就可以根据不同数据库的注释信息做go富集啦!
下面要做的是写一个脚本,根据师兄给的结果调出对应的go号,对于会编程的人来说,这点自然不在话下,代码如下:
import sys
USAGE = "\nusage: python %s idmapping.tb.gz blastout outputfile outputfile2\n" % sys.argv[0]
if len(sys.argv) != 5:
print USAGE
sys.exit()
def parseIDmapping(filename):
UniProt_GO = {}
with open(filename, 'r') as f:
for line in f:
lsplit = line.rstrip().split("\t")
if lsplit[7]:
UniProt_GO[lsplit[0]] = lsplit[7]
return UniProt_GO
def parseBlastOut(filename):
tab_res = []
with open(filename, 'r') as f:
for line in f:
lsplit = line.strip('\n').split('\t')
tab_res.append(lsplit[0])
return tab_res
UniProtKB_GO = parseIDmapping(sys.argv[1])
BlastOut = parseBlastOut(sys.argv[2])
OUT = open(sys.argv[3], 'w')
OUT1 = open(sys.argv[4], 'w')
for i in BlastOut:
if i in UniProtKB_GO.keys():
print i
go = UniProtKB_GO[i]
print go
OUT.write(i+"\t"+go+"\n")
else:
OUT1.write(i+"\n")
OUT.close()
OUT1.close()
得到的结果是这样子:
由于使用软件的关系,这种格式貌似还不能达到要求,再写一脚本转换一下:
import re
file1 = open(r"C:\\Users\\wuchangsong\\Desktop\\11.txt")
out_file1 = open(r"C:\\Users\\wuchangsong\\Desktop\\12.txt", "w")
for line1 in file1:
info1 = re.sub('; ','\t',line1)
out_file1.write(info1)
file1.close()
out_file1.close()
结果长这样:
最终结果:
满满的成就感有么有^_^!
版权声明:本文为博主原创文章,未经博主允许不得转载。
相关文章:

Hive的Security配置
为了更好地使用好Hive,我将《Programming Hive》的Security章节取出来,翻译了一下。 Hive还是支持相当多的权限管理功能,满足一般数据仓库的使用。 Hive由一个默认的设置来配置新建文件的默认权限。 Xml代码 <property> <name>…

Docker安装Apache与运行简单的web服务——httpd helloworld
Docker运行简单的web服务——httpd helloworld目录【阅读时间:约5分钟】一、Docker简介二、Docker的安装与配置【CentOS环境】三、Docker运行简单的web服务——httpd helloworld四、References一、Docker简介 Docker 是一个开源的应用容器引擎,让开发者…

在CentOS 6.2上搭建vim开发环境
在CentOS 6.2上搭建vim开发环境最后更新日期:2013-07-051.首先使用Ubuntu(所在ip为192.168.16.230)翻墙登陆http://www.vim.org/,下载其上面的vim相关插件到Ubuntu的下载目录下:cd ~/下载/http://ctags.sourceforge.ne…

python基础(三元运算+深浅拷贝+函数参数)
三元运算 三元运算,又称三目运算,主要作用是减少代码量,是对简单的条件语句的缩写。 1 书写格式: 2 result 值1 if 条件 else 值2 3 即如果条件成立,则将值1赋给result变量,如果不成立,将值2赋…

pythonapi是什么_python接口自动化(一)--什么是接口、接口优势、类型(详解)...
简介经常听别人说接口测试,接口测试自动化,但是你对接口,有多少了解和认识,知道什么是接口吗?它是用来做什么的,测试时候要注意什么?坦白的说,笔者之前也不是很清楚。接下来先看一下…

【阶段小结】协同开发——这学期的Git使用小结
【阶段小结】协同开发——这学期的Git使用小结一、Git简介1. Git简单介绍2. Git工作流程以及各个区域3. Git文件状态变化二、Git安装&Git基本配置三、个人踩坑1. xcode project“抽风式”问题2. 如何拯救git仓库一、Git简介 1. Git简单介绍 Git是一个分布式版本控制软件&…

PHP函数printf()、sprintf()的用法
printf()函数优点在于可以格式化输出 格式: %[padding_character][-][width][.precision]type 所有的转换说明都是以%开始,如果想打印一个%符号,必须用%% ; 参数“padding_character”是可选,它将被用来填充变量直至所指定的宽度,该参数的作用…

20150411--Dede二次开发-01
20150411--Dede二次开发-01 目录 一、目前市场流行的电子商城系统 1 二、ecshop的介绍 1 三、安装 2 四、echsop 的目录结构 5 五、分析ecshop里面程序的架构 5 六、小试牛刀把面包屑导航改成两个大于号 6 1、根据php页面找出该页面对应的模板。 6 2、找到category.dwt模板文件…

修改cpu型号重启不变_猫头鹰展示D系列新款140毫米CPU散热器:更大散热片,能压400瓦...
猫头鹰一直以超强的CPU风冷散热器在电脑配件市场闻名遐迩,在台北电脑展期间,除了展出了概念性的无风扇CPU散热器,还宣布了发布D系列新款CPU散热器的计划。新的未命名的散热器相比与目前的NH-D15和NH-D15S型号要多一根热管,性能进一…

管理虚拟机的艺术——有备无患
随心前言:求求你们多多给虚拟机做一下备份~~ 超前预告:下一次分享一下linux/window to go的小玩意(把系统安装到U盘,即插即用) 接下来的博客尝试一下用随笔的形式,来写写自己感兴趣的一些玩意,比…

coreseek最大检索数只有1000的问题!
在 测试中发现,综艺视频只能看33页,每页10条,始终不得其解。经仔细分析,是csft.conf中的配置,下面修改说明如下:先将csft.conf中的searchd部分,将1000默认值改为10000max_matches 10000然后在调…

iframe怎么用_怎么样减少无效URL的爬行和索引
少年老成的云晨守望同学(题外话:少年老成是好事哈。我20多岁时人家说我像40岁,我40多岁时好多人说我像30多,男人20到50岁可以做到基本一个样子)在网络营销实战密码网站贴了个帖子:《透过京东商城看国内一线B2C网站SEO通病》。建议…

502 Server dropped connection
在本地电脑上开启了,全局VPN代理后,出现 502 报错。 502 Server dropped connection The following error occurred while trying to access http://localhost/invo/:502 Server dropped connection. 出现这种情况的原因是,vpn 链接挂了&…

【OpenCV】在Linux上使用OpenCvSharp
OpenCvSharp是一个OpenCV的 .Net wrapper,应用最新的OpenCV库开发,使用习惯比EmguCV更接近原始的OpenCV,该库采用LGPL发行,对商业应用友好。

DNS轮询解析是什么?
在其最简单的实现中,轮回DNS的工作方式是,不仅用一个潜在的IP地址来响应DNS请求,而且用一个潜在的IP地址列表来响应承载相同服务的几个服务器。传统的负载均衡技术通常需要专门的硬件或软件,但DNS轮询解析是一种负载分配、负载平衡或容错技术,通过管理域名系统(DNS)对来自客户计算机的地址请求的响应,按照适当的统计模型,提供多个冗余的互联网协议服务主机,将流量分散到多个服务器上。因此,虽然轮询DNS是一种简单有效的负载平衡方法,但它也存在一些限制和潜在的问题,需要根据实际情况进行选择和使用。

自建WIN10 FTP无法访问的解决方法
由于博主使用的是校园网,具体NAS方案比较复杂,主体上是用KodCloudWin10自带FTP,最近发现好像自带的FTP搭建不了。 废话不多说,说说解决方案: ①首先看看防火墙设置,用同一局域网下的主机ping一下测试是否能…

weiss数据结构和算法书的使用说明
《数据结构与算法分析 C语言描述》Mark Allen Weiss著,冯舜玺译,机械工业出版社。Weiss教授的经典教材三部曲之一,其中的C语言描述版本,也就是本书,被称为20世纪最重要的30本计算机教材之一。Mark Allen Weiss…

Bootstrap 栅格系统 理解与总结
Bootstrap 栅格系统 学习总结 Bootstrap框架是如今最流行的前端框架之一,Bootstrap功能强大,简单易学,很符合实际应用场景。 只是Bootstrap的内容较多,新手往往不能很快的熟练运用Bootstrap。 这里,我就对Bootstrap中非…

java抛出自定义异常_10 个深恶痛绝的 Java 异常。。
异常是 Java 程序中经常遇到的问题,我想每一个 Java 程序员都讨厌异常,一 个异常就是一个 BUG,就要花很多时间来定位异常问题。什么是异常及异常的分类请看这篇文章:一张图搞清楚 Java 异常机制。今天,栈长来列一下 Ja…

mac删除键很慢
关闭辅助功能-慢速键 重复延迟、等待调到最低

不相交集类以及应用迷宫生成
简单介绍: 考虑一个迷宫的生成,一个简单算法就是从各处的墙壁开始(除入口和出口之外)。此时,不断地随机选择一面墙,如果被该墙分割的单元彼此不联通,那么就把这面墙拆掉。重复这个过程直到开始单…

Ajax 完整教程
转载:http://www.cnblogs.com/Garden-blog/archive/2011/03/11/1981778.html Ajax 完整教程第 1 页 Ajax 简介Ajax 由 HTML、JavaScript™ 技术、DHTML 和 DOM 组成,这一杰出的方法可以将笨拙的 Web 界面转化成交互性的 Ajax 应用程序。本文的作者是一位…

python嵩天课后思考题_Python语言程序设计基础(第二版)嵩天等课后习题答案
第一次博文 Time:2018年04月28日 星期六 11:37二次补充 2018年05月02日第一章 程序设计基本方法 P29# 1.1字符串的拼接str1 input("请输入一个人的名字:")str2 input("请输入一个地点:")print("世界这么大&#x…

mac OneNote恢复历史记录
由于mac OneNote是个废物,因此还是得通过网页版OneNote或者win版OneNote来操作 网页端OneNote-对应笔记本页面 然后复制过去就可以恢复了

【C#公共帮助类】10年代码,最全的系统帮助类
这个帮助类主要包含:对象转换处理 、分割字符串、截取字符串、删除最后结尾的一个逗号、 删除最后结尾的指定字符后的字符、 生成指定长度的字符串、 生成日期随机码、 生成随机字母或数、字 截取字符长度、 对象<-->JSON 4.0使用、 对象<-->JSON 2.0使…

三十之惑–面霸的八月(第一部分)
三十之惑 –面霸的八月 题记: 三十几岁了,从sina大学肄业后,在外面漂泊,不好不坏。 从好的角度讲,这几年自己的技术没有减退,偶尔也还能够略有深入,同时能够更多的接触到产品、运营、甚至营销&a…

python小工具封装_python接口自动化(二)——封装需要用到的工具类
封装需要用的工具类:1、封装读取Excel的工具类,这里选用的是pandas:importpandas as pdpath ‘test.xlsx‘sheet_name ‘test_data‘classwith_excel:#构造函数,调用类时就运行def __init__(self, pathNone, sheet_nameNone):if p…

三十之惑–面霸的八月(第二部分)
书接上回,今天叙述小米的面试经历。 这里可能有一些技术理解和技术方案,欢迎讨论。另昨天共计收入7笔共95元,够我喝几杯咖啡了,谢谢所有捐钱的朋友。 如果你心疼我码字辛苦,有钱朋友钱场,没钱的请拉朋友来捧…

Curator Cache
1.Curator Cache 与原生ZooKeeper Wacher区别 原生的ZooKeeper Wacher是一次性的:一个Wacher一旦触发就会被移出,如果你想要反复使用Wacher,就要在Wacher被移除后重新注册,使用起来很麻烦。使用Curator Cache 可以反复使用Wacher了…

程序可以在硬件之间发送吗_你知道硬件、软件工程师之间,还有一个固件工程师吗?...
软件跟硬件之间的界限已经越来越模糊了,那么处于这个灰色地带的,就是固件了。这就分成三类工作者。1、软件工程师一般指做图形界面的程序员,工作内容就是写C、JAVA、Web等。2、硬件工程师当然是指玩电路板的,工作内容就是画原理图…