优质中文NLP资源集合,做项目一定用得到!
整理 | Jane
出品 | AI科技大本营(公众号id:rgznai100)
今天要给大家在推荐 Github 上一个优质的中文 NLP 工具和资源集合项目——funNLP,已经获得了 5.3k Stars,1k+ Forks。
项目作者 杨洋,一枚水博&互联网民工,目前主要从事文本分类,信息抽取等自然语言处理研发工作;兴趣包括:语言资源构建、信息抽取与知识图谱、舆情分析等。喜欢分享一些小知识,设有知乎专栏《机器学习小知识》
作者把自己使用的一些资源或工具包整理成这个集合项目,并且会不断更新。项目已经里面不乏很多有用和有趣的内容,包含 50 多个资源或工具,比如很多有用的词库:中英文敏感词、暴恐词表、文人名库、中文缩写库、停用词、公司名字大全、成语词库、地名词库百度中文问答数据集......非常值得学习研究 NLP 项目的同学们收藏!
除了几十个的优质资源汇总外,作者的另一个中文 NLP 工具包——coco NLP,也很实用,目前应用在寻找失踪人口项目中。通过这个工具包,大家可以直接从文本信息中抽取一些基本信息,比如手机号、邮箱、手机归属地、时间点、地址和一些词组信息。
0.先给大家 coco NLP 工具的地址:
https://github.com/fighting41love/cocoNLP
因为这个工具里也包含了第一个项目中提到的一些资源,下面我们所列的其他资源,就不再列出重复资源的地址了,比如:phone 中国手机归属地查询、抽取email的正则表达式、抽取phone_number的正则表达式、人名语料库、时间抽取等。
营长列出了其他一些主要资源的地址,大家还可以从文章最后给出的项目地址中访问更多。也感谢开源这些资源的作者,如果下面有提到你的项目,欢迎给我们留言,让营长发现可爱的你们~
1. textfilter: 中英文敏感词过滤
https://github.com/observerss/textfilter
2. langid:97种语言检测
https://github.com/saffsd/langid.py
3. langdetect:检测另一种语言
https://code.google.com/archive/p/language-detection/
4. phone国际手机、电话归属地查询:
https://github.com/AfterShip/phone
6. ngender:根据名字判断性别,基于朴素贝叶斯计算的概率
https://github.com/observerss/ngender
7.抽取身份证号的正则表达式
IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'
IDs = re.findall(IDCards_pattern, text, flags=0)
8.中文缩写库
https://github.com/zhangyics/Chinese-abbreviation-dataset/blob/master/dev_set.txt
9.汉语拆字词典
https://github.com/kfcd/chaizi
10.词汇情感值
https://github.com/rainarch/SentiBridge/blob/master/Entity_Emotion_Express/CCF_data/pair_mine_result
11.中文词库、停用词、敏感词,此 package 的敏感词库分类更细,包含反动词库, 敏感词库表统计, 暴恐词库, 民生词库, 色情词库
https://github.com/fighting41love/Chinese_from_dongxiexidian
12.汉字转拼音
https://github.com/mozillazg/python-pinyin
13.同义词库、反义词库、否定词库
https://github.com/guotong1988/chinese_dictionary
14.无空格英文串分割、抽取单词
https://github.com/keredson/wordninja
15.THU整理的词库,包含 IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库
http://thuocl.thunlp.org/sendMessage
16.百度中文问答数据集
链接:
https://pan.baidu.com/s/1QUsKcFWZ7Tg1dk_AbldZ1A
提取码: 2dva
17.Bert 资源
(1)文本分类实践
https://github.com/NLPScott/bert-Chinese-classification-task
(2)Bert Tutorial 文本分类教程
https://github.com/Socialbird-AILab/BERT-Classification-Tutorial
(3)Bert pytorch实现
https://github.com/huggingface/pytorch-pretrained-BERT
(4)Bert用于中文命名实体识别,tensorflow版本
https://github.com/macanv/BERT-BiLSTM-CRF-NER
(5)Bert 基于 Keras 的封装分类标注框架 Kashgari,几分钟即可搭建一个分类或者序列标注模型
https://github.com/BrikerMan/Kashgari
(6)Bert、ELMO的图解
https://jalammar.github.io/illustrated-bert/
(7)BERT: Pre-trained models and downstream applications
https://github.com/asyml/texar/tree/master/examples/bert
更多优质资源可访问:
https://github.com/fighting41love/funNLP
(本文为AI科技大本营原创文章,转载请微信联系 1092722531)
群招募
扫码添加小助手微信,回复:公司+研究方向(学校+研究方向),邀你加入技术交流群。技术群审核较严,敬请谅解。
推荐阅读:
WinRAR曝遗留19年重大漏洞,可完全控制电脑(附解决方法)
十大经典排序算法动画与解析,看我就够了
那些羞羞的事情,AI能理解吗?
豆瓣已玩烂,来爬点有逼格的——IMDB电影提升你的品位
你与数据科学家只差这26条python技巧
区块链创业公司解散后,我去美团送外卖了 | 链人生
为什么程序员下班后只关显示器从不关电脑?
C 语言会比 C++ 快?
月入5万,程序员夫人们过上"贵妇"生活了吗?
点击“阅读原文”,查看历史精彩文章。
相关文章:

小程序:js获取验证码时(倒计时模块)
代码例子截图最近在上手开发小程序,发现其实小程序要比vue真的要简单太多了,有一套自己的html(WXML),css(WXSS),虽然有些标签不能直接沿用html5的标签来开发,不过内置的标签还是很好记也不多。今天在做公司的项目时&am…

十大经典排序算法动画与解析,看我就够了
作者 | 程序员小吴转载自五分钟学算法(ID: CXYxiaowu)排序算法是《数据结构与算法》中最基本的算法之一。排序算法可以分为内部排序和外部排序。内部排序是数据记录在内存中进行排序。而外部排序是因排序的数据很大,一次不能容纳全部的排序记…

Crystal Reports 财务日记帐凭证套打设计
Crystal Reports 财务日记帐凭证套打设计 一、首先大家看下财务日记帐凭证的纸张格式: 下面我们来分析下有几点要素:1、每页显示5行记录,2、就是在合计处的中文金额大写了。其他页眉页脚在水晶报表中很容易设计。 二、报表设计:在…

oozie调度中的重试和手工rerun一个workflow
在oozie中有Bundle、Coordinator和Workflow三种类型的job,他们之间可以有以下包含关系。 Bundle > Coordinator > Workflow。 1. 重新运行一个Coordinator job,可以通过如下命令: oozie job -rerun 0000034-180116183039102-oozie-hado…

【Qt】在Qlayout中Qlabel::setScaledContents(true);失效
Qlabel中添加图片,并使图片自适应Qlabel的大小 QPixmap picture;picture.load("./1.jpg");ui->label->setScaledContents(true);//图片自适应label大小ui->label->setPixmap(picture); 在layout中Qlabel::setScaledContents(true);失效 解决办法,set…

JavaScript写XML
引用地址:http://zhidao.baidu.com/question/76344574.html?frala0 load 方法 作 用表示从指定位置加载的文件。 基本语法boolValue = xmlDocument.load(url);说 明url 包含要被加载档案的URL 的字符串。假如文件加载成功,传回值即为t…

在家想远程公司电脑?Python +微信一键连接
作者 | 阿文转载自 CSDN(ID:CSDNnews)有时候需要远程家里的台式机使用,因为我平时都是用 MAC 多,但是远程唤醒只能针对局域网,比较麻烦,于是我想用微信实现远程唤醒机器。准备工作本程序主要是实现远程管理…

Python 语法相关知识
系统相关的信息模块: import syssys.argv 是一个 list,包含所有的命令行参数. sys.stdout sys.stdin sys.stderr 分别表示标准输入输出,错误输出的文件对象. sys.stdin.readline() 从标准输入读一行 sys.stdout.write("a") 屏幕输出a sys.exit(exit_code) 退出程序 s…

【Qt】 error: LNK1107: 文件无效或损坏: 无法在 0x310 处读取
编译Qt程序使用动态库时,报错 error: LNK1107: 文件无效或损坏: 无法在 0x310 处读取 原因 链接时,使用的dll,而不是lib。 lib是编译时需要的,dll是运行时需要的。 windows下动态库和静态库 动态库:生成动态库时…

Red5安装与入门 与FMS配置
转自:http://www.rosoo.net/a/Media/Streaming/201010/10343.html red5安装时出现问题解决:http://www.cnblogs.com/phinecos/archive/2007/11/26/973109.htmlred5安装设置: 首先需要安装Red5运行所需的java研发环境jdk,我所有的文件都保存到…

面试必备|带你彻底搞懂Python生成器
2019年人工智能系统学: https://edu.csdn.net/topic/ai30?utm_sourceai100_bw 作者 | Rocky0429 转载自 Python空间(ID:Devtogether) 写在之前 Python 的高级语言特性一直是我们学习 Python 的一个难点,大部分人并没有做到熟练的…

Kubecon 2017大会Google高级产品经理David Aronchick访谈:机器学习和Kubernetes
\看新闻很累?看技术新闻更累?试试下载InfoQ手机客户端,每天上下班路上听新闻,有趣还有料!\\\在德克萨斯州奥斯汀市举办的Kubecon大会已于近日闭幕,会议吸引了超过4000名工程师,Kubernetes成为了…

【Qt】Qt程序查看动态链接库(windows)
windows下使用dumpbin查看Qt程序运行时需要链接的动态库 打开终端 打开Qt自带的MSVC终端 如:Qt 5.10.0 64-bit forDesktop(MSVC 2017) 查看dumpbin命令 dumpbin微软官网说明 https://docs.microsoft.com/zh-cn/cpp/build/reference/dumpbin-options 直接输入命令dumpbin…

MSN 无法登录 错误代码 8007007e
故障原因: 发生这个错误的原因是一些朋友在网上下载了独立MSN提取包版本进行安装的,因为这个提取包只包含了Windows Live Messenger 2009,却缺少Windows Live Communications Platform,所以造成无法登录的问题。 解决办法…

你不知道的Vue响应式原理
文章首发于github Blog。 本文根据Vue源码v2.x进行分析。这里只梳理最源码中最主要的部分,略过非核心的一些部分。响应式更新主要涉及到Watcher,Dep,Observer这几个主要类。 本文主要弄清楚以下几个容易搞混的问题: Watcher&#…

优秀开发者必备技能包:Python调试器
作者 | Roky0429 来源 | Python空间(ID:Devtogether) 人工智能的现状及今后发展趋势如何? https://edu.csdn.net/topic/ai30?utm_sourcecsdn_bw 写在之前 不管是之前搞 acm 用 c/c 写算法还是后来用 Python 写代码,我发现在程…

【Qt】dumpbin详解
dumpbin简介 DUMPBIN是在Windows平台下用于显示COFF格式文件信息的一个命令行工具。你可以使用DUMPBIN去显示COFF格式的文件信息,比如像vc编译器生成的目标文件(obj),可执行文件(exe)和动态链接库…

感悟Windows7
Win7已经逐渐在中国电脑用户中普遍起来,绝大多数人对其新增的功能很升级的功能都很是好评,接下来就将简略总结一下我对此系统使用的一些感想。 l 界面更加体现以人为本的思想。更加赏心悦目并且选择更加多元化。比如桌面小工具就有了更多的选择并且还可…

【Qt】Qt5在ubuntu16.04无法输入中文解决方式
参考博客 https://blog.csdn.net/linux_2016/article/details/52356576 博客中没有修改库的执行权限 解决方法 安装:fcitx-frontend-qt5 sudo apt-get install fcitx-frontend-qt5 拷贝动态库到Qt安装目录下的两个目录中 cp /usr/lib/x86_64-linux-gnu/qt5/p…

拿下中科大的计算机课程全靠它了!
整理 | 琥珀 出品 | AI科技大本营(ID: rgznai100) 人工智能的现状及今后发展趋势如何? https://edu.csdn.net/topic/ai30?utm_sourcecsdn_bw 中国科学技术大学,简称“中科大”,是国内有名的 985、211 重点高校。近年…

【阿里Q3财报:阿里云去年营收破百亿,亚洲市场遥遥领先】
2月1号晚间,阿里巴巴公布2018财年第三季度财报,阿里云保持持续强劲的增长,季度营收同比增长104%到35.99亿元。2017年累计营收突破百亿,达112亿,这是国内首次出现百亿规模的云计算服务商,在亚洲市场遥遥领先…

“神仙”打架,“凡人”遭殃
神仙是啥?古时神话时代举手翻江倒海的人物啊,那神仙打架是啥后果,相信大家心里都有个底吧。那现代社会的“神仙”是啥?那就是有钱有权的大人物或者商家,那真是让咱仰望的对象啊~ 话说最近这360跟QQ的巅峰对决&am…

120种小狗图像傻傻分不清?用fastai训练一个分类器
作者:一杯奶茶的功夫 链接:https://www.jianshu.com/p/ab35ed21df87 程序员转行学什么语言? https://edu.csdn.net/topic/ai30?utm_sourcecsdn_bw 这篇文章会讲解如何制作能够分类120种小狗的图像分类器。 这篇文章中所讲述的内容都是基于…

View_01_LayoutInflater的原理、使用方法
View_01_LayoutInflater的原理、使用方法 本篇博客是郭神博客Android视图状态及重绘流程分析,带你一步步深入了解View(一)的读书笔记的笔记。 LayoutInflater简单介绍 setContentView()内部是使用LayoutInflater来完毕载入布局的。setContent…

【ubuntu】在ubuntu下无法输出拼音输入法中的中括号“【” 和 “】”的解决方法
问题 在新装的ubuntu16.04中,打不出中括号【】,而变成 “”和“「” 解决方法 修改文件/usr/share/fcitx/data/punc.mb.zh_CN sudo vi /usr/share/fcitx/data/punc.mb.zh_CN将18、19行改为如下内容 18 [ 【 19 ] 】

配置数据源和分页
1.tomcat的版本,最好不要是安装版的,要解压缩的,不然无法连接数据源。2.conf》context.xml<Resource name"hotel" auth"Container" type"javax.sql.DataSource" driverClassName"oracle.jdbc.…

售价1万7的华为Mate X很贵吗?
整理 | 琥珀 出品 | AI科技大本营(ID: rgznai100) 60s测试:你是否适合转型人工智能? https://edu.csdn.net/topic/ai30?utm_sourcecxrs_bw 继三星之后,网友们期待已久的华为终于忍不住宣布了一系列重磅消息ÿ…

【C】数组数组初始化总结
C数组初始化总结 发现一个新方法,可以分段初始化数组 eg:int arrayC[MAX_LEN] {[1 … 5]9, [6 … 9] 8}; 代码如下 #include <stdio.h> #define MAX_LEN 10int main (int argc, char *argv[]) { //不初始化,参数值随机分配 //[0][0…

Golang的反射reflect深入理解和示例
[TOC] Golang的反射reflect深入理解和示例 【记录于2018年2月】 编程语言中反射的概念 在计算机科学领域,反射是指一类应用,它们能够自描述和自控制。也就是说,这类应用通过采用某种机制来实现对自己行为的描述(self-representati…

如何读取多个文件,文件后缀名不一致,不过类似source.1 source.2 source.3等
#include <stdio.h> #include <stdlib.h> //为了使用exit() char *itoa(int num,char *str,int radix); int main() { int ch; FILE* fp; // char fname[50]"scan1.source.2100"; //用于存放文件名 char fname[20]"source."; …