明年,我要用 AI 给全村写对联
作者 | 神经小兮
来源 | HyperAI超神经
春节已经过完,你是否还沉浸在年味里?
到腊月二十九、三十,家家户户贴上了 红红的春联,春节就正式拉开了序幕。
春联也称为「对联」、「门对」、「楹联」,是汉语所独有的一种艺术形式,有着悠久的历史。2005 年,中国国务院把楹联习俗,列为第一批国家非物质文化遗产名录。
对联对联,讲究的就是「成对」,要对仗工整,平仄协调。不过现代人的对对联技能,已经远不如古代的文人墨客,甚至有时候可能连上下联都傻傻分不清楚。而聪明的 AI 已经学会自己写对联了。
70 万条对联数据,教会 AI 对对子
在现有公开的对联数据集中,以冯重朴_梨味斋散叶_的博客所发布的 couplet-dataset 数据最为庞大、使用也最为广泛。
左右滑动查看数据集节选内容
前两张分别为训练集的上联和下联
后两张分别为测试集的上联和下联
这份数据集共包含 70 余万条对联数据,按字切分。
数据集分为训练集、测试集以及词汇表。
其中,如上图节选内容所示,训练集分输入、输出两部分,分别为对联的上联与下联,按次序一一对应,测试集同理。
数据集详细信息如下:
couplet-dataset
对联数据集
数据来源:冯重朴_梨味斋散叶
包含数量:70 万条对联
数据格式:.txt
数据大小:59.7 MB(压缩文件 27.4 MB)
地址:https://hyper.ai/datasets/14547
这个数据集已经成为对联数据中的「团宠」,被众多 AI 工程师、团队用来作为写对联模型的训练数据集,华为的乐府春联亦是用该数据集训练而来,可通过以上地址或点击阅读原文,下载该数据集。不过有一个小小的遗憾是,这一数据集中没有横批,还需要各位自己发挥。
AI:没有我对不出来的对联
一位名叫王斌的程序员,爬取和使用该对联数据集,用 GTX 1080 Ti 训练了 4 天,得到了一个自动对对联模型。效果如何?我们来测试一下。
左右滑动查看更多
测试地址:https://ai.binwang.me/couplet/
这位程序员还将该项目在 GitHub 开源:
https://github.com/wb14123/couplet-dataset
另外一位工程师,则基于 GPT2-Chinese 和该对联数据集,训练了一份对联领域的 GPT-2 模型,可自动生成对联。
它将其 server 版本对接到微信公众号 AINLP 后台,可以直接在对话框进行测试。
输入关键词「写对联」,可触发对联自动生成,例如输入「写对联金牛」,对联模型会基于「金牛」进行自动续写,给出以「金牛」开头的 3 个对联:
左右滑动查看更多
输入「对对联 + 一组上联」,可得到三组对联,比如:
左右滑动查看更多
目前看来,对于一些经典对联,AI 能做到对仗比较工整,且想象力丰富,对于同一上联,可对出多个不同下联;而对于一些不常在对联中出现的字词,AI 表现有些随意牵强。当然,让 AI 对「人工智能」什么的,也的确是有些为难人家了。
华为团队开发的 AI 对联,也是以 Couplet-dataset 对联数据集作为训练数据。该模型可以根据给定主题,生成对联。以下分别是输入「新春快乐」、「平安健康」、「一夜暴富」主题的生成结果,可滑动查看:
左右滑动查看不同主题的 AI 对联
明年,你要不要也训练一个自己的 AI 写春联模型,为家人写副对联呢?
更多精彩推荐
☞Ant Design 遭删库!☞每年节省170万美元的文档预览费用,借助机器学习的DropBox有多强?☞英超引入 AI 球探,寻找下一个足球巨星
☞三年投 1000 亿,达摩院何以仗剑走天涯?
点分享点收藏点点赞点在看
相关文章:

C++实现int与string之间的相互转换
2019独角兽企业重金招聘Python工程师标准>>> c 利用stringstream实现int与string类型的相互转换,记录在此,以备后用 #include<iostream> #include<sstream> #include<string>using namespace std;string add_int(const st…

逆变器的技术创新 让光伏电站更具发展前景
曾几何时,光伏发电因为光照强度和温度的变化,逆变器输出功率波动大,对电网产生冲击,而被称为垃圾电而受到限制。随着技术的进步,光伏逆变器完善了多种保护功能,增加了低(零)电压穿越…

8个免费实用的C++GUI库
C标准中并没有包含GUI,这也使得C开发图形化界面需要依赖于第三方的库。实际上,图形界面恰恰是C的强项,小到平常使用的各类桌面软件,大到魔兽世界这样的游戏,都是C擅长的地方。C之所以能做到这一点,原因在于…

.Net2.0 使用ConfigurationManager读写配置文件
.net1.1中如果需要灵活的操作和读写配置文件并不是十分方便,一般都会在项目中封装一个配置文件管理类来进行读写操作。而在.net2.0中使用ConfigurationManager 和WebConfigurationManager 类可以很好的管理配置文件,ConfigurationManager类在System.Conf…
举个例子,如何用GCN图卷积神经网络实现摔倒监测?
作者 | 李秋键责编 | 寇雪芹头图 | 下载于视觉中国引言近几年来深度学习的发展越来越火热,其中最为典型的就是半监督学习的新研究进展GCN。由Kipf和Welling提出的GCN被证明是一种有效的图半监督学习框架应用,如社会、医疗、商业和交通网络分析࿰…

数据中心节能大法 —— 尽在上海11月中国数据中心展
根据调研机构451Research的预测,全球数据中心托管市场2018年的市场规模将达到332亿美元。据悉,2015年我国数据中心节能改造规模已达30亿元左右,数据中心节能市场的空间是非常大的,在未来有望达到85亿元的市场空间。 根据调研机构4…

古怪的ConfigurationManager类
开始使用VS 2005,习惯性的使用ConfigurationSettings类来读取应用程序配置文件的信息时,却被编译器提示说:警告 1 “System.Configuration.ConfigurationSettings.AppSettings”已过时:“This method is obsolete, it has been replaced by …

最常用的css选择器及兼容性 +几个好用却不多见的 nth-child等
你也许已经掌握了id、class、后台选择器这些基本的css选择器。但这远远不是css的全部。下面向大家系统的解析css中30个最常用的选择器,包括我们最头痛的浏览器兼容性问题。掌握了它们,才能真正领略css的巨大灵活性。 1. * * { margin: 0; paddin…
对比四种爬虫定位元素方法,你更爱哪个?
作者 | 陈熹来源 | 早起Python头图 | 下载于视觉中国在使用Python本爬虫采集数据时,一个很重要的操作就是如何从请求到的网页中提取数据,而正确定位想要的数据又是第一步操作。本文将对比几种 Python 爬虫中比较常用的定位网页元素的方式供大家学习&…

2017年安全漏洞审查报告:安全补丁在不断增加,用户却不安装
软件漏洞难修复吗?年度FLexera漏洞审查报告显示,全部安全漏洞当中有81%已经拥有与之匹配的修复补丁,但多数常见软件项目的补丁安装率却相当低下。 作为一家面向应用程序开发商与企业客户的软件安全漏洞管理解决方案厂商,Flexera S…

Visual SourceSafe简明培训教程
名称Visual SourceSafe简明培训教程(Visual SourceSafe Training Short Course) 作者晨光(Morning) 简介对于采用Visual SourceSafe 6.0作为版本控制工具的项目及产品开发,本教程针对不同用户角色,提供有关该软件的若干使用指导…

水母智能联合蚂蚁森林、犀牛智造等,用AI助力非遗出圈,39万人开工得“福”
如今过年越来越有年味了,许多淡出已久的中国传统年俗,以更有趣、更年轻新潮、更科技的方式回到了大家身边。集五福、写福字、贴福字,挂福饰品,当然还有接“福袋”!人工智能实现智能设计已经相当成熟,已有微…

绿色信托任重道远 应建立补偿机制?
作为绿色金融的分支之一,绿色信托面临的状况不如绿色信贷、绿色债券,整体规模尚小,且监管方面的鼓励措施未有明确,甚至连概念都尚未统一。 日前,北京大学法学院非营利组织法研究中心与中航信托联合发布《2016年绿色信托…

解读C#正则表达式
多少年来,许多的编程语言和工具都包含对正则表达式的支持,.NET基础类库中包含有一个名字空间和一系列可以充分发挥规则表达式威力的类,而且它们也都与未来的Perl 5中的规则表达式兼容。 此外,regexp类还能够完成一些其他的功能&am…

wpa_supplicant学习
2019独角兽企业重金招聘Python工程师标准>>> interface gtk makefile wrapper buffer methods 目录(?)[-] 本来以为这个东西只有在Atheros的平台上用的突然发现Ralink的平台也可以用甚至还看到还有老美把这个东西往android上移植看来是个好东西学习一下 官方…
一张图,看编程语言十年热度变化
作者 | 叶庭云来源 | 修炼Python头图 | 下载于视觉中国什么是 TIOBE 排行榜TIOBE 排行榜是根据互联网上有经验的程序员、课程和第三方厂商的数量,并使用搜索引擎(如Google、Bing、Yahoo!)以及Wikipedia、Amazon、YouTube 统计出排名数据&…

小扎的野心不止做社交 市政厅的上线说明了这一点
一个月前,扎克伯格刚在一封6千字长信里宣布了自己要做一个全球社区的理想,日前Facebook就上线了个叫“市政厅”的政务服务功能。 美国的用户在“市政厅”的功能页填写完自己的地理位置信息之后,可以看到当地政府官员的名单,包括美…

C#调用存储过程简单完整例子
CREATE PROC P_TEST Name VARCHAR(20), Rowcount INT OUTPUT AS BEGINSELECT * FROM T_Customer WHERE NAMENameSET RowcountROWCOUNT END GO ---------------------------------------------------------------------------------------- --存储过程调用如下: -------------…
高手的习惯:pythonic风格代码
来源 | Python大数据分析责编 | 寇雪芹头图 | 下载于视觉中国什么是pythonicpythonic是开发者们在写python代码过程中总结的编程习惯,崇尚优雅、明确、简单。就好比中文的笔画,讲究先后顺序,最符合文字书写的习惯。因为是习惯,不是…

计算机天才Aaron Swartz 名作 《如何提高效率》——纪念真正的“hacker!
如何提高效率 《HOWTO: Be more productive》(如何提高效率)作者:Aaron Swartz 肯定有人跟你说过这样的话,“你有看电视的那么长时间,都可以用来写一本书了”。不可否认写书肯定比看电视更好的利用了时间,但…

python的web压力测试工具-pylot安装使用
pylot是python编写的一款web压力测试工具。使用比较简单。而且测试结果相对稳定。 这里不得不鄙视一下apache 的ab测试,那结果真是让人蛋疼,同样的url,测试结果飘忽不定,看得人心惊肉跳,摸不着头脑。 下载 pylot官网&a…
快过HugeCTR:用OneFlow轻松实现大型推荐系统引擎
Wide & Deep Learning Wide & Deep Learning (以下简称 WDL)是解决点击率预估(CTR Prediction)问题比较重要的模型。WDL 在训练时,也面临着点击率预估领域存在的两个挑战:巨大的词表(Em…

路由的有类和无类
有类和无类路由1.通告时不以主类子网掩码通告,一条路由被通告出去的时候并没有自动汇总,而是以本身的子网掩码通告。即为无类路由。2.被通告的路由化成主类网络后和通告该路由的接口被化成主类网络后相比不是同一个网络,那么这台路由器就产生…

VS2005 常用快捷键
ShiftAltEnter: 切换全屏编辑CtrlB,T / CtrlK,K: 切换书签开关CtrlB,N / CtrlK,N: 移动到下一书签 CtrlB,P: 移动到上一书签 CtrlB,C: 清除全部标签CtrlI: 渐进式搜索 CtrlShiftI: 反向渐进式搜索CtrlF: 查找 CtrlShiftF: 在文件中查找F3: 查找下一个ShiftF3: 查找上一个CtrlH:…

2016政策与市场协同发力大数据,小公司如何搏杀BAT?
大数据这个词来到2016年,绽放出绚烂的光。 先看看最近几天的新闻:大数据分析腐败问题、大数据曝光基友的世界、大数据助交警查处多起毒驾……不仅仅是与经济相关,大数据正在渗透社会各个领域,与传统社会嫁接的大数据,正…
机器学习的第一个难点,是数据探索性分析
作者 | 陆春晖责编 | 寇雪芹头图 | 下载于视觉中国当我们在进行机器学习领域的学习和研究时,遇到的第一个难点就是数据探索性分析(Exploratory Data Analysis)。虽然从各种文献中不难了解到数据探索性分析的重要性和一般的步骤流程࿰…

Asp.net 1.0 升级至 ASP.NET 2.0十个问题总结
1.Global.asax文件的处理形式不一样 转化后将出现错误,在vs2003中Global.asax具有代码后置文件,2.0下, 将代码分离文件移到 App_Code 目录下,以便使其自动变为可通过应用程序中的任意 ASP.NET 页面访问。“Code-behind”属性将从 …

Robotium初探秘
2019独角兽企业重金招聘Python工程师标准>>> Getting started 如果想知道robotium是如何运行、什么样子的,就看下面的步骤。如果想自己新建一个robotium测试工程,点击 此处 要使用Robotium,需要把Robotium.jar放在测试工程的build…

初级Java程序员所面临的4大挑战
一、编码时间过长 作为入门级Java工程师,每周至少编程45小时,而且每个月会有1到2个星期工作50至60小时。从这些数字上看,过去几个月里每周工作将近50小时。80% –90%的工作时间都耗在了电脑前。这样的数字虽然表明了享…

javascript页面跳转常用代码
这东东最难记,每次需要时都是重新到Google上搜,真是烦死了,这回整理一下贴到这。 按钮式: <INPUT name"pclog" type"button" value"GO" onClick"location.hrefhttp://9ba.cn/"> 链…