60行代码爬取知乎“神回复”,句句戳中泪点
作者 | shenzhongqiang
转载自Python与数据分析(ID:PythonML)
之前的一篇文章《爬了下知乎神回复,笑死人了~》发布后,引发了大家热烈的反响。很多朋友觉得很神奇,在后台问强哥是怎么做到的,有的朋友还表示不太相信。其实爬取知乎神回复很简单,这篇文章我们就来揭晓一下背后的原理。
知乎神回复都有些什么特点呢?我们先来观察一下
大家看出什么规律了么?短小精辟有没有?赞同很多有没有?所以爬取知乎神回复我们只要爬取那些赞同多又字数少的回答就可以。简单的两个步骤就能实现,第一步爬取知乎回答,第二部筛选回答。是不是很easy?
爬取知乎回答
第一步我们爬取知乎上的回答。知乎上的回答太多了,一下子爬取所有的回答会很费时,我们可以选定几个话题,爬取这几个话题里的内容。
下面的函数用于爬取某一个指定话题的内容
def get_answers_by_page(topic_id, page_no):
offset = page_no * 10
url = <topic_url> # topic_url是这个话题对应的url
headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
}
r = requests.get(url, verify=False, headers=headers)
content = r.content.decode("utf-8")
data = json.loads(content)
is_end = data["paging"]["is_end"]
items = data["data"]
client = pymongo.MongoClient()
db = client["zhihu"]
if len(items) > 0:
db.answers.insert_many(items)
db.saved_topics.insert({"topic_id": topic_id, "page_no": page_no})
return is_end
get_answers_by_page函数有两个参数,第一个参数是话题的id,第二个参数表示爬的是第几页的内容。
爬下来的内容当中有几个需要注意的字段,下图中用黄框高亮出来了
这几个字段的含义如下:
question.title - 问题的标题
content - 回答的内容
voteup_count - 赞同的数量
这些字段在下一步筛选回答的时候会用到。
筛选回答
爬完数据后,我们来筛选一下结果。
我们用MongoDB中的聚合管道对回答做筛选(关于MongoDB的聚合管道的用法可以参考Aggregation Pipeline Quick Reference这篇文章,地址在
https://docs.mongodb.com/manual/meta/aggregation-quick-reference/)
代码如下:
client = pymongo.MongoClient()
db = client["zhihu"]
items = db.answers.aggregate([
{"$match": {"target.type": "answer"}},
{"$match": {"target.voteup_count": {"$gte": 1000}}},
{"$addFields": {"answer_len": {"$strLenCP": "$target.content"}}},
{"$match": {"answer_len": {"$lte": 50}}},])
上面的代码会筛选所有赞同大于1000、字数小于50的回答,筛选出来的结果就是短小精辟的神回复。以上是核心代码,完整代码已上传github。
知乎神回复
代码写完了,我们来运行下看看。恰好昨天是程序员节,我们就来筛选一下和程序员有关的神回复。结果如下,一共75条搞笑段子?
1
Q: 码农们最常说的「谎言」有哪些?
A: //TODO
2
Q: 在 GitHub 上保持 365 天全绿是怎样一种体验?
A:曾经保持了200多天全绿,但是冷落了女朋友,一直绿到现在。
3
Q: 如何反驳「程序员离开电脑就是废物」这个观点?
A: 不不不,很多程序员在电脑前也是废物。
4
Q: 假如有一天所有的人都使用计算机语言说话,会是怎样的场景?
A:hello, world.烫烫烫烫烫烫烫�d}��R�0:�v�?.
5
Q: 突然想开一家程序员主题的餐馆,名字就叫程序员的菜,菜名就叫各种语言中的关键字,各位指点一哈,有前途没?
A: 进门一个大大的 hello world,招牌菜叫“红烧产品经理”,一定会爆满的
6
Q: 什么是递归?
A: 「不宜公开讨论的政治内容」的定义和范畴本身也属于「不宜公开讨论的政治内容」
7
Q: 编程最基本的术语 “bug” 该怎么翻译?
A:幺蛾子,你的程序又出幺蛾子了。
8
Q: 编程的乐趣是什么?
A: 人的成就感来源于两样东西,创造和毁灭。
9
Q: 如何反驳「程序员离开电脑就是废物」这个观点?
A: 老实说 跟这种女人都能聊下去 你是不是想上她?
10
Q: 作为程序员,你在编程时吃了哪些数学的亏?
A: 看论文时候一个"显然"推了我一下午
11
Q: 土豪程序员的设备都有啥?
A: 女朋友。。。
12
Q: 祈求代码不出 bug 该拜哪个神仙?
A: 拜雍正,专治八阿哥。
13
Q: 考上好大学学 IT 是不是当今中国穷人家孩子晋级中产唯一的出路?
A: 对,就4条路
写代码
搞金融
在代码圈搞金融
在金融圈写代码
14
Q: 为什么程序员无论到哪儿都喜欢背电脑包,哪怕里面没有装电脑?
A: 因为他们没有别的包。
15
Q: 「Talk is cheap. Show me the code」怎么翻译比较好?
A: 屁话少说,放码过来。
16
Q: 为什么程序员的女朋友或老婆颜值普遍要高于男方很多?还是说程序员已经算是婚恋市场的优质股了?
A: 程序员女朋友颜值高,我是服的,因为随便问十个程序员他的女朋友是谁,有九个回答是新垣结衣
17
Q: 为什么一部分人宁可买几个机械键盘换着用,也不愿意给自己敷一下面膜?
A:
老子不靠脸吃饭。
老子的辛辛苦苦挣来的钞票。老子想怎么花就怎么花。
18
Q: 程序员夫妻结婚戒指刻什么字好?
A: 0 error 0 warning
19
Q: IT 工程师被叫「码农」时是否会不舒服?
A: 我们好歹还是人,产品和设计已经是狗了……
20
Q: 为什么一个销售男(30岁)会约我一个男程序员(24岁)去小区附近的星巴克?
A: 根据哥多年的经验,他应该是有巨牛逼的idea然后只差程序员去实现了
21
Q: 怎么找到喜欢程序员的妹子做女友?
A: 看缘分,知乎上这么多用户,你关注到我就是缘分。
22
Q: 程序员女朋友如何给程序员男朋友过生日?
A: 告诉他,接口已经准备好了。
23
Q: 作为程序员,你是如何在工作以后找到女朋友的?
A: 题主作了这么久的程序员,还喜欢女孩子已经难能可贵了。
24
Q: 程序员转行烧烤需要做哪些准备,有哪些优势和劣势?
A: 你看,你连自己做烧烤都不知道优势劣势在哪里,所以,你还是需要一名产品经理。
25
Q: 哪些话可以惹火程序员?
A: 路过他电脑前时说一句,呦,又在写bug呢!
26
Q: 我的一位老师说,Java 适用于大型软件而 C# 适用中小型软件。这是真的么?
A: Java有项天赋,就是能把中小型软件写成大型的。
27
Q: 为什么 2014 年程序员薪资那么高?
A: 时薪又不高
28
Q: 是不是大部分程序员都在抱怨工资低?
A:
谁、谁在抱怨工资高?
29
Q: 单身程序狗解决了一个技术难题后没有妹子可以炫耀或夸一下自己怎么办?
A: 现在你明白了吧,为什么那么多程序员要写技术博客。
30
Q: 中国程序员是否偏爱「冲锋衣+牛仔裤+运动鞋」的衣着?如果是,为何会形成这样的潮流?
A: 穿那么好看给程序看吗?
31
Q: 作为 IT 从业人员,你觉得有什么工具大大提高了你的工作效率?
A:
单身
32
Q: 为什么我认为程序员似乎大多不善言辞?
A:
你就当是我们情商低就好了,
这样你开心,
我们也开心。
33
Q: 在中国,年龄最大的程序员不过40岁左右,请问中国的程序员未来还可以做什么?
A:这跟为什么90后没人活过30岁是同一个原理
34
Q: 如何回复程序员发来的短信:「Hello world」?
A: hello nerd.
35
Q: 怎么看出 IT 男喜欢一个女生?
A: 当他拼着自己早已养成的寡言少语的习惯去死命的跟你套近乎的时候
36
Q: 为什么程序员不应该会修电脑?
A: 范冰冰需要会修电视机吗?
37
Q: 同事说自己 C++ 水平全中国第一,怎么让他意识到自己没那么厉害?
A:
实不相瞒,我也不是装逼:我的 C++ 水平全国第 0。
38
Q: 为什么 iPhone 删软件时,所有图标都要抖?
A: 第三方软件是吓得,系统自带软件是嘚瑟
39
Q: 左轮手枪装有一颗子弹,对着自己头开一枪奖励10万元,两枪1亿,三枪2亿,四枪4亿,5枪16亿,值得吗?
A:
只要不打要害,我告诉你,我能打到我们A站上市!!!!
40
Q: iPhone 处理器的性能按照现在每年翻一倍的节奏,是不是很快就能赶上甚至超过台式电脑的处理器?
A: 小时候我总觉得过两年我就能和大我两岁的哥哥一样大了。
41
Q: 知乎给你带来的最小限度的好处是什么?
A: 消磨时间还不觉得罪恶。
42
Q: 有哪些反人类的科技发明或设计?
A: 电脑连不上网,诊断以后它提示我要联网解决
43
Q: 为什么设计师不愿意被称为美工?
A: 只要工资开的高,叫我阿姨都行。
44
Q: 为什么有人认为网易云音乐是业界良心?
A: 有一天突然给我推送一条消息说我要的歌词找到了
45
Q: 为什么没有出现无人机自毁式攻击武器呢?恐怖分子用过吗?
A: 你是说导弹么?
46
Q: 既然思想是我的,那么为什么有时候我控制不了我的负面情绪?
A: 操作系统不会允许用户访问、修改及删除核心系统文件,因为这会损坏系统,导致运行异常。
47
Q: 鲁迅虽然很牛,但在这世界十大文豪里是不是凑数的?
A: 为什么文豪要为文盲排的榜买单?
48
Q: 人类的哪些科技已经接近瓶颈,很久没有重大突破了?
A: 烧开水
49
Q: 如何看待某些人下载软件喜欢到官网的偏好?
A: 同学你没中过百度全家桶吧?
50
Q: 为什么很多人买笔记本打游戏,而不用性能更好的台式机?
A: 因为买不起房子。。。
51
Q: 第一次听好耳机对你带来的震撼有多大?
A: 第一次听好耳机不会给人多大震撼,但是当换回普通耳机的时候,震撼就来了
52
Q: Chrome 真的很费电吗?
A: 不费电,我现在就在用Chrome,用到现在这么久,笔记本电量还有50%,我估讠
53
Q: MacBook 上安装 Windows 后的使用体验如何?
A: 像突然间有了软肋,并且还失去了铠甲。
54
Q: 家里所有有关产品都用苹果产品是一种什么体验?
A: 来个电话全家都响了起来
55
Q: 你为什么不买 iPhone X?
A: 日益增长的美好生活需要和贫穷的现实之间的矛盾
56
Q: 为什么有人愿意花几千元买 iPhone ,却不愿意花几十元买正版 iPhone 软件和游戏?
A: 因为他们下载不到iphone
57
Q: 有什么 App 取的名字特别惊艳?
A: 水表助手…是查快递的…
58
Q: 你为什么要买移动硬盘?
A: 条件好了也要给自己的女人们住舒适点啊
59
Q: 如何用 iPad 遥控 PC 关机?
A: 瞄准pc电源键扔过去
60
Q: 如何评价 2016 年 9 月 7 日的苹果发布会?
A: 为了新MacBook Pro,半年看了三场发布会……
61
Q: 如何评价 Internet Explorer?
A: 下载其他浏览器的浏览器
-----一年后-----
IE8以下好烂,做前端想哭的节奏。
62
Q: 爸妈让我攒钱买房,我却想买苹果电脑怎么办?
A: 你要真能3年攒50万的房子,差这1万7买个电脑么,大哥?
63
Q: 有哪些垃圾手机软件?
A: 短信拦截软件! 拦截后告诉你它拦截了一条短信。 我相信99%的人会再去点进去看一下被拦截的短信!
64
Q: 一个完整的 PPT 做下来,最让你头疼的是什么?
A: 怎样向领导隐藏自己的实力。
65
Q: 什么是 Vim 可以做而 Emacs 做不到的?
A: 帮助乌干达的可怜儿童……
66
Q: 苹果用户为什么选择苹果?
A: 因为不用苹果的用户不是苹果用户。
67
Q: 计算机世界里有哪些经典谣言?
A: windows正在联机寻找解决方案。
68
Q: 有线鼠标会被无线鼠标取代吗?
A: 我觉得在网吧有线鼠标就不会被取代
69
Q: 计算机世界里有哪些经典谣言?
A: 我已阅读并同意该条款
70
Q: 计算机系的学生都有哪些口头禅?
A: 我电脑上运行的好好的啊⋯⋯
71
Q: 如何看待百度官博公开辟谣涉李彦宏家事传闻?
A:
「中国人对隐私没那么敏感,愿意用隐私换取便利。」
——李彦宏
72
Q: 在飞机上遇到了马云该怎么聊天?
A: Hello Jack, my name is Jackson.
73
Q: 如何理解马云说八年后房如葱?
A:
赶紧买葱啊,葱要涨价了!!!
74
Q: 如何理解马云说的「把地主杀了,不等于你能富起来」这句话?
A: 他的意思是「别杀我」
75
Q: 如何看待百度在魏则西事件过去之后又悄悄的把承诺整改的广告提示颜色调淡了?
A: 请大家不要黑百度,我是做前端开发的,这是时间久了,网页CSS掉色了
(本文为AI科技大本营转载文章,转载请联系原作者)
公开课推荐
◆
明晚8点
◆
推荐阅读:
首发 | 旷视14篇CVPR 2019论文,都有哪些亮点?
中央音乐学院招音乐AI方向博士生,玩一把代码与音符齐飞?
70个NumPy分级练习题:用Python一举搞定机器学习矩阵运算
免费报名 | 爱奇艺ZoomAI视频增强技术的应用
小团队的微服务之路
女神节该送程序媛什么礼物?保命指南来了!| 程序员有话说
Android 告急!
两会第一天, 大佬们关于区块链的探讨, 你要了解的都在这了
中央音乐学院招音乐AI方向博士生,玩一把代码与音符齐飞?
为啥程序员下班后只关显示器从不关电脑?
❤点击“阅读原文”,查看历史精彩文章。
相关文章:

IDC行业前景,机遇与挑战并存
中国互联网信息中心(CNNIC)发布了截至2010年6月底中国互联网发展基本情况的报告。在这半年一次的例行报告中,照例有些鼓舞人心的好消息。报告显示中国网民规模达到4.2亿,较09年底增长2.9%,宽带普及率达到98.1%,宽带网民规模为3.64…

【Ubuntu】Ubuntu14.04添加163的源
1、简单的两步 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak sudo wget -O /etc/apt/sources.list http://mirrors.163.com/.help/sources.list.trusty sudo apt update2、注意 这是更改Ubuntu14.04的源,针对ubuntu其它版本参见博客 【Ubuntu】将Ub…
用模板实现单例模式(线程安全)、模板方式实现动态创建对象
一、用模板实现单例模式 在前面的文章中,用过多种方法实现单例模式,现在用模板方式来实现: 为了实现线程安全,需要在linux 下使用pthread_mutex_t 加锁,请使用g 编译并需要链接 -lpthread 使用的是double-check lock&a…

推荐系统召回四模型之全能的FM模型
作者 | 张俊林作者简介:中国中文信息学会理事,中科院软件所博士。目前在新浪微博 AI Lab 担任资深算法专家。在此之前,张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队,以及在百度和用友担任技术经理及技术总监等职务。同时他…

MIDP2.0引入了Push注册机制
PushMIDP2.0引入了Push注册机制,作为一种允许应用被自动启动的方法,由预先设置的警告或者经inbound连接收到的消息。 通过这种方法,MIDlets可以用来设置处理规则事件,如定时从服务器上同步数据,或者非规则事件如一个突…

【OpenCV】cv::Mat和std::vector之间的相互转换
Mat转换成Vector 以vector 为例,其它模型类似 vector getVector(const Mat & a) { Mat b; a.convertTo(b, CV_64F); return (vector)(b.reshape(1, 1)); } Vector转换成Mat 使用Mat的构造函数 std::vector responses; cv::Mat tres; tres Mat(resp…

mysql数据库密码忘记恢复脚本
#!/bin/bashread -p "请输入你要修改的密码:" passwordskipawk /skip-grant-tables/{print $1} /etc/my.cnfif [ ! -n "$skip" ];then ##判断是否有skip-grant-tablessed -i /^[mysqld]/askip-grant-tables /etc/my.cnf ##变量为空就执行插入el…

-16 | 12 等于多少
2019独角兽企业重金招聘Python工程师标准>>> 今天同事问到一个问题 -16 | 12 等于多少? 从教材中知道,二进制数的第一位是符号位,正数为0,负数为1,再根据取反的定义可得到如下算式(假设整形是占…

深度学习在自动驾驶感知领域的应用
程序员转行学什么语言? https://edu.csdn.net/topic/ai30?utm_sourcecsdn_bw 本次直播课程是由深度学习资深研究者-杨阳博士从百度Apollo自动驾驶感知技术出发,讲解环境感知中深度学习的实用性与高效性。 课程从Apollo 3.5感知技术介绍、自动驾驶中的目…

【Qt】QObject::moveToThread 总结
原型 void QObject::moveToThread(QThread *targetThread) 功能 将QObject及其孩子移动到 指定线程(targetThread)中。它的事件将在targetThread线程中处理。 注意事项 1、该对象不能有parent,否则无法移动。 2、如果targetThread为零,…

中国联通备战5G MWC发布《Edge-Cloud平台架构及产业生态白皮书》
2月26日-3月1日,中国联通受邀参加2018MWC世界移动通信大会,作为本次大会GSMA智慧城市展区参展的唯一中国运营商,中国联通提出以服务为驱动的面向5G网络切片的演进思路,为客户提供4G到5G演进阶段的一致性的网络服务&…

转自一个面试者的“提示”
转自CSDN:http://topic.csdn.net/u/20110112/15/FFCBED16-E346-4074-87EE-0D682EF67FE2.html 希望对2011年努力寻找工作的人有帮助。 最近一直在参与公司的面试,为公司招收SE和SA。今天总结发现最近一共面试了二十几份简历,并且都是经过HE和猎…

【OpenCV】读取csv文件
csv简介 逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符…

300道Python面试题,备战春招!
作者 | kenwoodjw 责编 | Jane 出品 | Python大本营(ID:pythonnews) 程序员转行学什么语言? https://edu.csdn.net/topic/ai30?utm_sourcecsdn_bw 过年开工回来到现在,营长每天在地铁里只看到了两家公司的广告&…

稻盛和夫《活法》
以下内容是摘自<稻盛和夫>的《活着》中文翻译版。此生将托付于此书! “吾等定此血盟不为私利私欲,但求团结一致,为社会、为世人成就事业。特此聚合诸位同志,血印为誓。”——稻盛和夫 1.人类活着的意义、人生的目的到底是什…

【OpenCV】将图像数据由YUV格式转换成JPG格式直接使用,而不保存成文件
解决方法 使用OpenCV图像编码和解码函数:imencode、imdecode std::vector data_encode; imencode(“.png”, img_encode, data_encode); 参考博客: https://blog.csdn.net/tt_ren/article/details/53227900

一个装作异步的代码段
// 获取当前周期 getCurrentCycle(subDepartmentIdthis.props.subDepartmentId) {let { dispatch } this.propscalculateApi.currentKaoqinCycle({id:subDepartmentId}).then(res>{ if (res.data.id) { //console.log(res.data.name); this.setState({ cycleName: res.data…

拯救老电影——详解爱奇艺ZoomAI视频增强技术的应用
看各种视频节目已经成为当前娱乐休闲的一种方式,技术的进步和网速的升级提升了我们的视觉愉悦感,但是你总会遇到一些情况,比如老电影/电视剧的画面抖动、色彩灰暗;用户带宽受限,选择低码流的模式;UP主上传的…

Android 中文API (94) —— MediaController
前言 本章内容是android.widget.MediaController,版本为Android 2.3 r1,翻译来自"唐明",再次感谢"唐明" !期待你一起参与Android 中文API的翻译,联系我over140gmail.com。 声明 欢迎转载…

数据分析奥斯卡女神们,谁是你心中的No.1?
作者 | 徐麟转载自数据森麟(公众号 ID:shujusenlin)前言在开始今天的正文前,首先带来一首经典的由奥黛丽赫本演唱的《Moon River》,也是电影《蒂凡尼的早餐》中的主题曲。一年一度的奥斯卡奖于上月落下了帷幕ÿ…

ansible组件-playbook学习笔记
playbook的基础组件 name 定义playbook或者task的名称 hosts 用于指定要执行指定任务的主机 user 用于指定远程主机上的执行任务的用户 task 任务列表 vars 定义变量 vars_files 定义变量文件 notify 任务执行结果如果是发生更改的则触发定义在handler的任务 handlers 用于当前…

【linux工具】ldconfig:linux配置动态链接库
简介 ldconfig命令的用途主要是在默认搜寻目录/lib和/usr/lib以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出可共享的动态链接库(格式如lib*.so*),进而创建出动态装入程序(ld.so)所需的连接和缓存文件。 用法 ldconfig [-v|–ve…
T-SQL IN 谓词
T-SQL谓词之一 IN。检查指定(IN谓词前)的值,字段值或标量表达式是否包含在定义的一组元素(放在括弧内)中。这组元素可以有一或多个值,而不同值之间由逗点分开。 创建一个临时表,并插入一些值。 CREATETable#t( Fonts NVARCHAR(10))INSERTI…
vue:虚拟dom的实现
Vitual DOM是一种虚拟dom技术,本质上是基于javascript实现的,相对于dom对象,javascript对象更简单,处理速度更快,dom树的结构,属性信息都可以很容易的用javascript对象来表示: let element{tagN…

【Ubuntu】apt-get命令小结
apt-get install 安装软件包 apt-get remove 删除已安装的软件包(保留配置文件) apt-get update 更新 apt-get autoremove 自动删除没用的包 apt-get purge 删除包,不保留配置文件 apt-get –purge remove

腾讯58篇论文入选CVPR 2019,两年增长超200%
全球计算机视觉顶级会议 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议) 即将于6月在美国长滩召开。本届大会总共录取来自全球论文1299篇。中国团队表现不俗,此次,腾讯公司有超过58篇论文被本…

SQL Server 2008备份策略设计下(六)
上一篇博文探讨了各种恢复模式和备份类型,这一节继续来探讨如何设计备份策略。设计一个数据库的最佳备份策略,会面临如何选择使用哪种恢复模式的问题,因为恢复模式控制着备份和还原的行为。一般来讲,简单恢复模式一般适合用于测试…

【Qt】Qt样式表(Style Sheet):官网说明及例子
网址 http://doc.qt.io/qt-5/stylesheet.html 样式表语法 各种Qt控件的样式表例子 Qt样式表参考手册

神爱程序员,于是带来Python
“我累了,需要很长时间的休息。”2018 年 7 月,在 PEP 572(Python 改进提案) 被接受后的第三天,由于仍然不断面对着别人的质疑,反馈意见不断袭来,让这位一手缔造新的编程语言帝国的图灵奖获得者…

Dubbo配置文件详解
为新项目练手,把项目中用到的web service、RMI的服务改用DubboZookeeperSpring,网上找到几篇不错的配置详解 1.此篇博文主要从以下几种配置方式来讲 XML 配置文件方式、XML 配置文件方式、annotation 配置方式 https://www.cnblogs.com/chanshuyi/p/514…