2019独角兽企业重金招聘Python工程师标准>>>
关于前嗅Forespider爬虫的常见问题答疑
奋战在一线为客户答疑的狗蛋儿给小编提供了很多客户经常会问到的问题的素材,小编帮大家整理了一些,快来看看是不是都用的上吧!
一、采集预览没有链接或数据?
(1)查看文档详情:
①需要写脚本:检查文档详情。文档中HTML标签中没有所需的数据信息,是JavaScript脚本生成的。
②被封ip:文档详情404或者***错误等
③需要开启cookie的情况下才能采集数据
(2)浏览器版本:点击设置-网络策略设置可以设置模拟浏览器版本
(3)检查配置:
①网址输入的不对
②网址前没加https协议头
③示例地址1和频道入口地址不一致
④没有链接抽取或数据抽取
⑤数据抽取未选择表单
⑥地址过滤的不对把链接都过滤掉了
⑦没有关联模板等
二、连接数据库失败?
(1)ForeLib:数据路径错误
(2)MySQL:
①数据库名称错误
②本地服务主机:127.0.0.1或者localhost输入错误
③远程:远程的IP填写错误
④端口:默认3306
⑤用户名密码输入错误
三、采集如果被封怎么办?
使用代理ip,点击资源管理,可以添加IP代理,支持动态和静态IP代理。点击网络策略配置-IP代理配置,可以启动使用IP代理。
四、字段设置有变动后的操作?
(1)更改表单名称/字段名称/增减字段:
①在对应模板的数据抽取处重新选定该表单
②删除原有的数据表并新建。
③更改表单字段内字段属性、长度、变量类型等应删除原有的数据列表并新建,同时在对应模板的数据抽取处重新选定该表单
④更改字段取值类型时应删除原有的数据列表并新建,同时在对应模板的数据抽取处重新选定该表单或者选中相应字段后在下方重新选定取值类型
五、会不会采集重复的数据?
不会,本软件有两种自动排重功能
①已采集过数据的会有相应的采集日志,自动排重
②采集到的数据存入数据库时自动排重
六、采集预览有数据,数据采集没有数据?
①还没跑到数据页,可以右键复制到浏览器查看网页是否有问题
②字段有问题,重新检查配置,字段名、属性、长度、变量类型、取值类型等
③采集状态不正常(IP被封,忘记建表单等问题)
七、如何定时更新最新的数据?
设置-采集策略配置-增量采集;任务设置-定时能定时采集。
八、自己配置不出来怎么办?
(1)寻求技术支持
技术顾问QQ:2779623375
(2)定制配置
网站爬取难度较大需要编写脚本,公司能提供专门的技术人员根据用户需求配置相应的模板。