八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统。能直接导出excel文件和导出到数据库中。降低采集成本,云采集提供10个节点,也能省事不少。
八爪鱼采集器还提供了云采集服务,在很短的时间内就可以完成你可能需要几天的时间来采集的工作量。(推荐学习:Python视频教程)
不好的地方就是,即使看似很简单了,而且还有更傻瓜化的smart模式,但是里面的坑只有用的多的人才清楚。
首先里面的循环都是xpath元素定位,如果用单纯的傻瓜化点击定位的话,很死板,大批量采集页面的时候很容易出错。另外用这个工具的,因为方便,小白太多,成天有人问普通问题,他们都不会看页面结构,也不懂xpath,很容易出现采集不全,无限翻页等问题。
立即学习“Python免费学习笔记(深入)”;
但是八爪鱼采集器的ajax加载,模拟手机页面,过滤广告,滚动至页面底端等功能堪称神器,一个勾选就能搞定。写代码很麻烦的,实现这些功能费劲。
八爪鱼毕竟只是工具,自由度肯定完败编程。胜在方便,快速,低成本。
八爪鱼判断语录较弱,无法进行复杂判断,也无法执行复杂逻辑。还有就是八爪鱼只有企业版才能解决验证码问题,一般版本无法接入打码平台。
还有一点就是没有ocr功能,58同城和赶集网采集的电话号码都是图片格式,python可以用开源图像识别库解决,对接进去识别便可。
数据采集的需求才是决定最终使用什么工具的。如果我是大量数据采集需求的话,爬虫一定是不可避免的,因为代码的自由度更高。八爪鱼的目标我觉得也不是取代python,而是实现人人都能上手的采集器这个目标。
另一点就是python学习容易,部署简单,开源免费。即使只学了scrapy也能解决一些问题了,不过麻烦的就是本来一些工具里很简单选择就能搞定的功能,必须靠自己写或者拷贝别人的代码才能实现,如果不是专职写爬虫的话,很快就想从入门到放弃了……
更多Python相关技术文章,请访问Python教程栏目进行学习!