Python爬虫第八讲:Scrapy爬虫框架详解(2)
ccwgpt 2024-09-27 07:29 117 浏览 0 评论
Spider详解
我以前的文章说过爬虫分为几个部分:爬,取,存。在一些简单的网站中,Spider文件基本可以完成爬,取两部分任务。下面我详细说说Spider文件的使用。
- name:整个spider的名字,我们可以在相应文件下的命令行下输入:scrapy run test。来启动整个项目,后面设置定时任务也会用到这个名字。
- allowed_domians: 翻译过来就是允许的域名。初学者经常会发现自己的爬虫没错,但是就是跑不起来,很多时间都是这里设置不正确,Scrapy的日记功能会告诉你请求的URL因为不在域内,被过滤掉了(不管开发什么,看日志都是初学者进阶最好的方式)。
- start_url:起始url,这部分是可以复写的,明天写的过程中我会写个实例,很多时间需要通过连接数据库或者读写文件获得URL。值得一提的使用Scrapy_redis构建分布式爬虫,这里应该是必须要改的一个部分。
- parse(),scrapy对start_url发出请求后,回调就是这个方法,正常情况下也没必要改了。
item
item在整个Scrapy中,是开发者留给我们用来传递数据的一个容器,保存了爬取到得数据,用类似于Python中字典(键值对)的方式读写。当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。
值得注意的是开发者给我们提供了方法,我们只需要调用即可。如图中:url 是key,至于value是何种数据类型,并没做限制。
Setting
配置文件做个开发的应该都很熟悉,不管是APACHE,还是现在的nginx,小到PYTHON的安装,都需要配置配置文件。下面提一些经常用到的:
- DOWNLOAD_DELAY:下载延时,根据不同的网站设置延时是很有必要的,很多时间设置个3.0(3秒就差不多了),别以为你跑得快就厉害,到时候整个IP端都被网站全封了(以前初学的时候搞过这种事,难受)。
- ROBOTSTXT_OBEY:是否遵循该网站的ROBOTS协议,很多网站禁止爬虫访问。如果 ROBOTSTXT_OBEY = True,则爬虫不会爬取该网站,至于解决方法就是改为ROBOTSTXT_OBEY = Fales。这里也可以通过日志看出来,对新手也是个小坑。
- DEFAULT_REQUEST_HEADERS:默认的请求头,对一些网站直接设置这里,就可以拿到数据了。你不重定义的话,爬虫会自动拿这个请求头去访问网站。
- ITEM_PIPELINES:是否启用pipelines文件。这部分是个字典,分配给每个类的整型值,确定了他们运行的顺序,item按数字从低到高的顺序,通过pipeline(数值越低,组件的优先级越高),相对于自己写很优雅不是吗?而且还可以控制是否启用那个类。
- 日志:LOG_FILE = "mySpider.log",LOG_LEVEL = "INFO",日志功能在每个成熟的框架应该都有,LOG_FILE是我们定义日志文件在那个地方的配置,LOG_LEVEL是严重程度(有五个等级:DEBUG < INFO < WARNING < ERROR < CRITICAL)。
还有一些中间件类似于ITEM PIPELINES我就不多说了,对这些基本有个了解应该写个爬虫就没多大问题了。
总结
其实整个Scrapy的设计还是非常优雅的,不管是PIPELINE的优先级,还是ITEM在整个spider内的传递,都体现了开发者的高超的设计水平。了解多了,其实也能在其他流行的框架上,看到一些影子,这就是殊途同归或者叫做方璞归真吧!
最后:明天写个Scrapy的Demo,后面还想简单说说推荐算法的内容,毕竟也用了一段时间的头条了,头条最牛逼的就是推荐吧。欢迎大佬看到了给予指点(写的不好,我知道)
相关推荐
- 丨公司丨公司大架构整理汇总
-
注:本文转自团队成员原创作品,特此鸣谢(公号:法海图鉴)今日话题公司大架构整理背景介绍经过前几期话题对各种企业类型的介绍,想必大家已经有了初步认识。之后我将带着大家开启对公司的深入了解。本期...
- 图解物理--八年级物理下册最全知识框架导图
-
第七章力1力2弹力3重力第八章运动和力1牛顿第一定律2二力平衡3摩擦力第九章压强1压强2液体压强3大气压强4流体压强与流速的关系第十章浮力1浮力2阿基米德原理3物体的浮沉条件及应用第十一章功...
- 八年级上册生物,思维导图,期末高分必备资料,家长收藏
-
这是八年级上册生物的思维导图,孩子在背诵知识点的时候,可以看一下知识点在导图中的位置,形成对知识点整体的把握,有助于学生拿高分,特别是图片中带红色星星的部分,更是要注意背诵,是重点内容。家长可以把图片...
- 2019政府工作报告精华,这张思维导图里全都有
-
每经记者:李可愚每经编辑:陈星每日经济新闻
- 图解薪酬体系结构设计
-
...
- 司考复习独家总结!一张图总结行政法知识结构体系
-
作为三大实体法之一,行政法的分值在60分左右,行政法在司法考试中一直比较平稳常规,没有偏题怪题,还是比较容易得分的。小编要提醒大家,在3月之前要把三大实体法学习一遍。下图是厚大在线360导学师小周总结...
- 实用干货!高中物理框架图,让零碎知识“串联”起来
-
高中物理学习一定要抓好逻辑结构大框架!了解整个知识框架体系后,更易抓住骨干知识,干掉重难知识点~今天给大家分享高中物理的框架图同学们赶紧收藏起来吧!力学知识结构图光学知识结构图热学、原子物理知识结构图...
- 254m超高层办公楼型钢砼框架-核心筒结构图
-
高度类别:超高层建筑钢筋混凝土结构:框架,框架核心筒钢结构:钢框架建筑功能:办公包含:办公楼57层(-3层)254.150m钻孔灌注桩桩+筏板型钢混凝土框架-钢筋混凝土核心筒西裙房2层(-...
- 砖混结构与框架结构,究竟有何区别?千万别被坑!
-
现在买房装修的人最怕啥?不是价格高,而是房子不安全!两种主流建筑结构,砖混靠墙,框架靠柱子,选错了隔墙都可能要命。简单说,砖混便宜但别碰高层,框架贵点但能保命。砖混那些承重墙根本不能拆,想砸墙改个开放...
- 大师一百——高中化学必考:《元素周期律》考点框架图
-
今天大师给大家带来的是高中化学的《元素周期律》考点框架图,高中的同学必须牢记于心,这种重要的考点,考试是一定会考的!化学大师...
- 需求分析框架图
-
需求分析框架图
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- JAVA集合框架 (47)
- mfc框架 (52)
- abb框架断路器 (48)
- beego框架 (52)
- java框架spring (58)
- grpc框架 (65)
- tornado框架 (48)
- 前端框架bootstrap (54)
- orm框架有哪些 (51)
- ppt框架 (48)
- 内联框架 (52)
- cad怎么画框架 (58)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)