百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

python爬虫框架scrapy组件介绍,找工作必不可少的技能

ccwgpt 2024-09-27 07:28 115 浏览 0 评论

欢迎点击右上角关注小编。私信学习资料不仅获取学习资料,在学习中遇到的问题也可以咨询我。

出去找工作,scrapy框架是必不可少的。在学习之前,我们先了解一下什么是框架。

框架其实就是一个架子。以scrapy为例,它由引擎(Engine)、调度器(Scheduler)、下载器(Downloader)、爬虫(Spiders)、管道(Item Pipeline)、下载器中间件(Downloader middlewares)、Spider中间件(Spider middlewares)构成。每一个组建都有自己的作用,全部组合在一起就构成了scrapy框架。

在具体的学习scrapy之前,我们先对scrapy的架构做一个简单的了解,之后所有的内容都是基于此架构实现的,在初学阶段只需要简单的了解即可,之后的学习中,你会对此架构有更深的理解。

下面是scrapy官网给出的最新的架构图示。

如果你能把上图给彻底理解了,那么你就可以说你精通爬虫了。上图就展示了scrapy框架的精髓,接下来我给你们介绍一下各个组件的作用。

基本组件

引擎(Engine)

  • 引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。 详细内容查看下面的数据流(Data Flow)部分。

调度器(Scheduler)

  • 调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。

下载器(Downloader)

  • 下载器负责获取页面数据并提供给引擎,而后提供给spider。

爬虫(Spiders)

  • Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站。

管道(Item Pipeline)

  • Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)。

下载器中间件(Downloader middlewares)

  • 下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的response。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。

Spider中间件(Spider middlewares)

  • Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出(items及requests)。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。

数据流向

Scrapy的数据流由执行引擎(Engine)控制,其基本过程如下:

  1. 引擎从Spider中获取到初始Requests。
  2. 引擎将该Requests放入调度器,并请求下一个要爬取的Requests。
  3. 调度器返回下一个要爬取的Requests给引擎
  4. 引擎将Requests通过下载器中间件转发给下载器(Downloader)。
  5. 一旦页面下载完毕,下载器生成一个该页面的Response,并将其通过下载中间件(返回(response)方向)发送给引擎。
  6. 引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
  7. Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
  8. 引擎将(Spider返回的)爬取到的Item交给ItemPipeline处理,将(Spider返回的)Request交给调度器,并请求下一个Requests(如果存在的话)。
  9. (从第一步)重复直到调度器中没有更多地Request。

总结

Scrapy的各个组件相互配合执行,有的组件负责任务的调度,有的组件负责任务的下载,有的组件负责数据的清洗保存,各组件分工明确。在组件之间存在middleware的中间件,其作用就是功能的拓展,当然还可以根据自身的需求自定义这些拓展功能,比如我们可以在Downloader middlewares(下载中间件)里面可以轻易实现User-Agent(请求头)、Proxy(代理)、cookie、selenium等等功能的拓展。以及在Item Pipeline中对数据进行清洗然后再存入mysql、redis、MongoDB等数据库或者是发送到远程服务器,支持ssh、ftp等协议。其他组件也有非常多的功能,我这里就不一一做介绍了。这些功能我们只需要大致的了解即可,等到需要时再去练习才能掌握的更好。

相关推荐

公司组织架构及部门职责#管理制度 #薪酬绩效 #组织架构

...

终于把“公司组织架构与管理部岗位配置”整理好了,拿来即用!

...

老板看完这份“公司组织架构详解”就解放了!

...

丨公司丨公司大架构整理汇总

注:本文转自团队成员原创作品,特此鸣谢(公号:法海图鉴)今日话题公司大架构整理背景介绍经过前几期话题对各种企业类型的介绍,想必大家已经有了初步认识。之后我将带着大家开启对公司的深入了解。本期...

图解物理--八年级物理下册最全知识框架导图

第七章力1力2弹力3重力第八章运动和力1牛顿第一定律2二力平衡3摩擦力第九章压强1压强2液体压强3大气压强4流体压强与流速的关系第十章浮力1浮力2阿基米德原理3物体的浮沉条件及应用第十一章功...

八年级上册生物,思维导图,期末高分必备资料,家长收藏

这是八年级上册生物的思维导图,孩子在背诵知识点的时候,可以看一下知识点在导图中的位置,形成对知识点整体的把握,有助于学生拿高分,特别是图片中带红色星星的部分,更是要注意背诵,是重点内容。家长可以把图片...

2019政府工作报告精华,这张思维导图里全都有

每经记者:李可愚每经编辑:陈星每日经济新闻

图解薪酬体系结构设计

...

司考复习独家总结!一张图总结行政法知识结构体系

作为三大实体法之一,行政法的分值在60分左右,行政法在司法考试中一直比较平稳常规,没有偏题怪题,还是比较容易得分的。小编要提醒大家,在3月之前要把三大实体法学习一遍。下图是厚大在线360导学师小周总结...

一图读懂香港国安新架构:各职位人选公布 有官员曾强硬喊话乱港分子

实用干货!高中物理框架图,让零碎知识“串联”起来

高中物理学习一定要抓好逻辑结构大框架!了解整个知识框架体系后,更易抓住骨干知识,干掉重难知识点~今天给大家分享高中物理的框架图同学们赶紧收藏起来吧!力学知识结构图光学知识结构图热学、原子物理知识结构图...

254m超高层办公楼型钢砼框架-核心筒结构图

高度类别:超高层建筑钢筋混凝土结构:框架,框架核心筒钢结构:钢框架建筑功能:办公包含:办公楼57层(-3层)254.150m钻孔灌注桩桩+筏板型钢混凝土框架-钢筋混凝土核心筒西裙房2层(-...

砖混结构与框架结构,究竟有何区别?千万别被坑!

现在买房装修的人最怕啥?不是价格高,而是房子不安全!两种主流建筑结构,砖混靠墙,框架靠柱子,选错了隔墙都可能要命。简单说,砖混便宜但别碰高层,框架贵点但能保命。砖混那些承重墙根本不能拆,想砸墙改个开放...

大师一百——高中化学必考:《元素周期律》考点框架图

今天大师给大家带来的是高中化学的《元素周期律》考点框架图,高中的同学必须牢记于心,这种重要的考点,考试是一定会考的!化学大师...

需求分析框架图

需求分析框架图

取消回复欢迎 发表评论: