百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Scrapy爬虫框架之Scrapy爬取分页数据(一)

ccwgpt 2024-09-20 13:21 68 浏览 0 评论

Python应用场景

Scrapy 爬虫框架

课程特色

时间就是生命,浓缩才是精华 (4小时,完成了Scrapy爬虫必备知识点讲解)

课程体系完整 ( 应用场景、Scrapy体系结构、分页爬虫、整站爬虫、爬虫伪装)

案例驱动教学 (深入浅出、案例为导向、学以致用)

导师答疑 (拒绝助教,讲师当天解决答疑)

课程适合人群

具备Py基本语法和面向对象开发思想、其它语言类开发人员、浪子回头者、想一夜暴富者

体系结构与环境搭建

文章目录

  • Scrapy简介
  • Scrapy组件介绍
  • pip安装scrapy

Scrapy简介

一个快速、高层次的屏幕抓取和web抓取的Python框架,用于抓取web站点并从页面中提取结构化的数据,可以用于数据挖掘、监测和自动化测试,可根据具体需求个性化定制。Scrapy架构图:

Scrapy组件介绍

  1. Scrapy Engine(引擎):用来处理整个系统的数据传递,是整个系统的核心部分。
  2. Scheduler(调度器):用来接受引擎发过来的Request请求, 压入队列中, 并在引擎再次请求的时候返回。
  3. Downloader(下载器):用于引擎发过来的Request请求对应的网页内容, 并将获取到的Responses返回给Spider。
  4. Item Pipeline(管道):负责处理Spider中获取的实体,对数据进行清洗,保存所需的数据。 Downloader
  5. Middlewares(下载器中间件):主要用于处理Scrapy引擎与下载器之间的请求及响应。
  6. SpiderMiddlewares(爬虫中间件):主要用于处理Spider的Responses和Requests

pip安装scrapy

正常通过pip show scrapy方式来查看是否安装,如果已安装则会显示安装信息,否则不会显示任何信息

通过pip install scrapy 安装爬虫框架 (大概率会抛出如下异常)

根据异常提示缺少:ERROR: MICROSOFT VISUAL C++ 9.0 IS REQUIRED (UNABLE TO FIND VCVARSALL.BAT). GET IT FROM 需要下载一个缺失的window组件,此组件在视频的学习资料中有提供

第一个爬虫项目

文章目录

创建一个scrapy项目

创建Spider解析器

项目功能模块介绍

配置User-Agent 伪装请求

启动爬虫获取数据

创建一个scrapy项目

虽然是采用cmd命令来创建,但是可以通过scrapy -h来查询相关的子命令,最后可以通过scrapy startproject douban方式来创建项目

创建Spider解析器

根据上面的提示:cd douban,然后在项目中执行:scrapy genspider example example.com 则可以创建一个Spider对象

细心的小伙伴会发现,douban_spider默认会存储到douban.spider目录中,采用pycharm IDE打开会发现项目的结构如下:

项目功能模块介绍

  1. scrapy.cfg:配置文件spiders:存放你Spider文件,也就是你爬取的py文件
  2. items.py:相当于一个容器,和字典较像 middlewares.py:定义Downloader
  3. Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现 pipelines.py:定义Item
  4. Pipeline的实现,实现数据的清洗,储存,验证。 settings.py:全局配置

配置User-Agent 伪装请求

settings.py 配置User-Agent相关参数,否则爬取会出现失败。

启动爬虫获取数据

在cmd dos窗口中启动爬虫,默认会去下载在douban_spider中配的start_urls地址

Xpath语法介绍

文章目录

Xpath简介

Xpath语法

Xpath实践

Xpath简介

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航,其实HTML就是一种特殊的XML,因此大家在学习XPath时需要了解基本的HTML和XML

  1. XPath 使用路径表达式在 XML 文档中进行导航
  2. XPath 包含一个标准函数库
  3. XPath 是 XSLT 中的主要元素
  4. XPath是一个 W3C 标准

Xpath语法

Xpath实践

Xpath获取有价值数据

文章目录

豆瓣电影页分析

第一页下载实现

前5部电影数据如下

豆瓣电影页分析

已经向您讲解了如何在 XML 文档中查找信息,具体来说已经学会了如果获取元素、内容、属性,并且还知道如何通过标签的属性来进筛选与过滤。本章节来讲解如何通过xpath获取豆瓣的数据

第一页下载实现

前5部电影数据如下

Item模型封装数据

文章目录

  • 创建Item模型层
  • 封装已爬取数据
  • yield的语法介绍

创建Item模型层

前面我们已经可以把第一页的数据获取,但是仅仅是在控制台打印。在Scrapy还有一个Item的模块,此类就是模型层,主要完成对价值数据的封装,然后在写入到数据库中

封装已爬取数据

把爬取的数据存储到DoubanItem对象中,然后把它在交给item_list 最后返回Item_list

yield的语法介绍

一个带有 yield 的函数就是一个 generator,它和普通函数不同,生成一个 generator 看起来像函数调用,但不会执行任何函数代码,直到对其调用 next()(在 for 循环中会自动调用 next())才开始执行。虽然执行流程仍按函数的流程执行,但每执行到一个 yield 语句就会中断,并返回一个迭代值,下次执行时从 yield 的下一个语句继续执行。看起来就好像一个函数在正常执行的过程中被 yield 中断了数次,每次中断都会通过 yield 返回当前的迭代值

yield与自动翻页

文章目录

yield优点

yield优化返回数据

yield优点

yield 的好处是显而易见的,把一个函数改写为一个 generator 就获得了迭代能力,比起用类的实例保存状态来计算下一个 next() 的值,不仅代码简洁,而且执行流程异常清晰

而在Scrapy爬虫框架中,yield有天然的使用场景,因为我们并不知道爬虫每次获取数据的大小,如果每次都一起返回则数据量会非常大,此时如果采用yield来优化,则代码会非常简洁且高效

yield优化返回数据

相关推荐

十分钟让你学会LNMP架构负载均衡(impala负载均衡)

业务架构、应用架构、数据架构和技术架构一、几个基本概念1、pv值pv值(pageviews):页面的浏览量概念:一个网站的所有页面,在一天内,被浏览的总次数。(大型网站通常是上千万的级别)2、u...

AGV仓储机器人调度系统架构(agv物流机器人)

系统架构层次划分采用分层模块化设计,分为以下五层:1.1用户接口层功能:提供人机交互界面(Web/桌面端),支持任务下发、实时监控、数据可视化和报警管理。模块:任务管理面板:接收订单(如拣货、...

远程热部署在美团的落地实践(远程热点是什么意思)

Sonic是美团内部研发设计的一款用于热部署的IDEA插件,本文其实现原理及落地的一些技术细节。在阅读本文之前,建议大家先熟悉一下Spring源码、SpringMVC源码、SpringBoot...

springboot搭建xxl-job(分布式任务调度系统)

一、部署xxl-job服务端下载xxl-job源码:https://gitee.com/xuxueli0323/xxl-job二、导入项目、创建xxl_job数据库、修改配置文件为自己的数据库三、启动...

大模型:使用vLLM和Ray分布式部署推理应用

一、vLLM:面向大模型的高效推理框架1.核心特点专为推理优化:专注于大模型(如GPT-3、LLaMA)的高吞吐量、低延迟推理。关键技术:PagedAttention:类似操作系统内存分页管理,将K...

国产开源之光【分布式工作流调度系统】:DolphinScheduler

DolphinScheduler是一个开源的分布式工作流调度系统,旨在帮助用户以可靠、高效和可扩展的方式管理和调度大规模的数据处理工作流。它支持以图形化方式定义和管理工作流,提供了丰富的调度功能和监控...

简单可靠高效的分布式任务队列系统

#记录我的2024#大家好,又见面了,我是GitHub精选君!背景介绍在系统访问量逐渐增大,高并发、分布式系统成为了企业技术架构升级的必由之路。在这样的背景下,异步任务队列扮演着至关重要的角色,...

虚拟服务器之间如何分布式运行?(虚拟服务器部署)

  在云计算和虚拟化技术快速发展的今天,传统“单机单任务”的服务器架构早已难以满足现代业务对高并发、高可用、弹性伸缩和容错容灾的严苛要求。分布式系统应运而生,并成为支撑各类互联网平台、企业信息系统和A...

一文掌握 XXL-Job 的 6 大核心组件

XXL-Job是一个分布式任务调度平台,其核心组件主要包括以下部分,各组件相互协作实现高效的任务调度与管理:1.调度注册中心(RegistryCenter)作用:负责管理调度器(Schedule...

京东大佬问我,SpringBoot中如何做延迟队列?单机与分布式如何做?

京东大佬问我,SpringBoot中如何做延迟队列?单机如何做?分布式如何做呢?并给出案例与代码分析。嗯,用户问的是在SpringBoot中如何实现延迟队列,单机和分布式环境下分别怎么做。这个问题其实...

企业级项目组件选型(一)分布式任务调度平台

官网地址:https://www.xuxueli.com/xxl-job/能力介绍架构图安全性为提升系统安全性,调度中心和执行器进行安全性校验,双方AccessToken匹配才允许通讯;调度中心和执...

python多进程的分布式任务调度应用场景及示例

多进程的分布式任务调度可以应用于以下场景:分布式爬虫:importmultiprocessingimportrequestsdefcrawl(url):response=re...

SpringBoot整合ElasticJob实现分布式任务调度

介绍ElasticJob是面向互联网生态和海量任务的分布式调度解决方案,由两个相互独立的子项目ElasticJob-Lite和ElasticJob-Cloud组成。它通过弹性调度、资源管控、...

分布式可视化 DAG 任务调度系统 Taier 的整体流程分析

Taier作为袋鼠云的开源项目之一,是一个分布式可视化的DAG任务调度系统。旨在降低ETL开发成本,提高大数据平台稳定性,让大数据开发人员可以在Taier直接进行业务逻辑的开发,而不用关...

SpringBoot任务调度:@Scheduled与TaskExecutor全面解析

一、任务调度基础概念1.1什么是任务调度任务调度是指按照预定的时间计划或特定条件自动执行任务的过程。在现代应用开发中,任务调度扮演着至关重要的角色,它使得开发者能够自动化处理周期性任务、定时任务和异...

取消回复欢迎 发表评论: