当前位置：网站首页 > 技术文章 > 正文

爬虫小知识，scrapy爬虫框架中爬虫名词的含义

ccwgpt 2025-05-07 23:35 35 浏览 0 评论

在上一篇文章当中学记给大家展示了 Scrapy 爬虫框架在爬取之前的框架文件该如何设置。在上一篇文章当中，是直接以代码的形式进行描述的，在这篇文章当中学记会解释一下上一篇文章当中爬虫代码当中的一些名词的用法。

在Scrapy爬虫框架中，所有自定义的爬虫都是从这个scrapy.spiders.Spider父类继承下来的，也就是说在这个爬虫框架当中，所有的爬虫代码所适用的的属性和方法都是由此父类规定的。

在这个父类中规定的各个名词的用法如下：

1.name：言简意赅，就是爬虫的名字。

2.allowed_domains：允许爬取的域名，不在此范围的链接不会被跟进爬取。

3.start_urls：起始URL列表，一般会从这个列表开始爬取。

4.custom_settings：用来存放爬虫专属配置的字典，这里的设置会覆盖全局的设置。

5.crawler：与爬虫对应的Crawler对象，利用它可以获取项目的配置信息，如调用crawler.settings.get()。

6.settings：用来获取爬虫全局设置的变量。

7.start_requests()：用于生成初始请求，该方法默认使用GET请求访问起始URL。

8.parse()：它负责处理Response对象并返回结果，从中提取出需要的数据和后续的请求。

9.closed()：当爬虫进程结束之后，该方法会被调用，通常用来做一些释放资源的善后操作。

我们来看一下上一篇文章当中关于爬虫部分的代码：

# -*- coding: utf-8 -*- #设置字符格式为 utf-8.

import scrapy

from scrapy.selector import Selector

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from baidu.items import baiduItem

class ImageSpider(CrawlSpider):

name = 'image' #即爬虫的名字，主要爬取图片

allowed_domains = ['tieba.baidu.com'] #只爬取百度贴吧内的图片。

start_urls = ['https://tieba.baidu.com/'] #起始爬取 url

rules = (

Rule(LinkExtractor(allow=(r'https://tieba.baidu.com\?start=\d+.*'))),

Rule(LinkExtractor(allow=(r'https://tieba.daidu.com/subject/\d+')), callback='parse_item'),

)

def parse_item(self, response):

sel = Selector(response)

item = baiduItem()

item['name']=sel.xpath('//*[@id="content"]/h1/span[1]/text()').extract()

item['year']=sel.xpath('//*[@id="content"]/h1/span[2]/text()').re(r'\((\d+)\)')

return item

一般来说，就是这样的用法，上述的名词在整个爬虫代码当中只占很小的一部分。

如果想学习更多科技知识，可以点击关注。

如果对文章中的内容有什么困惑的地方，可以在评论区提出自己的问题，学记同大家一起交流，解决各种问题，一起进步。

青年学记陪伴着各位青年

作者：青年学记一名不断进步的程序猿

一起学习一起进步

走向自立

scrapy框架

上一篇：python爬虫神器--Scrapy（python爬虫详细教程）
下一篇：为何大厂后端开发更青睐 Python 而非 Java 进行爬虫开发?

爬虫小知识，scrapy爬虫框架中爬虫名词的含义

相关推荐

取消回复欢迎你发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

SpringBoot的starter到底是什么?

爬虫小知识，scrapy爬虫框架中爬虫名词的含义

相关推荐

取消回复欢迎 你 发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

SpringBoot的starter到底是什么?

取消回复欢迎你发表评论: