当前位置：网站首页 > 技术文章 > 正文

Scrapy爬虫框架新手入门教程（爬虫框架 python）

ccwgpt 2024-09-27 07:29 113 浏览 0 评论

?Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

安装

测试

新建工程

创建spider文件（以豆瓣电影为例）

架构(绿线是数据流向)

运作流程（个人理解）

制作步骤

在item中指明爬取字段

编写spider/movie.py

数据存至数据库

其他

最后

安装

pip安装，可能会报错：

pip install Scrapy

anaconda安装，推荐：

conda install -c conda-forge scrapy

测试

scrapy

新建工程

scrapy startproject <工程名>

如

scrapy startproject douban

创建的目录结构

scrapy.cfg: 项目配置文件
douban/: 项目python模块, 代码将从这里导入
douban/items.py: 项目items文件，存要爬取的字段信息，可以插入数据库、写入txt等
douban/pipelines.py: 项目管道文件，将爬取的数据进行持久化存储
douban/settings.py: 项目配置文件，可以配置数据库等
douban/spiders/: 放置spider的目录，也就是你要写逻辑代码的地方
douban/middlewares：中间件，请求和响应都将经过他，可以配置请求头、代理、cookie、会话维持等

创建spider文件（以豆瓣电影为例）

scrapy genspider <项目名> <爬取域>

如

cd doubanscrapy genspider movie movie.douban.com

将在spiders文件夹下自动创建movie.py，并自动生成内容：

可以看出，要建立一个Spider，你必须用scrapy.Spider类创建一个子类，并确定了三个强制的属性和一个方法。

name = "" ：爬虫的识别名称，必须是唯一的，在不同的爬虫必须定义不同的名字。
allow_domains = [] ：是搜索的域名范围，也就是爬虫的约束区域，规定爬虫只爬取这个域名下的网页，不存在的URL会被忽略。
start_urls = () ：爬取的URL元祖/列表。爬虫从这里开始抓取数据，所以，第一次下载的数据将会从这些urls开始。其他子URL将会从这些起始URL中继承性生成。
parse(self, response) ：解析的方法，每个初始URL完成下载后将被调用，调用的时候传入从每一个URL传回的Response对象来作为唯一参数，主要作用如下：负责解析返回的网页数据(response.body)，提取结构化数据(生成item)；生成需要下一页的URL请求。

架构(绿线是数据流向)

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器).
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

运作流程（个人理解）

用户编写spider并运行
将第一个URL传给引擎
引擎将URL对应的request传给调度器
调度器将request排序入队
调度器将处理好的request返回到引擎
引擎将request按照下载中间件的设置传给下载器
下载器执行request并获得response（如果下载失败，然后引擎告诉调度器，这个request下载失败了，你记录一下，待会儿再下载）
下载器将response返回到引擎
引擎将request返回到spider用户这（默认交到def parse()这个函数处理）
spider处理完数据后，将需要跟进的URL和要保存的item传给引擎
引擎将item传给管道进行处理保存，并将URL进入下一轮循环
只有当调度器中不存在任何request了，整个程序才会停止，（也就是说，对于下载失败的URL，Scrapy也会重新下载。）

制作步骤

新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目
明确目标（编写items.py）：明确你想要抓取的目标
制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页
存储内容（pipelines.py）：设计管道存储爬取内容

在item中指明爬取字段

如“名称”、“评分”、“简介”

Item 定义结构化数据字段，用来保存爬取到的数据，有点像 Python 中的 dict，但是提供了一些额外的保护减少错误。
可以通过创建一个 scrapy.Item 类，并且定义类型为 scrapy.Field 的类属性来定义一个 Item（可以理解成类似于 ORM 的映射关系）。

在item.py中修改为：

class DoubanItem(scrapy.Item):
    name = scrapy.Field()
    rating_num = scrapy.Field()
    quote = scrapy.Field()

编写spider/movie.py

1、选择目标的xpath（也可以css等其他选择器）

2、提取出公共部分

3、由于豆瓣有反爬验证，因此需要加上header

def start_requests(self):
    url = 'http://movie.douban.com/top250/'
    yield scrapy.Request(url, headers=self.headers)

通过start_requests函数，对于运行后第一次访问请求，就加上了请求头。因此，start_urls其实也可以不加。

4、为了方便调试，新建spider/main.py，并写入

from scrapy.cmdline import execute
execute(["scrapy", "crawl", "movie", "-o", "item.json"])

5、测试一下效果

class MovieSpider(scrapy.Spider):
    name = 'movie'
    allowed_domains = ['movie.douban.com/top250']
    start_urls = ['http://movie.douban.com/top250/']
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}

    def start_requests(self):
        url = 'http://movie.douban.com/top250/'
        yield scrapy.Request(url, headers=self.headers)

    def parse(self, response):
        for each in response.xpath('//*[@id="content"]/div/div[1]/ol/li'):
            print(each.xpath('./div/div[2]/div[1]/a/span[1]').extract())

运行main.py

要提取中间的文字，则在xpath后面再添加“/text()”

6、类似地，完善parse()函数

from ..items import DoubanItem

def parse(self, response):
    # 将得到的数据封装到一个DoubanItem对象，就是在items.py里的
    item = DoubanItem()
    for each in response.xpath('//*[@id="content"]/div/div[1]/ol/li'):
        name = each.xpath('./div/div[2]/div[1]/a/span[1]/text()').extract_first()
        rating_num = each.xpath('./div/div[2]/div[2]/div/span[2]/text()').extract_first()
        quote = each.xpath('./div/div[2]/div[2]/p[2]/span/text()').extract_first()
        item['name'] = name
        item['rating_num'] = rating_num
        item['quote'] = quote
        yield item

7、运行main.py后，在spider/item.json里将看到爬取的数据，以Unicode字符形式。

8、还可以保存为其他形式，如csv、xml，只需将item.json改为item.csv等。

数据存至数据库

1、建库建表

mysql -uroot -p 
Enter password:
create database scrapy;
use scrapy;
create table movie(id int auto_increment primary key, name varchar(255),rating varchar(10), quote varchar(255))default charset=utf8;

2、在setting.py中配置数据库连接

mysql_movie = {
    'host': "127.0.0.1",
    "port": 3306,
    "user": "root",
    "password": "pwd",
    "db": "scrapy"
}

3、在setting.py中将以下内容取消注释

4、在pipelines.py中连接数据库存储数据

pip install pymysql

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

from .settings import mysql_movie
import pymysql

class DoubanPipeline:
    def __init__(self):
        self.host = mysql_movie["host"]
        self.port = mysql_movie["port"]
        self.user = mysql_movie["user"]
        self.password = mysql_movie["password"]
        self.db = mysql_movie["db"]
        self.conn = pymysql.connect(host=self.host, port=self.port, user=self.user, password=self.password, db=self.db, charset='utf8')
        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):
        sql ='''insert into movie(name, rating, quote)values('%s','%s','%s')''' % (item["name"], item["rating_num"], item["quote"])
        try:
            self.cursor.execute(sql)
            self.conn.commit()
        except:
            self.conn.rollback()
        return item

5、运行main.py后，查询数据库

select * from movie;

其他

URL跟进（翻页）；在parse函数最后，跟新以下URL，scrapy框架会自动发起下一次请求

def parse(self, response):
    # 将得到的数据封装到一个DoubanItem对象
    item = DoubanItem()
    for each in response.xpath('//*[@id="content"]/div/div[1]/ol/li'):
        name = each.xpath('./div/div[2]/div[1]/a/span[1]/text()').extract_first()
        rating_num = each.xpath('./div/div[2]/div[2]/div/span[2]/text()').extract_first()
        quote = each.xpath('./div/div[2]/div[2]/p[2]/span/text()').extract_first()
        item['name'] = name
        item['rating_num'] = rating_num
        item['quote'] = quote
        yield item
    next_url = response.xpath('//*[@id="content"]/div/div[1]/div[2]/span[3]/link/@href').extract()
   if next_url:
       next_url = 'https://movie.douban.com/top250' + next_url[0]
       print(next_url)
       yield scrapy.Request(next_url, headers=self.headers)

为了做一个乖爬虫，且避免面向监狱编程，建议在setting.py至少开启以下两项：

最后

相信你跟我一样，过完本文，对scrapy已经有了一个大致的了解。

scrapy框架

Scrapy爬虫框架新手入门教程（爬虫框架 python）

安装

测试

新建工程

创建spider文件（以豆瓣电影为例）

架构(绿线是数据流向)

运作流程（个人理解）

制作步骤

在item中指明爬取字段

编写spider/movie.py

其他

最后

相关推荐

取消回复欢迎你发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

SpringBoot的starter到底是什么?

Scrapy爬虫框架新手入门教程（爬虫框架 python）

安装

测试

新建工程

创建spider文件（以豆瓣电影为例）

架构(绿线是数据流向)

运作流程（个人理解）

制作步骤

在item中指明爬取字段

编写spider/movie.py

其他

最后

相关推荐

取消回复欢迎 你 发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

SpringBoot的starter到底是什么?

取消回复欢迎你发表评论: