当前位置：网站首页 > 技术文章 > 正文

Python利器Scrapy入门:3分钟搞定网页数据抓取，小白变大神!

ccwgpt 2025-04-07 12:46 36 浏览 0 评论

还在手动复制粘贴网页信息？效率太低，还容易出错！想自动获取某个电商网站的最新价格？想批量下载一堆图书的简介？或者想实时追踪新闻头条？

想象一下，只需要几行Python代码，就能让一个自动化”小助手”帮你把整个网站的数据唰唰唰地抓下来，整理得整整齐齐，是不是很酷？

今天，老铁就带你认识一款Python爬虫领域的”瑞士军刀”——Scrapy框架，让你轻松从网页抓取数据，告别重复劳动，迈入自动化数据采集的大门！哪怕你是编程小白，看完这篇也能快速上手！

一、Scrapy是什么？为什么它这么牛？

简单来说，Scrapy 是一个为了爬取网站数据、提取结构性数据而编写的应用框架。你可以把它想象成一个高度优化的、装备精良的”数据搬运工队长”。

它内部主要有两个核心大将：

Spider（爬虫）：这就是一线”侦察兵”，负责访问你指定的网页（URL），然后按照你给的指令（比如用CSS选择器），精准地找到并”抓取”你需要的数据，比如文章标题、商品价格、发布日期等等。
Pipeline（管道）：这是后勤”处理中心”。Spider抓到原始数据（Item）后，就交给Pipeline。Pipeline可以对数据进行清洗、验证、去重，最后把你想要的数据存起来，比如保存成咱们常用的Excel能打开的CSV文件，或者存入数据库。

为啥推荐Scrapy？

快！ Scrapy采用异步处理，能同时处理多个请求，爬取效率超高。
强！内置了各种常用功能，如自动请求调度、处理Cookie和Session、应对重定向等。
灵活！ 可定制性强，可以通过中间件、扩展等轻松添加新功能。
自动化！ 结合Python，轻松构建自动化数据采集流水线，紧跟2025技术趋势！

咱们今天就用一个简单的BookScraper工具（基于Scrapy）作为例子，看看它是怎么把某书店网站
http://somebooks.someone.com/ 上的书籍信息抓下来的

(注：数据只作为演示用)

提醒：工具虽好，但请遵纪守法，切勿做触碰红线的事情！！！

二、实战演练：BookScraper工具抓书过程拆解

这个BookScraper小工具的目标就是：访问一个在线书店网站，把每本书的名字、价格、评分、库存状态、链接和描述都抓取下来，最后保存成一个CSV表格。

整个过程主要分三步：

Step 1: Spider出马，精准定位（books_spider.py）

Spider是整个抓取任务的起点和核心执行者。

出发点 (start_urls): 告诉Spider从哪个网址开始访问，这里就是书店首页。
找目标 (parse方法):Spider访问首页后，会调用parse方法。这个方法就像给Spider配了”火眼金睛”。它使用CSS选择器（一种网页元素的定位语法，比如h3 a::attr(title)就是说”找到h3标签里的a标签，并提取它的title属性值”）来找到页面上每一本书的信息块。提取出书名、价格、评分、库存和详情页链接。
提示：爬虫绕不开HTML元素分析

# books_spider.py 简化示例
import scrapy
from ..items import ToscrapeBookItem # 导入定义好的数据结构

class ToscrapeBooksSpider(scrapy.Spider):
    name = "toscrape_books"
    start_urls = ["http://somebooks.someone.com/"]

    def parse(self, response):
        # 找到页面里所有包含书本信息的  块
        books_on_page = response.css('article.product_pod')
        for book in books_on_page:
            item = ToscrapeBookItem() # 创建一个容器准备装数据
            # 用 CSS 选择器提取信息
            item['title'] = book.css('h3 a::attr(title)').get()
            item['price'] = book.css('p.price_color::text').re_first(r"lb([\\d.]+)") # 提取价格数字
            item['url'] = response.urljoin(book.css('h3 a::attr(href)').get()) # 拼接完整的详情页 URL

            # **重点**: 请求访问详情页，并指定回调函数处理详情页响应
            yield scrapy.Request(
                url=item['url'],
                callback=self.parse_book_details, # 下一步交给这个函数处理
                cb_kwargs={'item': item} # 把当前提取到的部分信息传过去
            )

        # 寻找"下一页"的链接，如果有就继续请求
        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse) # 继续调用 parse 处理下一页

    def parse_book_details(self, response, item):
        # 这个函数专门处理详情页
        # 提取书籍描述
        item['content'] = response.css('#product_description + p::text').get(default='').strip()
        yield item # 把包含描述的完整 item 交给 Pipeline

追根究底 (parse_book_details方法):拿到详情页链接后，Spider会再次发出请求。这次响应回来后，会调用parse_book_details方法，专门负责提取详情页里的书籍描述。最后，把包含所有信息（书名、价格、描述等）的完整Item（数据容器）交给下一步处理。
翻山越岭 (处理分页):parse方法还会检查页面上有没有”下一页”的按钮。如果有，它会自动生成访问下一页的请求，并再次调用parse方法处理新页面，直到所有页面都被爬完。

Step 2: Pipeline接力，数据处理与保存 (pipelines.py)

Spider辛辛苦苦抓来的数据（Item），现在轮到Pipeline出场进行最后的处理和收尾工作。

准备仓库 (open_spider方法): 在爬虫启动时，这个方法会被调用一次。它负责创建output_data目录（如果不存在），并打开一个CSV文件（toscrape_books_data.csv），然后写入表头（就是告诉CSV文件每一列是什么数据，比如title, price等）。
加工入库 (process_item方法):每当Spider抓取到一本书的完整信息（一个Item）时，这个方法就会被调用。它接收到Item后，会按照open_spider里定好的表头顺序，把Item里的数据（书名、价格等）提取出来，排成一排。最后，调用CSV库的功能，把这一排数据作为新的一行写入到之前打开的CSV文件中。

# pipelines.py 简化示例
import csv
import os
from itemadapter import ItemAdapter

class CSVPipeline:
    def open_spider(self, spider):
        save_dir = 'output_data'
        os.makedirs(save_dir, exist_ok=True)
        file_path = os.path.join(save_dir, f'{spider.name}_data.csv')
        self.file = open(file_path, 'w', newline='', encoding='utf-8-sig')
        self.writer = csv.writer(self.file)
        # 假设 headers 是 ['title', 'price', 'rating', 'availability', 'url', 'content']
        self.headers = ['title', 'price', 'rating', 'availability', 'url', 'content'] # 实际代码会动态获取
        self.writer.writerow(self.headers) # 写入表头

    def close_spider(self, spider):
        self.file.close() # 爬虫结束时关闭文件

    def process_item(self, item, spider):
        adapter = ItemAdapter(item)
        # 按照表头顺序准备数据行
        row = [adapter.get(header) for header in self.headers]
        self.writer.writerow(row) # 将数据写入 CSV 文件的一行
        return item # **必须返回 item**，不然数据流就断了

收尾工作 (close_spider方法): 当所有数据都抓取并处理完毕，爬虫准备收工时，这个方法被调用，负责关闭之前打开的CSV文件，确保所有数据都已安全写入。

Step 3: 启动！运行BookScraper工具

在项目目录下打开终端（命令行），输入简单的命令即可启动爬虫：

scrapy crawl toscrape_books

等待片刻，爬虫就会自动完成访问网页、提取数据、保存到CSV的全部流程。完成后，你会在output_data目录下找到一个toscrape_books_data.csv文件，里面就是抓取到的所有书籍信息啦！

效果是这样子滴：

三、进阶玩法与避坑指南

掌握了基础的Spider和Pipeline，你就打开了Scrapy世界的大门！

还能怎么玩？

模拟登录: 抓取需要登录才能看的内容？Scrapy有招！
下载文件/图片: 不止文本，图片、文档照样抓。
对抗反爬: 设置代理IP、更换User-Agent（浏览器标识），跟网站”斗智斗勇”。
结合AI: 把抓来的大量文本数据喂给大模型，做情感分析、内容摘要、甚至用AIGC生成新内容！自动化办公、内容创作都能用上。

新手注意避坑：

遵守规则 (robots.txt): 爬虫虽好，但要讲武德。先查看网站的robots.txt文件，看哪些页面不允许爬取。切勿过度频繁请求，给网站服务器造成压力。做个有道德的爬虫开发者！
遵纪守法: 请遵守法律法规，切勿做触碰红线的事情！！！
User-Agent: 有些网站会拒绝默认的Scrapy请求标识。可以在settings.py里把它改成常见的浏览器标识，假装自己是普通用户。
动态内容 (JavaScript): 如果网页内容是靠JavaScript加载出来的（页面刚打开时看不到，要等一会儿才显示），基础Scrapy可能抓不到。这时需要请出更强大的工具，如Selenium或Playwright（这些是后话）。
反爬机制: 遇到验证码、IP被封禁等情况，说明网站有反爬措施。这需要更复杂的策略来应对，是爬虫进阶路上必然会遇到的挑战。

（这个图帮你理解Scrapy内部请求、下载、响应、解析的基本循环）

总结

Scrapy框架就像一个强大的乐高套件，Spider负责找到并拿起你想要的”积木块”（数据），Pipeline则负责把这些积木块清洗、整理、并搭建成你最终想要的”模型”（如CSV文件）。

通过bookscraper这个小例子，我们看到了Scrapy如何自动化地完成网页数据抓取任务。虽然只是冰山一角，但足以展示其强大和便捷。

Python爬虫技术是数据时代的必备技能之一。掌握Scrapy，无论是做数据分析、自动化办公，还是进行AI训练，都能让你如虎添翼！

觉得有用？赶紧告诉给需要的朋友吧！对Scrapy或Python爬虫有任何问题，欢迎留言交流，老铁看到会回复的！后面还有更多Python和AI实战干货分享！

scrapy爬虫框架

上一篇：深入探索Scrapy框架:Python爬虫的强大工具
下一篇：谁是2020年最强Python库?年度Top10出炉

Python利器Scrapy入门:3分钟搞定网页数据抓取，小白变大神!

一、Scrapy是什么？为什么它这么牛？

二、实战演练：BookScraper工具抓书过程拆解

三、进阶玩法与避坑指南

总结

相关推荐

取消回复欢迎你发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

SpringBoot的starter到底是什么?

Python利器Scrapy入门:3分钟搞定网页数据抓取，小白变大神!

一、Scrapy是什么？为什么它这么牛？

二、实战演练：BookScraper工具抓书过程拆解

三、进阶玩法与避坑指南

总结

相关推荐

取消回复欢迎 你 发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

SpringBoot的starter到底是什么?

取消回复欢迎你发表评论: