百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Python利器Scrapy入门:3分钟搞定网页数据抓取,小白变大神!

ccwgpt 2025-04-07 12:46 22 浏览 0 评论

还在手动复制粘贴网页信息?效率太低,还容易出错!想自动获取某个电商网站的最新价格?想批量下载一堆图书的简介?或者想实时追踪新闻头条?

想象一下,只需要几行Python代码,就能让一个自动化”小助手”帮你把整个网站的数据唰唰唰地抓下来,整理得整整齐齐,是不是很酷?

今天,老铁就带你认识一款Python爬虫领域的”瑞士军刀”——Scrapy框架,让你轻松从网页抓取数据,告别重复劳动,迈入自动化数据采集的大门!哪怕你是编程小白,看完这篇也能快速上手!

一、Scrapy是什么?为什么它这么牛?

简单来说,Scrapy 是一个为了爬取网站数据、提取结构性数据而编写的应用框架。你可以把它想象成一个高度优化的、装备精良的”数据搬运工队长”。

它内部主要有两个核心大将:

  1. Spider(爬虫): 这就是一线”侦察兵”,负责访问你指定的网页(URL),然后按照你给的指令(比如用CSS选择器),精准地找到并”抓取”你需要的数据,比如文章标题、商品价格、发布日期等等。
  2. Pipeline(管道): 这是后勤”处理中心”。Spider抓到原始数据(Item)后,就交给Pipeline。Pipeline可以对数据进行清洗、验证、去重,最后把你想要的数据存起来,比如保存成咱们常用的Excel能打开的CSV文件,或者存入数据库。



为啥推荐Scrapy?

  • 快! Scrapy采用异步处理,能同时处理多个请求,爬取效率超高。
  • 强! 内置了各种常用功能,如自动请求调度、处理Cookie和Session、应对重定向等。
  • 灵活! 可定制性强,可以通过中间件、扩展等轻松添加新功能。
  • 自动化! 结合Python,轻松构建自动化数据采集流水线,紧跟2025技术趋势!

咱们今天就用一个简单的BookScraper工具(基于Scrapy)作为例子,看看它是怎么把某书店网站
http://somebooks.someone.com/ 上的书籍信息抓下来的

(注:数据只作为演示用)

提醒:工具虽好,但请遵纪守法,切勿做触碰红线的事情!!!

二、实战演练:BookScraper工具抓书过程拆解

这个BookScraper小工具的目标就是:访问一个在线书店网站,把每本书的名字、价格、评分、库存状态、链接和描述都抓取下来,最后保存成一个CSV表格。



整个过程主要分三步:

Step 1: Spider出马,精准定位(books_spider.py)

Spider是整个抓取任务的起点和核心执行者。

  • 出发点 (start_urls): 告诉Spider从哪个网址开始访问,这里就是书店首页。
  • 找目标 (parse方法):Spider访问首页后,会调用parse方法。这个方法就像给Spider配了”火眼金睛”。它使用CSS选择器(一种网页元素的定位语法,比如h3 a::attr(title)就是说”找到h3标签里的a标签,并提取它的title属性值”)来找到页面上每一本书的信息块。提取出书名、价格、评分、库存和详情页链接。
  • 提示:爬虫绕不开HTML元素分析
# books_spider.py 简化示例
import scrapy
from ..items import ToscrapeBookItem # 导入定义好的数据结构

class ToscrapeBooksSpider(scrapy.Spider):
    name = "toscrape_books"
    start_urls = ["http://somebooks.someone.com/"]

    def parse(self, response):
        # 找到页面里所有包含书本信息的 
块 books_on_page = response.css('article.product_pod') for book in books_on_page: item = ToscrapeBookItem() # 创建一个容器准备装数据 # 用 CSS 选择器提取信息 item['title'] = book.css('h3 a::attr(title)').get() item['price'] = book.css('p.price_color::text').re_first(r"lb([\\d.]+)") # 提取价格数字 item['url'] = response.urljoin(book.css('h3 a::attr(href)').get()) # 拼接完整的详情页 URL # **重点**: 请求访问详情页,并指定回调函数处理详情页响应 yield scrapy.Request( url=item['url'], callback=self.parse_book_details, # 下一步交给这个函数处理 cb_kwargs={'item': item} # 把当前提取到的部分信息传过去 ) # 寻找"下一页"的链接,如果有就继续请求 next_page = response.css('li.next a::attr(href)').get() if next_page is not None: yield response.follow(next_page, callback=self.parse) # 继续调用 parse 处理下一页 def parse_book_details(self, response, item): # 这个函数专门处理详情页 # 提取书籍描述 item['content'] = response.css('#product_description + p::text').get(default='').strip() yield item # 把包含描述的完整 item 交给 Pipeline



  • 追根究底 (parse_book_details方法):拿到详情页链接后,Spider会再次发出请求。这次响应回来后,会调用parse_book_details方法,专门负责提取详情页里的书籍描述。最后,把包含所有信息(书名、价格、描述等)的完整Item(数据容器)交给下一步处理。
  • 翻山越岭 (处理分页):parse方法还会检查页面上有没有”下一页”的按钮。如果有,它会自动生成访问下一页的请求,并再次调用parse方法处理新页面,直到所有页面都被爬完。

Step 2: Pipeline接力,数据处理与保存 (pipelines.py)

Spider辛辛苦苦抓来的数据(Item),现在轮到Pipeline出场进行最后的处理和收尾工作。

  • 准备仓库 (open_spider方法): 在爬虫启动时,这个方法会被调用一次。它负责创建output_data目录(如果不存在),并打开一个CSV文件(toscrape_books_data.csv),然后写入表头(就是告诉CSV文件每一列是什么数据,比如title, price等)。
  • 加工入库 (process_item方法):每当Spider抓取到一本书的完整信息(一个Item)时,这个方法就会被调用。它接收到Item后,会按照open_spider里定好的表头顺序,把Item里的数据(书名、价格等)提取出来,排成一排。最后,调用CSV库的功能,把这一排数据作为新的一行写入到之前打开的CSV文件中。
# pipelines.py 简化示例
import csv
import os
from itemadapter import ItemAdapter

class CSVPipeline:
    def open_spider(self, spider):
        save_dir = 'output_data'
        os.makedirs(save_dir, exist_ok=True)
        file_path = os.path.join(save_dir, f'{spider.name}_data.csv')
        self.file = open(file_path, 'w', newline='', encoding='utf-8-sig')
        self.writer = csv.writer(self.file)
        # 假设 headers 是 ['title', 'price', 'rating', 'availability', 'url', 'content']
        self.headers = ['title', 'price', 'rating', 'availability', 'url', 'content'] # 实际代码会动态获取
        self.writer.writerow(self.headers) # 写入表头

    def close_spider(self, spider):
        self.file.close() # 爬虫结束时关闭文件

    def process_item(self, item, spider):
        adapter = ItemAdapter(item)
        # 按照表头顺序准备数据行
        row = [adapter.get(header) for header in self.headers]
        self.writer.writerow(row) # 将数据写入 CSV 文件的一行
        return item # **必须返回 item**,不然数据流就断了



  • 收尾工作 (close_spider方法): 当所有数据都抓取并处理完毕,爬虫准备收工时,这个方法被调用,负责关闭之前打开的CSV文件,确保所有数据都已安全写入。

Step 3: 启动!运行BookScraper工具

在项目目录下打开终端(命令行),输入简单的命令即可启动爬虫:

scrapy crawl toscrape_books

等待片刻,爬虫就会自动完成访问网页、提取数据、保存到CSV的全部流程。完成后,你会在output_data目录下找到一个toscrape_books_data.csv文件,里面就是抓取到的所有书籍信息啦!

效果是这样子滴:

三、进阶玩法与避坑指南

掌握了基础的Spider和Pipeline,你就打开了Scrapy世界的大门!

还能怎么玩?

  • 模拟登录: 抓取需要登录才能看的内容?Scrapy有招!
  • 下载文件/图片: 不止文本,图片、文档照样抓。
  • 对抗反爬: 设置代理IP、更换User-Agent(浏览器标识),跟网站”斗智斗勇”。
  • 结合AI: 把抓来的大量文本数据喂给大模型,做情感分析、内容摘要、甚至用AIGC生成新内容!自动化办公、内容创作都能用上。

新手注意避坑:

  • 遵守规则 (robots.txt): 爬虫虽好,但要讲武德。先查看网站的robots.txt文件,看哪些页面不允许爬取。切勿过度频繁请求,给网站服务器造成压力。做个有道德的爬虫开发者!
  • 遵纪守法: 请遵守法律法规,切勿做触碰红线的事情!!!
  • User-Agent: 有些网站会拒绝默认的Scrapy请求标识。可以在settings.py里把它改成常见的浏览器标识,假装自己是普通用户。
  • 动态内容 (JavaScript): 如果网页内容是靠JavaScript加载出来的(页面刚打开时看不到,要等一会儿才显示),基础Scrapy可能抓不到。这时需要请出更强大的工具,如Selenium或Playwright(这些是后话)。
  • 反爬机制: 遇到验证码、IP被封禁等情况,说明网站有反爬措施。这需要更复杂的策略来应对,是爬虫进阶路上必然会遇到的挑战。


(这个图帮你理解Scrapy内部请求、下载、响应、解析的基本循环)

总结

Scrapy框架就像一个强大的乐高套件,Spider负责找到并拿起你想要的”积木块”(数据),Pipeline则负责把这些积木块清洗、整理、并搭建成你最终想要的”模型”(如CSV文件)。

通过bookscraper这个小例子,我们看到了Scrapy如何自动化地完成网页数据抓取任务。虽然只是冰山一角,但足以展示其强大和便捷。

Python爬虫技术是数据时代的必备技能之一。掌握Scrapy,无论是做数据分析、自动化办公,还是进行AI训练,都能让你如虎添翼!

觉得有用?赶紧告诉给需要的朋友吧!对Scrapy或Python爬虫有任何问题,欢迎留言交流,老铁看到会回复的!后面还有更多Python和AI实战干货分享!

相关推荐

团队管理“布阵术”:3招让你的团队战斗力爆表!

为何古代军队能够以一当十?为何现代企业有的团队高效似“特种部队”,有的却松散若“游击队”?**答案正隐匿于“布阵术”之中!**今时今日,让我们从古代兵法里萃取3个核心要义,助您塑造一支战斗力爆棚的...

知情人士回应字节大模型团队架构调整

【知情人士回应字节大模型团队架构调整】财联社2月21日电,针对原谷歌DeepMind副总裁吴永辉加入字节跳动后引发的团队调整问题,知情人士回应称:吴永辉博士主要负责AI基础研究探索工作,偏基础研究;A...

豆包大模型团队开源RLHF框架,训练吞吐量最高提升20倍

强化学习(RL)对大模型复杂推理能力提升有关键作用,但其复杂的计算流程对训练和部署也带来了巨大挑战。近日,字节跳动豆包大模型团队与香港大学联合提出HybridFlow。这是一个灵活高效的RL/RL...

创业团队如何设计股权架构及分配(创业团队如何设计股权架构及分配方案)

创业团队的股权架构设计,决定了公司在随后发展中呈现出的股权布局。如果最初的股权架构就存在先天不足,公司就很难顺利、稳定地成长起来。因此,创业之初,对股权设计应慎之又慎,避免留下巨大隐患和风险。两个人如...

消息称吴永辉入职后引发字节大模型团队架构大调整

2月21日,有消息称前谷歌大佬吴永辉加入字节跳动,并担任大模型团队Seed基础研究负责人后,引发了字节跳动大模型团队架构大调整。多名原本向朱文佳汇报的算法和技术负责人开始转向吴永辉汇报。简单来说,就是...

31页组织效能提升模型,经营管理团队搭建框架与权责定位

分享职场干货,提升能力!为职场精英打造个人知识体系,升职加薪!31页组织效能提升模型如何拿到分享的源文件:请您关注本头条号,然后私信本头条号“文米”2个字,按照操作流程,专人负责发送源文件给您。...

异形柱结构(异形柱结构技术规程)

下列关于混凝土异形柱结构设计的说法,其中何项正确?(A)混凝土异形柱框架结构可用于所有非抗震和抗震设防地区的一般居住建筑。(B)抗震设防烈度为6度时,对标准设防类(丙类)采用异形柱结构的建筑可不进行地...

职场干货:金字塔原理(金字塔原理实战篇)

金字塔原理的适用范围:金字塔原理适用于所有需要构建清晰逻辑框架的文章。第一篇:表达的逻辑。如何利用金字塔原理构建基本的金字塔结构受众(包括读者、听众、观众或学员)最容易理解的顺序:先了解主要的、抽象的...

底部剪力法(底部剪力法的基本原理)

某四层钢筋混凝土框架结构,计算简图如图1所示。抗震设防类别为丙类,抗震设防烈度为8度(0.2g),Ⅱ类场地,设计地震分组为第一组,第一自振周期T1=0.55s。一至四层的楼层侧向刚度依次为:K1=1...

结构等效重力荷载代表值(等效重力荷载系数)

某五层钢筋混凝土框架结构办公楼,房屋高度25.45m。抗震设防烈度8度,设防类别丙类,设计基本地震加速度0.2g,设计地震分组第二组,场地类别为Ⅱ类,混凝土强度等级C30。该结构平面和竖向均规则。假定...

体系结构已成昭告后世善莫大焉(体系构架是什么意思)

实践先行也理论已初步完成框架结构留余后人后世子孙俗话说前人栽树后人乘凉在夏商周大明大清民国共和前人栽树下吾之辈已完成结构体系又俗话说青出于蓝而胜于蓝各个时期任务不同吾辈探索框架结构体系经历有限肯定发展...

框架柱抗震构造要求(框架柱抗震设计)

某现浇钢筋混凝土框架-剪力墙结构高层办公楼,抗震设防烈度为8度(0.2g),场地类别为Ⅱ类,抗震等级:框架二级,剪力墙一级,混凝土强度等级:框架柱及剪力墙C50,框架梁及楼板C35,纵向钢筋及箍筋均采...

梁的刚度、挠度控制(钢梁挠度过大会引起什么原因)

某办公楼为现浇钢筋混凝土框架结构,r0=1.0,混凝土强度等级C35,纵向钢筋采用HRB400,箍筋采用HPB300。其二层(中间楼层)的局部平面图和次梁L-1的计算简图如图1~3(Z)所示,其中,K...

死要面子!有钱做大玻璃窗,却没有钱做“柱和梁”,不怕房塌吗?

活久见,有钱做2层落地大玻璃窗,却没有钱做“柱子和圈梁”,这样的农村自建房,安全吗?最近刷到个魔幻施工现场,如下图,这栋5开间的农村自建房,居然做了2个全景落地窗仔细观察,这2个落地窗还是飘窗,为了追...

不是承重墙,物业也不让拆?话说装修就一定要拆墙才行么

最近发现好多朋友装修时总想拆墙“爆改”空间,别以为只要避开承重墙就能随便砸!我家楼上邻居去年装修,拆了阳台矮墙想扩客厅,结果物业直接上门叫停。后来才知道,这种配重墙拆了会让阳台承重失衡,整栋楼都可能变...

取消回复欢迎 发表评论: