百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Python:Scrapy爬虫基础框架(python网络爬虫框架)

ccwgpt 2024-09-27 07:29 160 浏览 0 评论

当我们开始学习python爬虫的时候,都是先学习不同的爬虫库,然后开始通过单脚本来进行爬虫代码的编写,从数据提取到解析到存储都需要自己编写代码。但是Scrapy爬虫框架是可以将数据字段定义、网络请求和解析,数据处理和存储分不同的部分形成一个整体,极大的方便了代码的理解和编写。

针对Scrapy的安装网上有很多,这里就不一一介绍了,我们以简书网专题数据爬取为例来同步介绍相关定义和代码实践。

1、项目创建

创建一个Scrapy项目非常简单,一般快速创建可以通过终端直接输入如下代码:

scrapy startproject zhuanti_new

如果要在不同的文件中创建此项目,就需要先找到对应的文件路径,当然你也可以通过pycharm,直接在对应的文件中,点击左下角终端进行创建,项目就直接在对应的项目文件中创建了一个Scrapy项目

2、Scrapy项目文件介绍

通过下面截图可以看到一个Scrapy项目有哪些文件,同时还需要创建和生成哪些文件,接下来逐一介绍。

(1)最顶层的zhuanti_new文件夹是Scrapy的项目名称

(2)第2层有4个文件

第1个:和项目名称相同的文件,就是我们通常叫的爬虫包,所有的爬虫代码都在这个包里面

第2个:mian文件,是用来运行这个项目的主函数代码文件,代码写完后通过这个文件总体运行

第3个:配置文件,说明一下默认设置文件的位置为zhuanti_new模块下的settings文件,同时定义项目名称为:zhuanti_new

第4个:为存储爬取结果的txt文件


针对第一个文件里面的代码重点文件下面逐一介绍一下:

(1)items.py文件:定义爬虫抓取的字段信息

(2)pipelines.py文件:主要用于数据处理、清洗和存储

(3)settings.py:主要用于设置请求头、报警处理等相关问题

(4)zhuantispider.py文件:重点爬取数据过程的代码文件,也是新建立的文件

代码如下:


from zhuanti_new.items import ZhuantiNewItem
import scrapy
from scrapy.selector import Selector

class JianshuSpiderSpider(scrapy.Spider):
    name = 'zhuantispider'
    allowed_domains = ['jianshu.com']
    start_urls = ['https://www.jianshu.com/recommendations/collections?page=1&order_by=hot']
    #print(start_urls)

    def parse(self, response):
        '''解析外面页面'''
        selector = Selector(response)
        partical_urls = selector.re('<div class="count"><a target="_blank" href="(.*?)">', selector)
        for url in partical_urls:
            #print(url)
            right_url = response.urljoin(url)
            #print(right_url)
            parts = ['?order_by=added_at&page={0}'.format(k) for k in range(1, 11)]
            for part in parts:
                # 要爬取每个专题的前10个文章的信息
                real_url = right_url + part
                #print(real_url)
                yield scrapy.Request(real_url, callback=self.parse_detail)

        links = ['https://www.jianshu.com/recommendations/collections?page={}&order_by=hot'.format(i) for i in
                 range(2, 3)]
        for link in links:
            #print(link)
            request = scrapy.Request(link, callback=self.parse)
            yield request

    def parse_detail(self, response):
        selector = Selector(response)
        content = selector.xpath('//div[@class="content"]')
        for detail in content:
            try:
                title = detail.xpath('a[1]/text()').extract_first()
                summary = detail.xpath('p/text()').extract_first().strip()
                author = detail.xpath('div/a[1]/text()').extract_first()
                # comments = detail.xpath('div/a[2]/text()').extract_first()这样是不行的
                comments = detail.xpath('div/a[2]/text()').extract()[1].strip()
                likes = detail.xpath('div/span[1]/text()').extract_first().strip()
                money = detail.xpath('div/span[2]/text()').extract_first()

                item = ZhuantiNewItem()
                if money is not None:
                    item['title'] = title
                    item['summary'] = summary
                    item['author'] = author
                    item['comments'] = comments
                    item['likes'] = likes
                    item['money'] = money.strip()
                else:
                    item['title'] = title
                    item['summary'] = summary
                    item['author'] = author
                    item['comments'] = comments
                    item['likes'] = likes
                print(item)
                yield item
            except:
                pass


以上就是最主要的几个文件,对于初学者只要按照对应要求完成这几个文件的代码填写就可以爬取到数据。

3、案例运行及结果

现在开始运行整体代码,就需要创建上述的main文件了,具体main文件代码如下:

运行的爬虫文件为:zhuantispider,务必不要写成Scrapy项目名称

爬取运行结果如下:

以上就是一个简单的Scrapy项目的创建示例,是不是非常简单。

想了解更多python数据分析请关注公众号“机器学习算法与Python分析知识库”

相关推荐

公司组织架构及部门职责#管理制度 #薪酬绩效 #组织架构

...

终于把“公司组织架构与管理部岗位配置”整理好了,拿来即用!

...

老板看完这份“公司组织架构详解”就解放了!

...

丨公司丨公司大架构整理汇总

注:本文转自团队成员原创作品,特此鸣谢(公号:法海图鉴)今日话题公司大架构整理背景介绍经过前几期话题对各种企业类型的介绍,想必大家已经有了初步认识。之后我将带着大家开启对公司的深入了解。本期...

图解物理--八年级物理下册最全知识框架导图

第七章力1力2弹力3重力第八章运动和力1牛顿第一定律2二力平衡3摩擦力第九章压强1压强2液体压强3大气压强4流体压强与流速的关系第十章浮力1浮力2阿基米德原理3物体的浮沉条件及应用第十一章功...

八年级上册生物,思维导图,期末高分必备资料,家长收藏

这是八年级上册生物的思维导图,孩子在背诵知识点的时候,可以看一下知识点在导图中的位置,形成对知识点整体的把握,有助于学生拿高分,特别是图片中带红色星星的部分,更是要注意背诵,是重点内容。家长可以把图片...

2019政府工作报告精华,这张思维导图里全都有

每经记者:李可愚每经编辑:陈星每日经济新闻

图解薪酬体系结构设计

...

司考复习独家总结!一张图总结行政法知识结构体系

作为三大实体法之一,行政法的分值在60分左右,行政法在司法考试中一直比较平稳常规,没有偏题怪题,还是比较容易得分的。小编要提醒大家,在3月之前要把三大实体法学习一遍。下图是厚大在线360导学师小周总结...

一图读懂香港国安新架构:各职位人选公布 有官员曾强硬喊话乱港分子

实用干货!高中物理框架图,让零碎知识“串联”起来

高中物理学习一定要抓好逻辑结构大框架!了解整个知识框架体系后,更易抓住骨干知识,干掉重难知识点~今天给大家分享高中物理的框架图同学们赶紧收藏起来吧!力学知识结构图光学知识结构图热学、原子物理知识结构图...

254m超高层办公楼型钢砼框架-核心筒结构图

高度类别:超高层建筑钢筋混凝土结构:框架,框架核心筒钢结构:钢框架建筑功能:办公包含:办公楼57层(-3层)254.150m钻孔灌注桩桩+筏板型钢混凝土框架-钢筋混凝土核心筒西裙房2层(-...

砖混结构与框架结构,究竟有何区别?千万别被坑!

现在买房装修的人最怕啥?不是价格高,而是房子不安全!两种主流建筑结构,砖混靠墙,框架靠柱子,选错了隔墙都可能要命。简单说,砖混便宜但别碰高层,框架贵点但能保命。砖混那些承重墙根本不能拆,想砸墙改个开放...

大师一百——高中化学必考:《元素周期律》考点框架图

今天大师给大家带来的是高中化学的《元素周期律》考点框架图,高中的同学必须牢记于心,这种重要的考点,考试是一定会考的!化学大师...

需求分析框架图

需求分析框架图

取消回复欢迎 发表评论: