百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

用 Python 代码构建一个爬虫框架(编写一段python爬虫代码)

ccwgpt 2024-10-13 01:34 26 浏览 0 评论

点击头像看历史

xcrawler 是最开始构建的一个轻量级的爬虫框架

既然有了像 Scrapy 这样好的爬虫框架,那为何还要造轮子呢?

嗯是将 Python 知识综合起来

xcrawler

https://github.com/ChrisLeeGit/xcrawler

Scrapy

https://github.com/scrapy

Features

简单、易用

易于定制的 Spider

多线程实现并发下载

xcrawler 介绍

项目的结构

框架

Crawler engine (生产者+消费者模型)

配置介绍

Spider 基类关键方法介绍

  1. 1spider_started:该方法会在引擎启动时被触发调用,你可以通过继承该方法进行一些初始化工作,比如配置 pipeline 输出文件或者数据库连接等等;

  2. 2spider_idle:该方法会在引擎处理空闲状态(即没有任何 requests 在队列)时被触发调用,你可以通过继承该方法给引擎添加新的请求等(使用 3self.crawler.crawl(new_request, spider=self) 即可);

  3. spider_stopped:该方法会在引擎关闭时触发调用,你可以通过继承该方法并在 Spider 结束工作前做一些清理工作,如关闭文件管道、关闭数据库连接等;

  4. 4start_requests:该方法会为引擎提该 Spider 的对应种子请求;

  5. 5make_requests_from_url:该方法会为你的 URL 创建一个 Request 对象;

  6. 6parse:该方法为请求的默认解析函数回调,当然你可以可以在创建 Request 时指定其它的回调函数;

  7. 7process_request:每当引擎处理一个 Spider 对应的请求时,该方法会被触发调用,你可以通过继承该方法对 request 做些设置,比如更换随机的 User-Agent,替换 Cookies 或者代理等;当然,你可以将 request 设置为 None 从而忽略该请求;

  8. 8proccess_response:每当引擎处理一个 Spider 对应的响应时,该方法会被触发调用;

  9. 9process_item:每当引擎处理一个 Spider 对应的 item 时,该方法会被触发调用,你可以通过继承该方法将抓取并解析到的 item 存储到数据库或者本地文件中。

安装

  1. 在xcrawler (https://github.com/chrisleegit/xcrawler) 下载源码

    请保证你的安装环境为 Python 3.4+

  2. 请使用 pip3 setup.py install 安装即可。

学习过程中遇到什么问题或者想获取学习资源的话,欢迎加入学习交流群

626062078,我们一起学Python!

示例





相关推荐

5 分钟搭建 Node.js 微服务原型(node 微服务架构)

微服务已成为在Node.js中构建可扩展且强大的云应用的主流方法。同时也存在一些门槛,其中一些难点需要你在以下方面做出决策:组织项目结构。将自定义服务连接到第三方服务(数据库,消息代理等)处理微服...

当前的前端,真的不配叫程序员吗?

今天看到一个比较令人震惊的帖子,说前端不配叫程序员,令我很吃鲸,是谁我就不说了,帖子出处是一个大龄程序员组里面的,想想也不觉得奇怪了,毕竟对于年龄比较大的程序员来说,前端起步比较晚,最开始就是一个切图...

聊聊asp.net中Web Api的使用(asp.net core web api教程)

扯淡随着app应用的崛起,后端服务开发的也越来越多,除了很多优秀的nodejs框架之外,微软当然也会在这个方面提供更便捷的开发方式。这是微软一贯的作风,如果从开发的便捷性来说的话微软是当之无愧的老大哥...

NodeJS中,listen Access:permission denied解决办法

错误描述:Win10系统,NodeJS程序。使用express框架开发的http服务器,启动时出现错误提示“listenAccess:permissiondenied"。错误原因:这是由于...

Hono — 下一代高性能web框架(天融信下一代vnp)

最近公司可能要有变革,要统计我们的技能。真的是很无语,但是有没有办法。哎,问豆包吧提起Hono大家可能很陌生,这是什么?但是我提到Expressjs、nodejs想必前端小伙伴很熟悉啊。那么Hon...

生活例子说明线程,简单明了(列举一个日常生活中的例子以程序的形式表示)

1.程序设计的目标在我看来单从程序的角度来看,一个好的程序的目标应该是性能与用户体验的平衡。当然一个程序是否能够满足用户的需求暂且不谈,这是业务层面的问题,我们仅仅讨论程序本身。围绕两点来展开,性能...

Node实战006:自定义模块的创建和使用详解

Node的应用是由模块组成的,每个文件的定义都是一个模块(module变量代表当前模块)并有自己的作用域。Node遵循commonjs的模块规范,用来隔离每个模块的作用域,使每一个模块在自身的命名空间...

Node.js基本内容和知识点(node.js的概念)

简单的说Node.js就是运行在服务端的JavaScript,起初段定位是后端开发语言,由于技术的不够成熟,一般小型项目会完全使用node.js作为后台支撑,大项目中,运行不够稳定,不会轻易使用...

干货 | 如何利用Node.js 构建分布式集群

引言在软件定义的世界里,企业通过Web应用和移动应用程序来提供大部分的服务,Node.js迅速成为时下最为流行的一个平台之一,就和它可以搭建响应速度快、易于扩展的web应用和移动应用有很大关系,并凭...

nodejs mongodb 实现简易留言板(node.js留言板)

一个朋友问了一下mongodb的一些操作问题我就做了下面这个简单的留言板给他做一个实例希望能帮助到他express的框架就不说了express的问题请移步nodejs之expressht...

nodejs mqtt 智能售货机系统物联网控制系统源码分享

智能售货机系统(Moleintelligentvendingmachinesystem)是一套物联网控制系统性的解决方案。主要涉及到的语言和库有c,c++,js,nodejs,vue.js,...

为什么 Node.js 这么火,而同样异步模式 Python 框架 Twisted 却十几年一直不温不火?

说nodejs只是靠营销的是否太天真了些?当初nodejs出来的时候各种BUG,我简单的测试其大文件传输都会出现各种问题。而同時期的其他阵营早就甩其几条街了。但是为什么却能一直不断发展壮大?...

2020年14个最有用的NodeJS库(node用什么数据库)

Express快速,简单,极简的节点Web框架对…有好处·易于处理多种类型的请求,例如GET,PUT,POST和DELETE请求·快速构建单页,多页和混合Web应用程序每周下载1100万Lice...

连载:2016年最好的JS框架和库(下)

继续上一期的介绍:Agility.jsAgility.js是专为JS服务的MVC库,你可以免费编写可再用和可维护的浏览器代码,Agility支持Js,样式(CSS)、内容(HTML)和行为(JS)。C...

awesome-nodejs 终极资源库:60K+星标的开发者宝藏

Node.js终极资源库:60K+星标的开发者宝藏引言在GitHub上,有一个备受瞩目的Node.js资源仓库,以其惊人的60.6k星标量和6kfork量,成为了Node.js开发者的必备参考。这个...

取消回复欢迎 发表评论: