百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

大数据挖掘神器——scrapy spider爬虫框架(selectors 选择器)

ccwgpt 2024-09-27 07:29 120 浏览 0 评论

通过上期的简单介绍,我们已经可以新建一个简单的spider,但是细心的网友发现,我们在解析HTML网页的时候是:

tds = BeautifulSoup(response.text, 'lxml').find_all('tr', bgcolor='#FFFFFF')#解析网页

我们使用到了BeautifulSoup:

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,但是缺点慢。上期网友反馈使用其它解析,本期简单介绍一下scrapy的自带选择器(selectors)

选择器(Selectors)

当抓取网页时,我们主要的工作是从HTML源码中提取数据。当我们编写spider时,可以使用如下解析器来解析HTML网页数据:

  • BeautifulSoup 它基于HTML代码的结构来构造一个Python对象, 缺点:慢
  • lxml 是一个基于 ElementTree (不是Python标准库的一部分)的python化的XML解析库
  • scrapy自带解析器(selector),称之为选择器

Scrapy 选择器(seletors),通过特定的 XPath 或者 CSS 表达式来解析HTML文件中的某个部分。

XPath 是一门用来在XML文件中选择节点的语言,也可以用在HTML上。
CSS 是将HTML文档样式化的语言,与特定的HTML元素的样式相关连。
Scrapy选择器构建于 lxml 库之上,速度比BeautifulSoup快,比lxml简洁

我们通过修改上期的代码,正式了解一下XPath

import scrapy
import os
from scrapy.http import Request
from myproject.items import PowersItem
class PowersSpider(scrapy.Spider):
 #爬虫的名字
 name = "powers" 
 #允许爬取的域名
 allowed_domains = ["23us.so"] 
 #spider的第一个URL
 start_urls = ['http://www.23us.so/full.html']

使用response.xpath来解析HTML

#这里必须使用parse定义函数,因为scrapy设置的第一个调度函数
def parse(self, response):
#response.xpath解析
 tds = response.xpath("//tr[@bgcolor='#FFFFFF']/td[1]/a/text()")
 item = PowersItem() # item初始化
 for td in tds:
 novelname = td.extract() # 获取小说名字
 item['novelname'] = novelname # 获取到Items
 print(item)
 pass
>>>

Xpath选取节点

Xpath使用路径表达式在XML文档中选取节点。节点是通过沿着路径来选取的,通过路径可以找到我们想要的节点或者节点范围。

Xpath谓语(Predicates)

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

Xpath通配符

XPath 通配符可用来选取未知的 XML 元素,通配指定节点。

以上列取了Xpath的基本语法结构,关于Xpath的语法详细学习,大家可以到如下地址学习:w3school.com.cn/xpath/

下期预告

OK,我们后期会按照XPath与BeautifulSoup两条路线代码,来接着我们的爬虫工程。

谢谢大家的观看点赞与转发,关于分享的文章,大家有任何问题,可以在评论区一起探讨学习!!!

图片:http://tech.sina.com.cn/csj/2018-08-01/doc-ihhacrce6895159.shtml

相关推荐

公司组织架构及部门职责#管理制度 #薪酬绩效 #组织架构

...

终于把“公司组织架构与管理部岗位配置”整理好了,拿来即用!

...

老板看完这份“公司组织架构详解”就解放了!

...

丨公司丨公司大架构整理汇总

注:本文转自团队成员原创作品,特此鸣谢(公号:法海图鉴)今日话题公司大架构整理背景介绍经过前几期话题对各种企业类型的介绍,想必大家已经有了初步认识。之后我将带着大家开启对公司的深入了解。本期...

图解物理--八年级物理下册最全知识框架导图

第七章力1力2弹力3重力第八章运动和力1牛顿第一定律2二力平衡3摩擦力第九章压强1压强2液体压强3大气压强4流体压强与流速的关系第十章浮力1浮力2阿基米德原理3物体的浮沉条件及应用第十一章功...

八年级上册生物,思维导图,期末高分必备资料,家长收藏

这是八年级上册生物的思维导图,孩子在背诵知识点的时候,可以看一下知识点在导图中的位置,形成对知识点整体的把握,有助于学生拿高分,特别是图片中带红色星星的部分,更是要注意背诵,是重点内容。家长可以把图片...

2019政府工作报告精华,这张思维导图里全都有

每经记者:李可愚每经编辑:陈星每日经济新闻

图解薪酬体系结构设计

...

司考复习独家总结!一张图总结行政法知识结构体系

作为三大实体法之一,行政法的分值在60分左右,行政法在司法考试中一直比较平稳常规,没有偏题怪题,还是比较容易得分的。小编要提醒大家,在3月之前要把三大实体法学习一遍。下图是厚大在线360导学师小周总结...

一图读懂香港国安新架构:各职位人选公布 有官员曾强硬喊话乱港分子

实用干货!高中物理框架图,让零碎知识“串联”起来

高中物理学习一定要抓好逻辑结构大框架!了解整个知识框架体系后,更易抓住骨干知识,干掉重难知识点~今天给大家分享高中物理的框架图同学们赶紧收藏起来吧!力学知识结构图光学知识结构图热学、原子物理知识结构图...

254m超高层办公楼型钢砼框架-核心筒结构图

高度类别:超高层建筑钢筋混凝土结构:框架,框架核心筒钢结构:钢框架建筑功能:办公包含:办公楼57层(-3层)254.150m钻孔灌注桩桩+筏板型钢混凝土框架-钢筋混凝土核心筒西裙房2层(-...

砖混结构与框架结构,究竟有何区别?千万别被坑!

现在买房装修的人最怕啥?不是价格高,而是房子不安全!两种主流建筑结构,砖混靠墙,框架靠柱子,选错了隔墙都可能要命。简单说,砖混便宜但别碰高层,框架贵点但能保命。砖混那些承重墙根本不能拆,想砸墙改个开放...

大师一百——高中化学必考:《元素周期律》考点框架图

今天大师给大家带来的是高中化学的《元素周期律》考点框架图,高中的同学必须牢记于心,这种重要的考点,考试是一定会考的!化学大师...

需求分析框架图

需求分析框架图

取消回复欢迎 发表评论: