快速用NodeJs编写一个爬虫抓取网站数据
ccwgpt 2024-11-07 09:47 32 浏览 0 评论
首先需要熟悉nodejs 中的request模块。
request 其实就是简化版的第三方类http模块,同时支持https 和重定向。
下面是它的简单用法:
默认是get方法,还有post方法,但我们今天要做的爬虫用不到post就不讲了。
var request = require('request'); request('url你的请求', function (error, response, body) { if (!error && response.statusCode == 200) { console.log(body) // 请求成功的处理逻辑 } });
其次要熟悉cheerio模块
cheerio是为服务器特别定制的,快速、灵活、实施的jQuery核心实现。简单,易用,灵活,反正你会用jQuery就可以使用它,当然也会有一些细微的差别。
举个例子:
// 引入cheerio模块 const cheerio = require('cheerio') // 加载HTML字符串 const $ = cheerio.load('<h4 class="title">Hello world</h4>') // 设置Text $('h4.title').text('Hello there!') // 添加class $('h4').addClass('welcome') // 获取完整HTML $.html() //=> <html><head></head><body> // <h4 class="title welcome">Hello there!</h4></body></html>
使用iconv-lite来搞定乱码问题
nodejs只支持utf-8,node没有提供转换编码的原生支持,iconv-lite,可以实现编码转换,
举个例子:
var http = require("http"); var iconv = require("iconv-lite"); var url = "http://hq.sinajs.cn/list=sh600595"; var req = http.request(url, function(res){ res.on('data',function(data){ data = iconv.decode(data, 'GBK'); console.log(data); }); }); req.end();
了解了上面的代码就差不多了,接下来开始完成网络爬虫代码编写:
const request = require('request'); const cheerio = require('cheerio'); var iconv = require('iconv-lite'); var options = { url: "https://jiage.autohome.com.cn/price/carlist/p-35368", method: 'GET', encoding: null } request(options, function(error, response, body) { classList = []; if (!error && response.statusCode === 200) { var buf = iconv.decode(body, 'utf8').toString(); //解码gb2312 var $ = cheerio.load(buf); // 导航 _src = $(".caricon-list dd a").each(async function(index) { var $me = $(this); if (index > 0 && index < 9) { var item = { id: index, url: $me.attr('href'), name: $me.children('span').text() || "未知" }; let url = $me.attr('href'); let name = $me.children('span').text() || "未知"; try { const car = await MyClassList.insert({ url: url, name: name }) } catch (e) { console.log(e) } classList.push(item); } })
上面的代码是request读取到页面上的数据,然后使用iconv解决乱码问题,在使用cheerio把我们需要的数据取出来重新整理,以备后续使用。
鉴于篇幅限制,后续代码介绍请持续关注。
相关推荐
- 用Deepseek扩写土木工程毕业论文实操指南
-
用Deepseek扩写毕业论文实操指南一、前期准备整理现有论文初稿/提纲列清楚论文核心框架(背景、现状、意义、方法、数据、结论等)梳理好关键文献,明确核心技术路线二、Deepseek扩写核心思路...
- 985学霸亲授,DeepSeek也能绘6大科研图表,5分钟就出图
-
在实验数据处理中,高效可视化是每个科研人的必修课。传统绘图软件操作复杂、耗时费力,而智能工具DeepSeek的出现彻底改变了这一现状。本文将详解如何用DeepSeek一键生成六大科研常用图表,从思维导...
- AI写论文刷屏?大学生正在丢掉的思考力
-
一、宿舍深夜:当论文变成"Ctrl+C+V"凌晨两点的大学宿舍,小王对着电脑屏幕叹气。本该三天前开始写的近代史论文,此刻还一片空白。他熟练打开某AI写作网站,输入"论五四运动的...
- Grok在辅助论文写作上能不能既“聪明”又“可怕”?!
-
AcademicIdeas-学境思源AI初稿写作随着人工智能技术的飞速发展,论文写作这一学术任务正迎来新的助力。2025年2月18日,美国xAI公司推出了备受瞩目的Grok3模型,其创始人埃隆·...
- 大四论文沟通场景!音频转文字难题听脑AI来化解
-
大四学生都知道,写论文时和导师沟通修改意见,简直是“过关斩将”。电话、语音沟通完,想把导师说的修改方向、重点要求记下来,麻烦事儿可不少。手写记不全,用普通录音转文字工具,转完还得自己慢慢找重点,稍不注...
- 论文写作 | 技术路线图怎么画?(提供经典优秀模板参考)
-
技术路线图是一种图表或文字说明,用于描述研究目标、方法和实施计划。它展示了研究的整体框架和步骤,有助于读者理解研究的逻辑和进展。在课题及论文中,技术路线图是常见的一部分,甚至是一个类似心脏一样的中枢器...
- 25年信息系统项目管理师考试第2批论文题目写作建议思路框架
-
25年信息系统项目管理师考试第2批论文题目写作建议思路框架--马军老师
- 微信购物应尽快纳入法律框架(微信购物管辖)
-
符向军近日,甘肃省工商行政管理局发布《2016年上半年信息分析报告》。报告显示,微信网购纠纷迅猛增长,网络购物投诉呈上升趋势。投诉的主要问题有出售的商品质量不过关、消费者通过微信付款后对方不发货、购买...
- 泛珠三角区域网络媒体与腾讯微信签署《战略合作框架协议》
-
新海南客户端、南海网7月14日消息(记者任桐)7月14日上午,参加第四届泛珠三角区域合作网络媒体论坛的区域网络媒体负责人及嘉宾一行到腾讯微信总部座谈交流,并签署《战略合作框架协议》(以下简称《框架协...
- 离线使用、植入微信-看乐心Mambo手环如何打破框架
-
从2014年开始智能手环就成功进入人们的生活,至今已经演变出数据监测、信息推送、心率监测等诸多五花八门的功能,人们选择智能手环并不指望其能够改变身体健康情况,更多的是通过数据来正视自身运动情况和身体健...
- 华专网络:如何零基础制作一个网站出来?
-
#如何零基础制作一个网站出来?#你是不是觉得网站建设很复杂,觉得自己是小白,需求不明确、流程搞不懂、怕被外包公司坑……这些问题我都懂!今天华专网络就用大白话给你捋清楚建站的全流程,让你轻松get网站制...
- WAIC2024丨明日上午9点,不见不散!共同探讨智能社会与全球治理框架
-
大咖云集,硕果闪耀WAIC2024世界人工智能大会智能社会论坛将于7月5日9:00-12:00与你相约直播间WAIC2024上海杨浦同济大学哔哩哔哩多平台同步直播探讨智能社会与全球治理框架WAIC...
- 约基奇:森林狼换来戈贝尔时大家都在嘲笑 他们的阵容框架很不错
-
直播吧5月4日讯西部季后赛半决赛,掘金将迎战森林狼,约基奇赛前接受采访。约基奇说道:“当蒂姆-康纳利(森林狼总经理、前掘金总经理&曾选中约基奇)做了那笔交易(换来戈贝尔)时,每个人都在嘲笑他...
- 视频号带货为什么一个流量都没有?顶级分析框架送给你
-
视频号带货为什么一个流量都没有?遇到问题,一定是步步来分析内容,视频号带货一个流量都没有,用另外一个意思来讲,就可以说是零播放。为什么视频号带货一个流量都没有?跟你说再多,都不如来个分析框架。1、是否...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- JAVA集合框架 (47)
- grpc框架 (55)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)