练习:nodejs爬虫爬取豆瓣评分(python爬取豆瓣250)
ccwgpt 2024-11-07 09:47 26 浏览 0 评论
之前玩千里码的时候,有这么一个题目,如下:Google,Baidu的两大技术:爬虫和搜索。爬虫负责抓取整个互联网的内容,搜索负责生成索引供用户检索。所以爬虫算是这两个公司的看家本领了。 但是Google和Baidu的爬虫技术是不公开的,算是商业机密了。所以360搜索刚起步的时候第一件事就是挖百度的核心搜索爬虫组的程序员,基本是3倍工资起挖(跪求360公司来辟谣)。 虽然没办法知道这两家公司的爬虫技术,但是我们可以通过开源项目来学习。比如Scrapy就是一个非常优秀开源的爬虫框架,如果对爬虫有兴趣的话可以深入学习该框架。
简单地讲,爬虫分为两个步骤:
- 把页面源码下载下来
- 解析下载下来的页面,得到我们想要的数据
- 在第一步中,可能会需要登录,需要绕开网站的反爬虫机制等等。在第二步中则需要使用XPath、CSS Selector、正则表达式等工具来进行解析。
这里通过一个非常简单的任务来让大家感受一下爬虫: 豆瓣电影Top250收录了至今为止,大家最喜欢的250部电影。 该列表呈现了每部电影的评分,年份等基本信息。 这题的答案很简单,就是这个榜单的前166部电影的评分总和。 举例: 目前排第一的《肖申克的救赎》是9.6分,第二的《这个杀手不太冷》是9.4分,第三的《阿甘正传》是9.4分。 那么前3部电影的总分为9.6+9.4+9.4=28.4。
以下为具体实现代码:
var url = 'https://movie.douban.com/top250?start=';
//需要统计166部,每页25条
var superagent = require('superagent');
var cheerio = require('cheerio');
var numArr = [];
var getNext = function(path,start){
var tempPath = path+start;
superagent.get(tempPath).set({
'cookie':'bid=xEbtZyJpLBs; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1474114942%2C%22http%3A%2F%2Fwww.qlcoder.com%2Ftask%2F7560%22%5D; _pk_id.100001.4cf6=ebdb1fdadde80a53.1474114942.1.1474115010.1474114942.; _pk_ses.100001.4cf6=*; __utma=30149280.834196820.1474114942.1474114942.1474114942.1; __utmb=30149280.0.10.1474114942; __utmc=30149280; __utmz=30149280.1474114942.1.1.utmcsr=qlcoder.com|utmccn=(referral)|utmcmd=referral|utmcct=/task/7560; __utma=223695111.500893696.1474114942.1474114942.1474114942.1; __utmb=223695111.0.10.1474114942; __utmc=223695111; __utmz=223695111.1474114942.1.1.utmcsr=qlcoder.com|utmccn=(referral)|utmcmd=referral|utmcct=/task/7560'
}).end(function(err,res){
var text = res.text;
var $ = cheerio.load(text);
var flag = false;
$('.rating_num').each(function(index,ele){
var num = $(ele).html();
num = parseFloat(num);
if(numArr.length == 166){
flag = true;
countNum ();
}
if(!flag){
numArr.push(num);
}
});
if(!flag){
getNext(path,start+25);
}
});
};
var countNum = function(){
var total = 0 ;
for(var i=0,max=numArr.length;i<max;i++){
total += numArr[i];
}
console.log('answer : '+ total);
};
getNext(url,0);
实现思路:
- 首先通过 superagent模块爬取页面
- 然后将内容通过cheerio进行解析为DOM节点
- 根据页面DOM,通过选择器获得需要的数据
- 将一个页面的评分数据获得,并push到[]中
- 循环爬取其他页面,如果量不大,可以一个一个来,但是如果数据很多、量很大的话,这样效率就很低了,此时可以考虑通过async 来进行并发获取
- 最后通过计算,获得结果;
相关推荐
- 用Deepseek扩写土木工程毕业论文实操指南
-
用Deepseek扩写毕业论文实操指南一、前期准备整理现有论文初稿/提纲列清楚论文核心框架(背景、现状、意义、方法、数据、结论等)梳理好关键文献,明确核心技术路线二、Deepseek扩写核心思路...
- 985学霸亲授,DeepSeek也能绘6大科研图表,5分钟就出图
-
在实验数据处理中,高效可视化是每个科研人的必修课。传统绘图软件操作复杂、耗时费力,而智能工具DeepSeek的出现彻底改变了这一现状。本文将详解如何用DeepSeek一键生成六大科研常用图表,从思维导...
- AI写论文刷屏?大学生正在丢掉的思考力
-
一、宿舍深夜:当论文变成"Ctrl+C+V"凌晨两点的大学宿舍,小王对着电脑屏幕叹气。本该三天前开始写的近代史论文,此刻还一片空白。他熟练打开某AI写作网站,输入"论五四运动的...
- Grok在辅助论文写作上能不能既“聪明”又“可怕”?!
-
AcademicIdeas-学境思源AI初稿写作随着人工智能技术的飞速发展,论文写作这一学术任务正迎来新的助力。2025年2月18日,美国xAI公司推出了备受瞩目的Grok3模型,其创始人埃隆·...
- 大四论文沟通场景!音频转文字难题听脑AI来化解
-
大四学生都知道,写论文时和导师沟通修改意见,简直是“过关斩将”。电话、语音沟通完,想把导师说的修改方向、重点要求记下来,麻烦事儿可不少。手写记不全,用普通录音转文字工具,转完还得自己慢慢找重点,稍不注...
- 论文写作 | 技术路线图怎么画?(提供经典优秀模板参考)
-
技术路线图是一种图表或文字说明,用于描述研究目标、方法和实施计划。它展示了研究的整体框架和步骤,有助于读者理解研究的逻辑和进展。在课题及论文中,技术路线图是常见的一部分,甚至是一个类似心脏一样的中枢器...
- 25年信息系统项目管理师考试第2批论文题目写作建议思路框架
-
25年信息系统项目管理师考试第2批论文题目写作建议思路框架--马军老师
- 微信购物应尽快纳入法律框架(微信购物管辖)
-
符向军近日,甘肃省工商行政管理局发布《2016年上半年信息分析报告》。报告显示,微信网购纠纷迅猛增长,网络购物投诉呈上升趋势。投诉的主要问题有出售的商品质量不过关、消费者通过微信付款后对方不发货、购买...
- 泛珠三角区域网络媒体与腾讯微信签署《战略合作框架协议》
-
新海南客户端、南海网7月14日消息(记者任桐)7月14日上午,参加第四届泛珠三角区域合作网络媒体论坛的区域网络媒体负责人及嘉宾一行到腾讯微信总部座谈交流,并签署《战略合作框架协议》(以下简称《框架协...
- 离线使用、植入微信-看乐心Mambo手环如何打破框架
-
从2014年开始智能手环就成功进入人们的生活,至今已经演变出数据监测、信息推送、心率监测等诸多五花八门的功能,人们选择智能手环并不指望其能够改变身体健康情况,更多的是通过数据来正视自身运动情况和身体健...
- 华专网络:如何零基础制作一个网站出来?
-
#如何零基础制作一个网站出来?#你是不是觉得网站建设很复杂,觉得自己是小白,需求不明确、流程搞不懂、怕被外包公司坑……这些问题我都懂!今天华专网络就用大白话给你捋清楚建站的全流程,让你轻松get网站制...
- WAIC2024丨明日上午9点,不见不散!共同探讨智能社会与全球治理框架
-
大咖云集,硕果闪耀WAIC2024世界人工智能大会智能社会论坛将于7月5日9:00-12:00与你相约直播间WAIC2024上海杨浦同济大学哔哩哔哩多平台同步直播探讨智能社会与全球治理框架WAIC...
- 约基奇:森林狼换来戈贝尔时大家都在嘲笑 他们的阵容框架很不错
-
直播吧5月4日讯西部季后赛半决赛,掘金将迎战森林狼,约基奇赛前接受采访。约基奇说道:“当蒂姆-康纳利(森林狼总经理、前掘金总经理&曾选中约基奇)做了那笔交易(换来戈贝尔)时,每个人都在嘲笑他...
- 视频号带货为什么一个流量都没有?顶级分析框架送给你
-
视频号带货为什么一个流量都没有?遇到问题,一定是步步来分析内容,视频号带货一个流量都没有,用另外一个意思来讲,就可以说是零播放。为什么视频号带货一个流量都没有?跟你说再多,都不如来个分析框架。1、是否...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- JAVA集合框架 (47)
- grpc框架 (55)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)