怎么做好网站分析这个项目,大数据行业必读
ccwgpt 2024-10-01 08:19 33 浏览 0 评论
导读: 网站分析也称Web分析(web analytics)。一言以蔽之,对于网站分析,个人的理解是:网站分析通过对网站各项数据指标进行解读与分析,从而了解和归纳网站浏览者的行为及洞察行为背后的需求,有针对性地对网站进行整体或细节的改善,提升网站运营水平和更好的满足网站用户需求。总之,网站分析是网站运营的一个核心模块。网站运营人员通过网站分析来改善网站和提高业绩。
下面就简单介绍一下在网站分析项目中用到的几个知识点简介
1,HDFS简介
HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统
HDFS有很多特点:
① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。
② 运行在廉价的机器上。
③ 适合大数据的处理。多大?多小?HDFS默认会将文件分割成block,64M为1个block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中。如果小文件太多,那内存的负担会很重。
如上图所示,HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。
1,NameNode:是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间;
2,SecondaryNameNode:是一个小弟,分担大哥namenode的工作量;是NameNode的冷备份;合并fsimage和fsedits然后再发给namenode。
3, DataNode:Slave节点,奴隶,干活的。负责存储client发来的数据块block;执行数据块的读写操作。
4,热备份:b是a的热备份,如果a坏掉。那么b马上运行代替a的工作。
5,冷备份:b是a的冷备份,如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息,减少a坏掉之后的损失。
6, fsimage:元数据镜像文件(文件系统的目录树。)
7, edits:元数据的操作日志(针对文件系统做的修改操作记录)
8,namenode内存中存储的是=fsimage+edits。
SecondaryNameNode负责定时默认1小时,从namenode上,获取fsimage和edits来进行合并,然后再发送给namenode。减少namenode的工作量。
2,flume概述
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。我们选用flume对内部多个系统的日志进行信号的采集、管理和查询,目前仅实现了信息管理功能,进一步会对报警、统计等功能进行开发。
flume的主要组件包括:
Source,SourceRunner,Interceptor,Channel,ChannelSelector,ChannelProcessor,Sink,SinkRunner,SinkProcessor,SinkSelector等
工作流程包含两个部分:
source->channel,数据由source写入channel,主动模式,主要步骤如下:
一个SourceRunner包含一个Source对象,一个Source对象包含一个ChannelProcessor对象,一个ChannelProcessor对象包含多个Interceptor对象和一个ChannelSelector对象
1)SourceRunner启动Source,Source接收Event
2) Source调用ChannelProcessor
3)ChannelProcessor调用Interceptor进行过滤Event操作
4)ChannelProcessor调用ChannelSelector对象根据配置的策略选择Event对应的Channel(replication和multiplexing两种)
5)Source将Event发送到对应的Channel中
channel->sink,数据由sink主动从channel中拉取(将压力分摊到sink,这一点类似于kafka的consumer)
一个SinkRunner对象包含一个SinkProcessor对象,一个SinkProcessor包含多个Sink或者一个SinkSelector
1)SinkRunner启动SinkProcessor(DefaultSinkProcessor,FailoverSinkProcessor,LoadBalancingSinkProcessor 3种)
2)如果是DefaultSinkProcessor的话,直接启动单个Sink
3)FailoverSinkProcessor,LoadBalancingSinkProcessor对应的是SinkGroup
4)FailoverSinkProcessor从SinkGroup中选择出Sink并启动
5)LoadBalancingSinkProcessor包含SinkSelector,会根据SinkSelector在SinkGroup中选择Sink并启动
6)Sink 从Channel中消费Event信息
3,MapReduce简介
MapReduce是个非常灵活和强大的数据聚合工具。它的好处是可以把一个聚合任务分解为多个小的任务,分配到多服务器上并行处理。
MongoDB也提供了MapReduce,当然查询语肯定是JavaScript。MongoDB中的MapReduce主要有以下几阶段:
1. Map:把一个操作Map到集合中的每一个文档
2. Shuffle: 根据Key分组对文档,并且为每个不同的Key生成一系列(>=1个)的值表(List of values)。
3. Reduce: 处理值表中的元素,直到值表中只有一个元素。然后将值表返回到Shuffle过程,循环处理,直到每个Key只对应一个值表,并且此值表中只有一个元素,这就是MR的结果。
4. Finalize:此步骤不是必须的。在得到MR最终结果后,再进行一些数据“修剪”性质的处理。
MongoDB中使用emit函数向MapReduce提供Key/Value对。
Reduce函数接受两个参数:Key,emits. Key即为emit函数中的Key。 emits是一个数组,它的元素就是emit函数提供的Value。
Reduce函数的返回结果必须要能被Map或者Reduce重复使用,所以返回结果必须与emits中元素结构一致。
Map或者Reduce函数中的this关键字,代表当前被Mapping文档。
4,Spark简介
什么是 Spark
Spark 是一个针对大规模数据处理的快速通用引擎
Spark 是 MapReduce 的替代方案,而且兼容 HDFS, Hive, 可容入Hadoop 的生态系统,弥补 MapReduce 的不足
Spark核心: RDD(Resilient Distributed Datasets 弹性分布式数据集)
RDD 可简单理解为: 一个提供了很多操作接口的数据集合,分布式存储于集群环境中的存储设备中(内存或硬盘),其中包括容错,并行处理等功能
==> Spark 特点
---> 快
---- 优点:与Mapreduce 相比,Spark 基于内存运算,运算速度要快100倍,基于硬盘计算,运算速度要快 10 倍
---- 缺点:没有对内存进行管理,把所有的内存管理都交给应用程序,以弥补MapReduce的不足,
容易出现 OOM(out of memory), 可使用 Java Heap Dump 工具分析 Java 程序的内存溢出
---> 易用
---- Spark 支持 Java ,Python, Scala 的 API
---- 支持80多种算法
---- 支持交互式,可以在shell 中使用Spark 验证解决问题的方法
通用(生态圈)
---- 批处理
---- 交互式查询 (Spark SQL)
---- 实时流处理 (Spark Streaming)
---- 机器学习 ( Spark MLlib )
---- 图计算 ( GraphX )
---- 与 Hadoop 很好的融合, 可以直接操作 HDFS, 并提供 Hive on Spark, Pig on Spark的框架集成 Hadoop(配置Hive on Spark 还不成熟)
兼容性 可以非常方便的与其它开源产品进行融合
---- 可以使用 Hadoop 的 YARN 和 Apache Mesos 作为它的资源管理调度器
---- 可以处理所有 Hadoop 支持的数据:HDFS, HBase, Cassandra 等
---- 不需要做任何的数据迁移就可以使用 Spark 的强大处理能力
---- 可以不依赖第三方的资源管理和调度器,实现 Standalone 作为它的内置的资源管理和调试框架,降低部署的复杂性
---- 提供了在 EC2 上部署 Standalone 的Spark 集群工具
Spark 生太圈
---> Spark Core
---> Spark SQL
---> Spark Streaming
---> Spark MLLib: 机器学习
---> Spark GraphX: 图计算
上面这四种知识点在我们这个网站分析项目里面是需要用到的,那么这个网站分析项目具体有哪些内容呢?下面我就大家介绍一下这个项目的制定框架。可以加我扣扣3300863615
来学习下面这个项目,我这里会有视频资料。
网站分析项目:
1,项目介绍
2,业务数据存储:HDFS
3,业务数据采集:Flume
4,数据清洗与加工:MapReduce
5,数据清洗与加工:Spark
6,项目代码讲解及项目总结
以上这些内容你了解完了这个项目也就可以完整的做好,有需要学习的可以关注我,我这里有整个完整的项目的视频,学完以后就可以做好这个项目了!
相关推荐
- Android开发基础入门(一):UI与基础控件
-
Android基础入门前言:从今天开始,我们开始分享Android客户端开发的基础知识。一、工具指南工欲善其事必先利其器,我们首先介绍一下开发Android常用的集成开发环境。小雨在上大学期间,开发a...
- 谷歌Material Design质感设计UI开发框架
-
谷歌MaterialDesign质感设计是一个新的用户界面设计概念,即将到来的Android版本称为“AndroidL”中会使用这种设计语言。在这篇文章中,我们收集出最新的和最好的Android...
- Android主流UI开源库整理(android 开源ui)
-
前言最近老大让我整理一份Android主流UI开源库的资料,以补充公司的Android知识库。由于对格式不做特别限制,于是打算用博客的形式记录下来,方便查看、防丢并且可以持续维护、不断更新。标题隐...
- 系统工具类App的开发框架(系统开发方法工具)
-
系统工具类App的开发框架选择,很大程度上取决于目标平台(Android、iOS或两者兼有),以及对性能、系统级访问深度和开发效率的需求。由于这类App常常需要深入操作系统底层,因此原生开发框架通常是...
- 2025年vue前端框架前瞻(vue前端开发规范手册)
-
Vue是一个轻量且灵活的JavaScript框架,广受开发者喜爱,因其简单易用的API和组件化的开发方式而闻名。Vite是一个现代化的前端构建工具,以其极快的开发服务器启动速度和热模块替换...
- 前端流行框架Vue3教程:28. Vue应用
-
28.Vue应用应用实例每个Vue应用都是通过createApp函数创建一个新的应用实例main.jsimport{createApp}from'vue'import...
- 2024 Vue 最全的生态工具组合推荐指南
-
Vue3虽然Vue2很多项目在用,但是官方已经宣布不再维护Vue2,所以新项目肯定首选Vue3来进行开发,组合式API开发起来比选项式API方便多了,而且Vue3的响应式实现也更...
- 基于 Vue3 Element Plus 的中后台管理系统模板
-
PureAdmin是一个开源的前端中后台管理系统模板,基于Vue3、Element-Plus,支持移动端、国际化、多主题设置,支持前端静态路由、后端动态路由配置,旨在为开发人员提供一个易于使用、高...
- 重磅!滴滴开源全新跨端小程序框架,基于 Vue 3!
-
最近,滴滴出行开源了自主研发的全新轻量级跨端小程序框架——星河(Dimina),为开发者提供了“一次开发,多端运行”的高性能、低门槛解决方案。下面就来一览Dimina的魅力!什么是星河(Dim...
- 【推荐】一款基于 Vue + .NET 8 开源、免费、功能强大的快速开发框架
-
如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!项目介绍Vue.NetCore是一款集高效、灵活、易于扩展于一体的快速开发框架(基于Vue提供Vue2/Vue...
- 搭建Trae+Vue3的AI开发环境(vue ide 开发工具)
-
从2024年2025年,不断的有各种AI工具会在自媒体中火起来,号称各种效率王炸,而在AI是否会替代打工人的话题中,程序员又首当其冲。作为一个后端开发,这篇文章基于Trae工具,来创建和运行一个简单的...
- 一款基于 Vue + .NET 8 开源、免费、功能强大的快速开发框架
-
项目介绍Vue.NetCore是一款集高效、灵活、易于扩展于一体的快速开发框架(基于Vue提供Vue2/Vue3版本和.NET8前后端分离),适用于多种应用场景。通过前后端分离的设计、强大的...
- 盘点一下这些年PHP在桌面应用方面的解决方案
-
今天作者给大家盘点一下近些年PHP在实现桌面客户端方面的项目。PHP-GTKPHP-GTK是2001年3月创立,是PHP的一个扩展,实现了与GTK+的绑定,提供面向对象的接口,极大地简化了客户端跨平台...
- PHP+Uniapp校园圈子系统校园论坛小程序开发:踩坑与优化经验分享
-
一、系统架构与技术选型1.架构设计采用前后端分离架构,前端使用Uniapp实现跨端开发(支持微信小程序、H5、App),后端基于PHP(推荐ThinkPHP或Laravel框架)提供RESTful...
- 智能匹配+安全护航:PHP代练系统护航小程序如何提升用户信任?
-
在代练行业中,用户信任是平台发展的核心要素。基于PHP后端与uni-app跨端框架的代练系统,通过智能匹配与安全护航两大核心策略,能够有效提升用户信任,构建健康可持续的代练生态。以下从技术实现与用户体...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- JAVA集合框架 (47)
- mfc框架 (52)
- abb框架断路器 (48)
- ui自动化框架 (47)
- beego框架 (52)
- grpc框架 (55)
- ppt框架 (48)
- 内联框架 (52)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)