百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

大数据期末知识点总结

ccwgpt 2025-02-24 15:23 23 浏览 0 评论

大数据特点:

五个主要技术特点:5V

Volume(大体量):即可从数百TB到数十数百PB、甚至EB规模。

Variety(多样性):即大数据包括各种格式和形态的数据。

Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。

Veracity(准确性):即处理的结果要保证一定的准确性。

Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业价值。

大数据概念:

大数据是指数据规模大,尤其指因为数据形式多样、非结构化特征明显,导致数据存储、处理和挖掘异常困难的那类数据集。

大数据性质:

非结构性,不完备性,时效性,安全性,可靠性

大数据技术概述:

大数据及时是指从数据采集、清洗、集成、分析与解释,进而从各种各样的巨量数据中快速获得有价值信息的全部技术。

大数据趋势:

大数据细分市场、大数据推动企业发展、大数据分析的新方法出现、大数据与云计算高度融合、大数据一体化设备陆续出现、大数据安全日益受到重视。

大数据应用实例:

网络大数据、金融大数据、企业大数据、政府管理大数据、安全大数据。

在医疗行业中医疗保健内容的预测分析、早产婴儿的预测分析、精确确诊的预测分析

在能源行业中:智能电网、风力系统依靠大数据技术对气象数据进行分析

在通信行业中:通过分析客户的资料分析客户需求

交通行业中:车辆的运输管理,解决道路拥堵

零售业中:收集社交信息,分析消费者水平



科学研究四个范式:

第一范式:

概念:科学实验主要描述自然现象,以观察和实验为依据的研究,也可称为经验范式。

内容:实验是人们为实验预定目的,在人工控制条件下,通过干预和控制科研对象而观察和探索科研对象的规律和机制的一种研究方法,

特征:纯化观察对象条件、强化观察对象、可重复性

第二范式:

概念:以建模和归纳为基础的理论学科和分析范式,又称为理论范式。

内容:是对某种经验现象或事实的科学解说和系统解释,他是由一系列特定的概念、原理、命题以及对他们的严密论证组成的知识体系。

特征:抽象性、逻辑性、系统性

第三范式:

概念:是以模拟复杂现象为基础的计算科学范式又称模拟范式

内容:模拟有三种方法 数学模型方法 模拟程序方法 物理模型方法

特征:高度抽象 高度精确 具有普遍意义

第四范式:

概念:以考察为基础,联合理论、实验、和模拟一体的数据密集计算的范式

内容:数据被捕获或者由模拟器生成,利用软件处理,信息和知识存储在计算机中国,科学家使用数据管理和统计学方法分析数据

特征:处理对象是数据,是围绕数据展开的计算;计算的含义是从数据获取到管理再到分析、理解的整个过程;其目的是推动技术前沿发展,目标是依赖传统的单一数据源和准静态数据库无法实现的应用。

可伸缩性:

又称可扩展性,是指通过扩展系统规模来提高性能并处理更大数量的用户和通过扩展系统规模提高系统的容错能力等

横行扩展:

向逻辑单元之外的扩展,增加更多逻辑单元的资源,并使他们像一个单元一样工作。



CAP定理:

一个分布式系统不可能同时满足一致性、可用性和分区容错性三个系统需求,最多只能同时满足俩个系统需求。在考虑满足系统需求时,要根据实际需要来选择关注点,进而采用相应的策略。

函数式编程优点:

逻辑可证、模块化、组件化、易于调试、易于测试、更高的生产率

函数式编程的特征:

没有副作用、无状态编程、只有输入值与输出值

Mapreduce是谷歌针对大规模群组中的海量数据处理而提出的分布式编程模型

Hadoop 是一个用于收集、共享和分析来自网络的大量结构化、半结构化和非结构化数据的平台。

Hadoop优点:方便、健壮、横向可扩展、简单。

Hadoop与sql数据库比较:横向扩展代替纵向扩展、键值对代替关系表、函数式编程代替声明式查询、离线批量处理代替在线处理

流式数据的特征:实时性,易失性,突发性,无序性,无限性,可靠性

流式计算性能指标:计算方式,常驻空间,时效性,有序性,数据量,数据速率,是否可重现,移动对象,数据精确度

Storm:任务拓扑=有向无环图(Spout、Bolt)Spout读取数据(元组)——》Blot。节点:Nimbus Supervisor。特征:编程模型简单(Spout,Blot),多语言支持,作业级容错,水平可拓展,快速消息计算。Zookeeper:存储信息,1任务拓扑,任务分配,任务执行状态,2从节点状态,工作进程状态,心跳信息,3集群状态配置信息

Nimbus master资源分配,任务调度,状态监控,故障检测(接受任务,分配任务,写入Zookeeper,重启节点)


Zookeeper cluster


Supervisor Slaves{Worker{Executor{task[1+]}}

storm三种运行环境:master、cluster、slaves

Storm主要特征:编程模型简单、支持多种编程语言、作业级容错性、水平可扩展、 快速消息计算

Storm不足:资源分配没有考虑任务拓扑的结构特征,无法适应数据负载的动态变化;采用集中式的作业级容错机制,在一定程度上限制了系统的可扩展性。

大数据搜索技术。不含语义搜索引擎、不含搜索引擎优化。

① 组成:搜索器、索引器(处理搜索结果得出索引)、检索器(根据用户输入检查索引库中检出文档排序。。。。)、用户接口

② 搜索引擎的分类:全文搜索引擎、目录搜索引擎、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎。

③ 工作过程:爬行,抓取存储,预处理,排名。

④ 搜索引擎评价指标:查全率、查准率、响应时间、覆盖范围、用户方便性。

大数据预处理技术。

① 数据抽取,包装器(完成数据抽取(映射)的程序)映射 数据源S,数据库R 映射M(从数据S抽取、按格式存储到R)5

② 抽取方法:同构同质,同构异质,文件型,增量更新

大数据分析。大数据分析概述、基本数据分析方法

① 用准确合适的分析方法和工具来分析经过处理的数据,提取具有价值的信息,进而形成有效的结论并通过可视化技术展现出来的过程。

② 目的 对杂乱无章的数据进行集中、萃取和提炼进而找出所研究对象的内在规律,发现其价值

数据分析方法分类:基本分析方法、高级分析方法、数据挖掘方法

③ 步骤 识别需求-》收集数据-》分析数据

④ 数据分析类型 : 探索性数据分析(为了形成假设,侧重发现特征) 定性数据分析(非数值数据) 离线数据分析 在线数据分析

⑤ 方法:统计 指标对比 分组分析 综合评价 指数分析 平衡分析 平滑和滤波 基线与峰值

数据科学与数据思维。数据科学概述、大数据研究方 式。不含数据专家。

① 数据科学是指导数据分析预处理的科学,系统的理论与方法,数据科学通过系统性的研究数据的组织和使用,可以促进发现改进关键决策过程。

② 数据科学研究的内容:基础理论、实验方法与逻辑推理方法、领域数据学、数据资源的开发和技术。

③ 数据科学主要有两个内涵:一个是数据本身,研究数据的各宗类型、状态、属性及变化形式和变化规律;另一个是为自然科学和社会科学研究提供一种新的方法,成为科学研究的数据方法,其目的是揭示自然界和人类行为现象和规律,将现实世界中的事物和现象以数据的形式存储到存储空间


大数据开发高薪必备全套资源【免费获取】

Oracle高级技术总监多年精心创作一套完整课程体系【大数据、人工智能开发必看】,全面助力大数据开发零基础+入门+提升+项目=高薪

「大数据零基础入门」

「大数据架构系统组件」

「大数据全套系统工具安装包」

Java必备工具

大数据必备工具

「大数据行业必备知资讯」

「大数据精品实战案例」

「大数据就业指导方案」

最后说一下的,也就是以上教程的获取方式!

领取方法:

还是那个万年不变的老规矩

1.评论文章,没字数限制,一个字都行!

2.成为小编成为的粉丝!

3.私信小编:“大数据开发教程”即可!

谢谢大家,祝大家学习愉快!(拿到教程后一定要好好学习,多练习哦!)

相关推荐

自己动手写Android数据库框架_android开发数据库搭建

http://blog.csdn.net/feiduclear_up/article/details/50557590推荐理由关于Android数据库操作,由于每次都要自己写数据库操作,每次还得去...

谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic

智东西编译|金碧辉编辑|程茜智东西5月28日消息,据科技媒体TheDecoder5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude3.7...

工信部:着力推动大模型算法、框架等基础性原创性的技术突破

工信部新闻发言人今日在发布会上表示,下一步,我们将坚持突出重点领域,大力推动制造业数字化转型,推动人工智能创新应用。主要从以下四个方面着力。一是夯实人工智能技术底座。通过科技创新重大项目,着力推动大模...

乒乓反复纠结“框架不稳定”的三个小误区

很多球友由于对框架的认知不清晰,往往会把“框架不稳定”当成一种心理负担,从而影响学球进度,其典型状态就是训练中有模有样,一旦进入实战,就像被捆住了手脚。通过训练和学习,结合“基本功打卡群”球友们交流发...

前AMD、英特尔显卡架构师Raja再战GPU,号称要全面重构堆栈

IT之家8月5日消息,知名GPU架构师拉贾科杜里(RajaKoduri)此前曾先后在AMD和英特尔的显卡部门担任要职。而在今日,由Raja创立的GPU软件与IP初创企...

三种必须掌握的嵌入式开发程序架构

前言在嵌入式软件开发,包括单片机开发中,软件架构对于开发人员是一个必须认真考虑的问题。软件架构对于系统整体的稳定性和可靠性是非常重要的,一个合适的软件架构不仅结构清晰,并且便于开发。我相...

怪不得别人3秒就知道软考案例怎么做能50+

软考高级统一合格标准必须三科都达到45分,案例分析也一直是考生头疼的一门,但是掌握到得分点,案例能不能50+还不是你们说了算吗?今天就结合架构案例考点,分享实用的备考攻略~一、吃透考点,搭建知识框架从...

UML统一建模常用图有哪些,各自的作用是什么?一篇文章彻底讲透

10万+爆款解析:9大UML图实战案例,小白也能秒懂!为什么需要UML?UML(统一建模语言)是软件开发的“蓝图”,用图形化语言描述系统结构、行为和交互,让复杂需求一目了然。它能:降低沟通成本避...

勒索软件转向云原生架构,直指备份基础设施

勒索软件组织和其他网络犯罪分子正越来越多地将目标对准基于云的备份系统,对久已确立的灾难恢复方法构成了挑战。谷歌安全研究人员在一份关于云安全威胁演变的报告中警告称,随着攻击者不断改进数据窃取、身份泄露和...

ConceptDraw DIAGRAM:释放创意,绘就高效办公新未来

在当今数字化时代,可视化工具已成为提升工作效率和激发创意的关键。ConceptDrawDIAGRAM,作为一款世界顶级的商业绘图软件,凭借其强大的功能和用户友好的界面,正逐渐成为众多专业人士的首选绘...

APP 制作界面设计教程:一步到位_app界面设计模板一套

想让APP界面设计高效落地,无需繁琐流程,掌握“框架搭建—细节填充—体验优化”三步法,即可一步到位完成专业级设计。黄金框架搭建是基础。采用“三三制布局”:将屏幕横向三等分,纵向保留三...

MCP 的工作原理:关键组件_mcp部件

以下是MCP架构的关键组件:MCP主机:像ClaudeDesktop、GitHubCopilot或旅行助手这样的AI智能体,它们希望通过MCP协议访问工具、资源等。MCP主机会...

软件架构_软件架构师工资一般多少

软件架构师自身需要是程序员,并且必须一直坚持做一线程序员。软件架构应该是能力最强的一群程序员,他们通常会在自身承接编程任务的同时,逐渐引导整个团队向一个能够最大化生产力的系统设计方向前进。软件系统的架...

不知不觉将手机字体调大!老花眼是因为“老了吗”?

现在不管是联系、交友,还是购物,都离不开手机。中老年人使用手机的时间也在逐渐加长,刷抖音、看短视频、发朋友圈……看手机的同时,人们也不得不面对“视力危机”——老花眼,习惯眯眼看、凑近看、瞪眼看,不少人...

8000通用汉字学习系列讲座(第046讲)

[表声母字]加(续)[从声汉字]伽茄泇迦枷痂袈笳嘉驾架咖贺瘸(计14字)嘉[正音]标准音读jiā。[辨形]上下结构,十四画。会意形声字,从壴从加,加也表声。注:从壴,字义与鼓乐有关;从加,字义与...

取消回复欢迎 发表评论: