百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

大数据之分析系统框架要求(大数据分析系统架构)

ccwgpt 2024-11-02 10:57 29 浏览 0 评论


一、分析系统框架总体要求

主要从以下4个方面对大数据分析系统的基本功能做出要求:

a) 数据准备模块的功能要求:对原始数据进行预处理,使数据能被上层分析方法直接使用;

b) 分析支撑模块的功能要求:提供建立数据模型和应用模型的算法库或者工具库;

c) 数据分析模块的功能要求:提供数据分析方法或者中间件,将数据准备模块输出的数据以及数据建模过程中产生的中间数据转变成知识或者决策;

d) 流程编排模块的功能要求:按照工作流对数据处理生存周期的各环节进行编排。

各模块间存在相互作用的关系,如上图所示。


二、数据准备模块功能要求

1. 数据抽取功能要求

数据抽取模块要求,如下:

a) 应支持按照需求将存放在存储系统中的数据进行抽取;

b) 应提供对结构化数据、非结构化数据的不同抽取方法;

c) 应提供全量抽取及增量抽取模式;

d) 应支持主动抽取和被动抽取;

e) 应支持定时批量抽取;

f) 应支持分布式数据抽取,实现数据抽取过程的负载均衡。

2. 数据清洗功能要求

数据清洗模块要求,如下:

a) 应支持数据一致性;

b) 应支持处理无效值,包括无效数据值的删除、修正等;

c) 应支持处理缺失值,包括缺失值的填充或缺失值对应数据条目的删除等;

d) 应支持处理重复数据,包括重复数据的合并或者删除等操作;

e) 应提供清洗前后的数据比对功能,方便使用者检验清洗的效果;

f) 宜支持逻辑矛盾、关联性验证、不合理数据的清洗。

3. 数据转换功能要求

数据转换模块要求,如下:

a) 应支持结构化数据的列转换;

b) 应支持结构化数据的行转换;

c) 应支持结构化数据的表转换;

d) 宜支持非结构化数据的结构化处理;

e) 宜支持对文本、网页类数据的规范化处理,将文档类数据转化成单一规范形式;

f) 宜支持对语音/音频数据的识别处理,将语音的词汇内容转换为计算机可读的输入;

g) 宜支持对图片中的内容转换为字符文本,提取图像信息。

4. 数据加载功能要求

数据加载模块要求,如下:

a) 应支持把经过清洗和转换之后的数据加载到大数据分析系统,为分析功能模块提供数据;

b) 宜支持全量加载:按照加载的目标结构,将转换过的数据输入到目标结构中去;

c) 宜支持增量加载:如果目标结构中已存在数据,在保存已有数据的基础上增加新的数据。当一个输入的数据记录与已经存在的记录重复时,丢弃新输入的数据,或者输入记录可能会作为副本增加进去;

d) 应支持实时加载或批量加载两种方式。


三、分析支撑模块功能要求

1. 查询功能要求

1.1 查询接口要求

查询接口要求,如下:

a) 应支持通过标准的数据库连接接口进行查询;

b) 应支持REST API查询接口进行查询;

1.2 查询优化要求

查询优化要求,如下:

a) 应支持建立数据索引,达到查询加速的效果;

b) 应支持精确查询和模糊查询;

c) 宜支持基于规则或者基于成本的查询优化;

d) 宜支持数据分片和多副本技术优化查询速度;

e) 宜支持通过SQL进行复杂条件高并发查询;

f) 宜支持二级索引。

2. 机器学习功能要求

2.1 数据集管理功能要求

数据集管理功能要求,如下:

a) 应提供将输入数据划分为训练集、验证集和测试集的功能;

b) 应提供机器学习模型的导入和导出功能,支持训练、验证过程的模型导入到大数据分析系统中,以及将大数据系统中训练所得的模型导出。

2.2 支持算法的要求

算法要求,如下:

a) 宜支持回归于分类算法;

b) 宜支持聚类算法;

c) 宜支持协同过滤算法;

d) 宜支持降维算法;

e) 宜支持频繁模式挖掘算法;

f) 宜支持神经网络算法;

g) 宜提供机器学习流程的其他组件,包括特征提取、特征转换、特征选择、模型选择、交叉验证、模型调优等;

h) 宜支持Java、Scala、Python、R等一种或多种语言,二次开发增加新的算子。

2.3 模型评估功能要求

宜支持算法模型的评估模块。

3. 统计分析功能要求

统计分析子模块要求,如下:

a) 应支持基本的数值统计,如最大值、最小值、求和、总数等统计量;

b) 应支持分析数据集中趋势的统计,如平均数、中位数、众数等统计量;

c) 应支持分析数据离散程度的统计,如极差、方差、标准差等统计量;

d) 应支持分析多个随机变量的关系,比协方差、相关系数等统计量;

e) 宜支持统计分析的自定义模板能力,保存常用的统计分析方案。

4. 可视化功能要求

可视化要求,如下:

a) 应支持常见的数据源数据格式作为输入,如Excel、关系型数据库、JSON、XML等;

b) 应支持对高维数据的可视化展示;

c) 支持可视化分析工具库,包括以下可视化形式:

1) 应支持柱状图;

2) 应支持饼图;

3) 应支持折线图;

4) 应支持表格;

5) 宜支持散点图;

6) 宜支持雷达图;

7) 宜支持网络图;

8) 可支持时间线;

9) 可支持热力图;

10) 可支持地图。

d) 可支持算法模型的评估相关的可视化工具。

四、数据分析模块功能要求

1. 分析模式

1.1 离线数据分析功能要求

离线数据分析功能要求,如下:

a) 应提供对结构化查询语言的支持;

b) 应支持对离线数据的分布式分析;

c) 应具有通过标准接口支持第三方应用的能力;

d) 应支持分布式计算或并行计算等计算框架;

e) 应支持对海量工作任务的切分和分布式调度;

f) 应支持集成第三方的机器学习算法库;

g) 可支持使用内存或SSD存储作为缓存;

h) 宜支持分布式执行计划层面的优化;

i) 宜支持对文本类、音视频类以及图像类数据的分析;

j) 宜支持对关系型数据库和大数据存储系统中的数据源进行交叉查询、聚合、关联操作的能力;

k) 宜支持使用GPU对特定算法加速分析。

1.2 流数据分析功能要求

流数据分析要求,如下:

a) 应支持按照时间切片后进行批量处理;

b) 应支持基于事件触发或者采样的流式处理;

c) 应支持实时流上的数据统计;

d) 应支持流式数据的排序;

e) 应支持与静态表之间的关联;

f) 应支持多个数据流的关联处理;

g) 采用滑动窗口方式的实时分析任务,其时间窗口大小应可调;

h) 宜支持实时数据的分组、优先级调度;

i) 宜支持对文本类、音视频类以及图像类数据的分析。

1.3 交互式联机分析功能要求

交互式联机分析要求,如下:

a) 应支持通过结构化查询语言对数据进行分布式的联机分析,如OLAP等;

b) 应支持通过结构化查询语言对数据进行即席查询;

c) 应支持利用可视化中间件对数据分析结果进行显示;

d) 应支持在交互式分析过程中定义计算公式和参数配置;

e) 应支持交互式分析过程的自动保存和回退等操作。

2. 分析类型

2.1预测型分析功能要求

预测型分析要求,如下:

a) 应支持趋势预测、回归分析等多种预测分析方法;

b) 准确率数值化以百分比形式呈现,精确到小数点后至少1位;

c) 分析结果宜使用可视化方式进行显示;

d) 应支持对训练好的模型的发布应用。

2.2 描述型分析功能要求

描述型分析要求,如下:

a) 应支持使用相关关系分析方法进行描述型分析;

b) 对样本数据的分析结果应支持可视化展示,支持模型训练效果的展示,对训练好的模型可存储和发布;

c) 应支持分析结果的良好直观呈现。

五、流程编排模块功能要求

1. 工作流管理

工作流管理要求,如下:

a) 宜支持可视化的流程编排操作界面,宜通过拖拉方式进行流程编排和修订;

b) 应支持工作流的调度触发机制,可配置触发时间或触发事件。工作流的触发时间的启动时间、执行周期可配置;

c) 宜支持通过管理界面对工作流进行启动、停止操作;

d) 宜支持多流程任务的并行执行;

e) 宜支持通过数据管道实现工作流的串联;

f) 宜支持多人协同的功能;

g) 应支持流程编排结果的持久化保存。

2. 告警和日志

告警和日志要求,如下:

a) 应支持跟踪计算或任务的执行状态,并对异常任务给出告警;

b) 应将任务执行状态的细节输出到日志。

相关推荐

用Deepseek扩写土木工程毕业论文实操指南

用Deepseek扩写毕业论文实操指南一、前期准备整理现有论文初稿/提纲列清楚论文核心框架(背景、现状、意义、方法、数据、结论等)梳理好关键文献,明确核心技术路线二、Deepseek扩写核心思路...

985学霸亲授,DeepSeek也能绘6大科研图表,5分钟就出图

在实验数据处理中,高效可视化是每个科研人的必修课。传统绘图软件操作复杂、耗时费力,而智能工具DeepSeek的出现彻底改变了这一现状。本文将详解如何用DeepSeek一键生成六大科研常用图表,从思维导...

AI写论文刷屏?大学生正在丢掉的思考力

一、宿舍深夜:当论文变成"Ctrl+C+V"凌晨两点的大学宿舍,小王对着电脑屏幕叹气。本该三天前开始写的近代史论文,此刻还一片空白。他熟练打开某AI写作网站,输入"论五四运动的...

Grok在辅助论文写作上能不能既“聪明”又“可怕”?!

AcademicIdeas-学境思源AI初稿写作随着人工智能技术的飞速发展,论文写作这一学术任务正迎来新的助力。2025年2月18日,美国xAI公司推出了备受瞩目的Grok3模型,其创始人埃隆·...

大四论文沟通场景!音频转文字难题听脑AI来化解

大四学生都知道,写论文时和导师沟通修改意见,简直是“过关斩将”。电话、语音沟通完,想把导师说的修改方向、重点要求记下来,麻烦事儿可不少。手写记不全,用普通录音转文字工具,转完还得自己慢慢找重点,稍不注...

论文写作 | 技术路线图怎么画?(提供经典优秀模板参考)

技术路线图是一种图表或文字说明,用于描述研究目标、方法和实施计划。它展示了研究的整体框架和步骤,有助于读者理解研究的逻辑和进展。在课题及论文中,技术路线图是常见的一部分,甚至是一个类似心脏一样的中枢器...

25年信息系统项目管理师考试第2批论文题目写作建议思路框架

25年信息系统项目管理师考试第2批论文题目写作建议思路框架--马军老师

微信购物应尽快纳入法律框架(微信购物管辖)

符向军近日,甘肃省工商行政管理局发布《2016年上半年信息分析报告》。报告显示,微信网购纠纷迅猛增长,网络购物投诉呈上升趋势。投诉的主要问题有出售的商品质量不过关、消费者通过微信付款后对方不发货、购买...

泛珠三角区域网络媒体与腾讯微信签署《战略合作框架协议》

新海南客户端、南海网7月14日消息(记者任桐)7月14日上午,参加第四届泛珠三角区域合作网络媒体论坛的区域网络媒体负责人及嘉宾一行到腾讯微信总部座谈交流,并签署《战略合作框架协议》(以下简称《框架协...

离线使用、植入微信-看乐心Mambo手环如何打破框架

从2014年开始智能手环就成功进入人们的生活,至今已经演变出数据监测、信息推送、心率监测等诸多五花八门的功能,人们选择智能手环并不指望其能够改变身体健康情况,更多的是通过数据来正视自身运动情况和身体健...

微信私域电商运营策略与框架(微信私域怎么做)

...

华专网络:如何零基础制作一个网站出来?

#如何零基础制作一个网站出来?#你是不是觉得网站建设很复杂,觉得自己是小白,需求不明确、流程搞不懂、怕被外包公司坑……这些问题我都懂!今天华专网络就用大白话给你捋清楚建站的全流程,让你轻松get网站制...

WAIC2024丨明日上午9点,不见不散!共同探讨智能社会与全球治理框架

大咖云集,硕果闪耀WAIC2024世界人工智能大会智能社会论坛将于7月5日9:00-12:00与你相约直播间WAIC2024上海杨浦同济大学哔哩哔哩多平台同步直播探讨智能社会与全球治理框架WAIC...

约基奇:森林狼换来戈贝尔时大家都在嘲笑 他们的阵容框架很不错

直播吧5月4日讯西部季后赛半决赛,掘金将迎战森林狼,约基奇赛前接受采访。约基奇说道:“当蒂姆-康纳利(森林狼总经理、前掘金总经理&曾选中约基奇)做了那笔交易(换来戈贝尔)时,每个人都在嘲笑他...

视频号带货为什么一个流量都没有?顶级分析框架送给你

视频号带货为什么一个流量都没有?遇到问题,一定是步步来分析内容,视频号带货一个流量都没有,用另外一个意思来讲,就可以说是零播放。为什么视频号带货一个流量都没有?跟你说再多,都不如来个分析框架。1、是否...

取消回复欢迎 发表评论: