建设智算中心-人工智能开发平台业务架构图
ccwgpt 2024-10-23 09:13 62 浏览 0 评论
原创内容实属不易,请大家多多添加关注。本号将重点聚焦于与人工智能项目从投资到建设、运营的全生命周期方案。结合实际项目经验进行总结,希望能够为大家带来帮助
人工智能算力中心项目,按项目阶段主要分为投资、建设、运营三部分,按服务内容分为通算平台、智算平台、超算平台。本文重点介绍智算平台的人工智能开发平台业务架构图,其他内容请参考本号其他章节。
标准的智算中心,需要能够为用户提供模型训练推理一站式服务,包括数据服务、模型训练、模型仓库、模型评估、模型推理、运维管理、运营管理等服务模块。
一、数据集管理
支持创建数据集,列表展示,支持数据集的上传、下载、发布、删除和修改;支持图片、文本、表格等多种数据类型。支持上传测试数据集、模型数据,支持挂载多种数据源,包括NAS存储、对象存储、分布式存储等。
二、数据标注
1、支持新建标注任务,对多种数据类型进行标注,包括图片、文本、视频等,标注类型分为图像分类、物体检测、图像分隔等,标注格式支持json、xml、文件夹命名等不同格式。
2、支持对标注团队进行管理,分配标注任务,实现多人协同标注。
3、支持自动标注功能,平台内置标注插件。
4、支持数据清洗,提供的数据清洗功能对图像数据集和文本数据集进行清洗。可以对数据集中的图片进行去模糊、去近似、批量旋转、批量镜像等多种基础清洗服务,以及过滤无人脸图片、过滤无人体图片等高级清洗服务。同时对文本数据进行去emoji,去url和繁体转简体的操作。完成数据清洗后,可提升数据质量,方便进行下一步的数据标注等操作。
5、支持数据增强,可以通过数据增强策略,对数据本身进行一定程度的扰动和扩充,从而产生"新"数据,例如改变图片形状、颜色、反转图片等,在训练时会通过学习大量的"新"数据,提高模型的泛化能力
三、模型训练
1、预置模型调参
预置模型调参,即在平台已经适配的模型基础上进行进一步的参数优化,基于模型创建训练任务。选择选择数据集、验证集、测试集,选择模型、选择模型训练框架(PyTorch、TensorFlow等)、设置超参、环境变量、CPU/GPU环境资源等,执行训练任务。支持查看训练进度、运行详情,并通过Tensorboad、visualDL等可视化工具展示各项训练数据指标。
2、算法开发
算法开发,即平台为开发者提供模型开发环境,可以可以自主下载模型进行训练。支持创建Notebook环境,创建时选择开发语言(Python3.7)、AI框架(PaddlePaddle、Pytorch、tensorflow、sklearn)、AI算力资源、cuda版本等。
支持启动Notebook打开在线IDE环境,集成Jupyter Lab/PyCharm/VScode/BML CodeLab等工具,帮助用户完成对底层操作系统层面的目录管理、数据集管理、代码管理(代码库管理/代码开发/代码版本管理)、模型管理(模型下载/模型开发/模型版本)、环境监控等工作。
支持Notebook的启动、停止、编辑、删除、SSH访问等操作,配置模型参数、发布并导出模型。
3、可视化建模
可视化建模基于无代码的方式,在交互式画布上直观连接数据处理、特征工程、算法预测与评估等组件,通过拖拉拽方式,进而完成模型的开发。
四、模型仓库
支持模型导入,模型版本管理,支持模型下载、删除。支持将模型训练任务转换为模型文件,系统内置常用开源模型。包括:
五、模型评估
支持对训练模型进行质量验证,支持选择对应模型、版本、数据、AI算力创建评估任务,支持查看评估报告,包括验证结果,支持查看基本结论、准确率、F1-score、精确率、召回率。
六、模型推理
支持在线服务的部署,支持公有云部署、纯离线部署、端云协同等部署方式,支持服务的停止/启动、预测、编辑、扩容和删除。支持为推理模型创建接入应用,以便用户可通过api访问使用。支持多种推理引擎TensorRT、ONNX。
公有云部署:在线服务,即将模型仓库中的模型部署在BML提供的云端机器资源中,您可以通过访问在线API实时获取模型预测结果。您可以结合实际业务需求灵活地配置所需机器资源,并可以随时操作服务启停和扩缩容。
端云协同服务:本地+云端联合部署的模式,BML端云协同服务由EasyEdge端与边缘AI服务平台提供、基于百度智能边缘构建,能够便捷地将BML定制模型的推理能力拓展至应用现场,提供临时离线、低延时的计算服务。
离线部署方式:将训练完成的模型部署在本地,离线网络环境下调用模型。可选择将模型部署在本地的服务器、小型设备上,通过API、SDK进一步继承,灵活适应不同业务场景
七、平台运营
支持租户管理、权限控制、配额管理、开源与企业自由模型托管、集群管理、资源任务统计等。付费类型支持包年包月或按需付费,支持设置自动续约,
八、平台运维
1、支持针对GPU资源的调度策略。支持任务亲和性策略,不同容器的vGPU资源来自相同的物理GPU设备。
2、支持设置资源优先级。资源不足时,启动高优先级的任务能够抢占正在运行的低优先级任务的资源。
3、支持集群管理,资源总览、资源告警、节点核心利用率、集群使用率、GPU基本监控、性能指标监控、集群Node监控,故障感知、任务分配和调度、历史数据分析、队列管理,队列列表,搜索,同步,选择租户,资源,执行日志
4、资源超分,支持算力、显存双维度资源超分,能够支持单个物理GPU能够分配超过物理资源上限的资源量给业务应用
此为系列文章,详细描述智算平台投资、建设、运营相关的规划设计、架构原理等,此关注本号其他章节。
- 《投资智算中心—“投-建-运”一体化服务》
- 《建设智算中心-三大运营模式篇》
- 《建设智算中心-改善运营服务模式,提高算力利用率》
- 《建设智算中心-用户群体与业务场景分析》
- 《建设智算中心-Flops算力与大模型参数、GPU卡型号间关系》
- 《建设智算中心-需满足企业等保合规要求》
- 《建设智算中心-满足生成式人工智能服务安全基本要求》
- 《建设智算中心-需获取的相关认证》
- 《建设智算中心-通算、智算、超算业务架构》
- 《建设智算中心-多元算力中心组网拓扑图》
- 《建设智算中心-通算平台整体功能架构(1)》
- 《建设智算中心-通算平台整体功能架构(2)》
- 《建设智算中心-通算平台标准组网模式》
- 《建设智算中心-通算平台计算架构原理》
- 《建设智算中心-通算平台存储架构原理》
- 《建设智算中心-通算平台网络架构原理》
- 《建设智算中心-通算平台三级等保建设方案》
- 《建设智算中心-通算平台双活/灾备/迁移机制》
- 《建设智算中心-人工智能开发平台业务架构图》
相关推荐
- FastUI:用Python构建高性能React应用,告别JavaScript
-
在现代Web开发中,前后端分离已经成为主流趋势。然而,前端开发往往需要深入掌握JavaScript和各种框架,这对于许多Python开发者来说是一个不小的挑战。今天,我们要介绍一个革命性的UI框架——...
- Python + Flet 开发网站的最佳数据库模块组合
-
对于使用Python和Flet开发网站并需要数据库支持的应用,以下是推荐的模块组合方案。方案一:SQLite+SQLAlchemy(推荐轻量级方案)**适用场景**:中小型应用、单用户或...
- 前端程序员应该往全栈方向发展吗?还是坚守前端?
-
这是一个非常经典且重要的问题,几乎每一位走到职业生涯十字路口的前端程序员都会思考。它没有一个绝对的“正确答案”,但我们可以从多个维度来分析,帮你找到最适合你的那条路。简单来说,这不是一个“要不要”的...
- Python交互仪表盘工具:Panel 进阶学习路线图
-
Panel作为Python生态系统中最强大的交互式仪表盘工具之一,其学习曲线既平缓又深远。这里我将为您构建一个系统化的进阶学习框架,包含实战项目和关键学习节点。1.现代化Web集成开发1....
- PuePy:将Python带入浏览器的革命性框架
-
在现代网络开发中,JavaScript无疑是主导地位的编程语言。但最近,随着WebAssembly和PyScript的崛起,Python的使用场景逐渐扩展到了前端开发领域。PuePy应运而生,作为一...
- 不容易!找到一个python的超简易网站搭建神器
-
作者:清香客来源:Python技术相信很多学习python的酱友们,大部分和我一样是为了提升工作效率,但是在提升自己的工作效率时,也会想着做同样工作的同事能不能也用上自己写的脚本(视工作环境而定)...
- PyWebView:用 Python 构建桌面应用的神器
-
作为一个Python开发者,我一直希望能找到一种简便的方法来构建桌面应用,而不是去学习诸如Electron这种重度依赖JavaScript的技术栈。就在我为桌面应用开发寻找替代方案时,遇到...
- Python Django框架中级教程:深入探索Django的核心功能
-
在Python的Web开发领域中,Django框架以其强大的功能和高效的开发模式占据着重要地位。对于已经掌握了Django基础的开发者来说,进一步深入学习中级知识能让我们开发出更复杂、更强大的Web应...
- 【Python程序开发系列】使用Flask实现前后端分离(案例)
-
这是我的第398篇原创文章。一、引言随着web开发的不断发展,前后端分离已成为越来越流行的架构设计。Flask是一个轻量级的Pythonweb框架,非常适合用于构建API,然后配合前端框...
- 每天一个Python库:Flask超轻量Web框架,灵活高效!
-
为什么要学Flask?Flask是一个「微型但强大的」Web框架:极简上手,几行代码即可跑起来灵活扩展,想加啥加啥(RESTful、JWT、数据库…)文档齐全,适合入门API开发或快...
- Python个人量化投资系统:后台搭建
-
独立搞量化系统的程序员最烦啥?重复造权限管理的轮子绝对排前三。技术老手用Python+PearAdminFlask两天搭出量化后台,实测开源框架真能省下80%基础工作量。开源后台框架选对,一人项目...
- python后端学什么(python后端好找工作吗)
-
在当今数字化的时代,Python后端开发成为了众多开发者追逐的热门领域。那么,想要在这个领域崭露头角,我们究竟应该学些什么呢?学习Python后端开发需要掌握全栈技术栈,涵盖从基础语法到分布式...
- Motia:重新定义后端与智能体整合的未来平台
-
在AIagent技术飞速发展的今天,我们拥有了诸如Dify、RAGFlow、LangChain等一系列优秀平台。然而,随着场景复杂度增加,开发者正面临一个共同问题:后端越来越碎片化,Agen...
- Python数据校验不再难:Pydantic库的工程化实践指南
-
在FastAPI框架横扫Python后端开发领域的今天,其默认集成的Pydantic库正成为处理数据验证的黄金标准。这个看似简单的库究竟隐藏着哪些让开发者爱不释手的能力?本文将通过真实项目案例,带您解...
- Python Flask 建站框架实操教程(flask框架网页)
-
下面我将带您从零开始构建一个完整的Flask网站,包含用户认证、数据库操作和前端模板等核心功能。##第一部分:基础项目搭建###1.创建项目环境```bash#创建项目目录mkdirfl...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- FastUI:用Python构建高性能React应用,告别JavaScript
- Python + Flet 开发网站的最佳数据库模块组合
- 前端程序员应该往全栈方向发展吗?还是坚守前端?
- Python交互仪表盘工具:Panel 进阶学习路线图
- PuePy:将Python带入浏览器的革命性框架
- 不容易!找到一个python的超简易网站搭建神器
- PyWebView:用 Python 构建桌面应用的神器
- Python Django框架中级教程:深入探索Django的核心功能
- 【Python程序开发系列】使用Flask实现前后端分离(案例)
- 每天一个Python库:Flask超轻量Web框架,灵活高效!
- 标签列表
-
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- JAVA集合框架 (47)
- mfc框架 (52)
- abb框架断路器 (48)
- ui自动化框架 (47)
- beego框架 (52)
- java框架spring (58)
- grpc框架 (65)
- tornado框架 (48)
- 前端框架bootstrap (54)
- ppt框架 (48)
- 内联框架 (52)
- cad怎么画框架 (58)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)