百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

建设智算中心-人工智能开发平台业务架构图

ccwgpt 2024-10-23 09:13 62 浏览 0 评论

原创内容实属不易,请大家多多添加关注。本号将重点聚焦于与人工智能项目从投资到建设、运营的全生命周期方案。结合实际项目经验进行总结,希望能够为大家带来帮助

人工智能算力中心项目,按项目阶段主要分为投资、建设、运营三部分,按服务内容分为通算平台、智算平台、超算平台。本文重点介绍智算平台的人工智能开发平台业务架构图,其他内容请参考本号其他章节。

标准的智算中心,需要能够为用户提供模型训练推理一站式服务,包括数据服务、模型训练、模型仓库、模型评估、模型推理、运维管理、运营管理等服务模块。

一、数据集管理

支持创建数据集,列表展示,支持数据集的上传、下载、发布、删除和修改;支持图片、文本、表格等多种数据类型。支持上传测试数据集、模型数据,支持挂载多种数据源,包括NAS存储、对象存储、分布式存储等。

二、数据标注

1、支持新建标注任务,对多种数据类型进行标注,包括图片、文本、视频等,标注类型分为图像分类、物体检测、图像分隔等,标注格式支持json、xml、文件夹命名等不同格式。

2、支持对标注团队进行管理,分配标注任务,实现多人协同标注。

3、支持自动标注功能,平台内置标注插件。

4、支持数据清洗,提供的数据清洗功能对图像数据集和文本数据集进行清洗。可以对数据集中的图片进行去模糊、去近似、批量旋转、批量镜像等多种基础清洗服务,以及过滤无人脸图片、过滤无人体图片等高级清洗服务。同时对文本数据进行去emoji,去url繁体转简体的操作。完成数据清洗后,可提升数据质量,方便进行下一步的数据标注等操作。

5、支持数据增强,可以通过数据增强策略,对数据本身进行一定程度的扰动和扩充,从而产生"新"数据,例如改变图片形状、颜色、反转图片等,在训练时会通过学习大量的"新"数据,提高模型的泛化能力

三、模型训练

1、预置模型调参

预置模型调参,即在平台已经适配的模型基础上进行进一步的参数优化,基于模型创建训练任务。选择选择数据集、验证集、测试集,选择模型、选择模型训练框架(PyTorch、TensorFlow等)、设置超参、环境变量、CPU/GPU环境资源等,执行训练任务。支持查看训练进度、运行详情,并通过Tensorboad、visualDL等可视化工具展示各项训练数据指标。

2、算法开发

算法开发,即平台为开发者提供模型开发环境,可以可以自主下载模型进行训练。支持创建Notebook环境,创建时选择开发语言(Python3.7)、AI框架(PaddlePaddle、Pytorch、tensorflow、sklearn)、AI算力资源、cuda版本等。

支持启动Notebook打开在线IDE环境,集成Jupyter Lab/PyCharm/VScode/BML CodeLab等工具,帮助用户完成对底层操作系统层面的目录管理、数据集管理、代码管理(代码库管理/代码开发/代码版本管理)、模型管理(模型下载/模型开发/模型版本)、环境监控等工作


支持Notebook的启动、停止、编辑、删除、SSH访问等操作,配置模型参数、发布并导出模型。

3、可视化建模

可视化建模基于无代码的方式,在交互式画布上直观连接数据处理、特征工程、算法预测与评估等组件,通过拖拉拽方式,进而完成模型的开发。

四、模型仓库

支持模型导入,模型版本管理,支持模型下载、删除。支持将模型训练任务转换为模型文件,系统内置常用开源模型。包括:

五、模型评估

支持对训练模型进行质量验证,支持选择对应模型、版本、数据、AI算力创建评估任务,支持查看评估报告,包括验证结果,支持查看基本结论、准确率、F1-score、精确率、召回率。


六、模型推理

支持在线服务的部署,支持公有云部署、纯离线部署、端云协同等部署方式,支持服务的停止/启动、预测、编辑、扩容和删除。支持为推理模型创建接入应用,以便用户可通过api访问使用。支持多种推理引擎TensorRT、ONNX。

公有云部署:在线服务,即将模型仓库中的模型部署在BML提供的云端机器资源中,您可以通过访问在线API实时获取模型预测结果。您可以结合实际业务需求灵活地配置所需机器资源,并可以随时操作服务启停和扩缩容。

端云协同服务:本地+云端联合部署的模式,BML端云协同服务由EasyEdge端与边缘AI服务平台提供、基于百度智能边缘构建,能够便捷地将BML定制模型的推理能力拓展至应用现场,提供临时离线、低延时的计算服务。

离线部署方式:将训练完成的模型部署在本地,离线网络环境下调用模型。可选择将模型部署在本地的服务器、小型设备上,通过API、SDK进一步继承,灵活适应不同业务场景

七、平台运营

支持租户管理、权限控制、配额管理、开源与企业自由模型托管、集群管理、资源任务统计等。付费类型支持包年包月或按需付费,支持设置自动续约,

八、平台运维

1、支持针对GPU资源的调度策略。支持任务亲和性策略,不同容器的vGPU资源来自相同的物理GPU设备。

2、支持设置资源优先级。资源不足时,启动高优先级的任务能够抢占正在运行的低优先级任务的资源。

3、支持集群管理,资源总览、资源告警、节点核心利用率、集群使用率、GPU基本监控、性能指标监控、集群Node监控,故障感知、任务分配和调度、历史数据分析、队列管理,队列列表,搜索,同步,选择租户,资源,执行日志

4、资源超分,支持算力、显存双维度资源超分,能够支持单个物理GPU能够分配超过物理资源上限的资源量给业务应用

此为系列文章,详细描述智算平台投资、建设、运营相关的规划设计、架构原理等,此关注本号其他章节。

  1. 《投资智算中心—“投-建-运”一体化服务》
  2. 《建设智算中心-三大运营模式篇》
  3. 《建设智算中心-改善运营服务模式,提高算力利用率》
  4. 《建设智算中心-用户群体与业务场景分析》
  5. 《建设智算中心-Flops算力与大模型参数、GPU卡型号间关系》
  6. 《建设智算中心-需满足企业等保合规要求》
  7. 《建设智算中心-满足生成式人工智能服务安全基本要求》
  8. 《建设智算中心-需获取的相关认证》
  9. 《建设智算中心-通算、智算、超算业务架构》
  10. 《建设智算中心-多元算力中心组网拓扑图》
  11. 《建设智算中心-通算平台整体功能架构(1)》
  12. 《建设智算中心-通算平台整体功能架构(2)》
  13. 《建设智算中心-通算平台标准组网模式》
  14. 《建设智算中心-通算平台计算架构原理》
  15. 《建设智算中心-通算平台存储架构原理》
  16. 《建设智算中心-通算平台网络架构原理》
  17. 《建设智算中心-通算平台三级等保建设方案》
  18. 《建设智算中心-通算平台双活/灾备/迁移机制》
  19. 《建设智算中心-人工智能开发平台业务架构图》

相关推荐

FastUI:用Python构建高性能React应用,告别JavaScript

在现代Web开发中,前后端分离已经成为主流趋势。然而,前端开发往往需要深入掌握JavaScript和各种框架,这对于许多Python开发者来说是一个不小的挑战。今天,我们要介绍一个革命性的UI框架——...

Python + Flet 开发网站的最佳数据库模块组合

对于使用Python和Flet开发网站并需要数据库支持的应用,以下是推荐的模块组合方案。方案一:SQLite+SQLAlchemy(推荐轻量级方案)**适用场景**:中小型应用、单用户或...

前端程序员应该往全栈方向发展吗?还是坚守前端?

这是一个非常经典且重要的问题,几乎每一位走到职业生涯十字路口的前端程序员都会思考。它没有一个绝对的“正确答案”,但我们可以从多个维度来分析,帮你找到最适合你的那条路。简单来说,这不是一个“要不要”的...

Python交互仪表盘工具:Panel 进阶学习路线图

Panel作为Python生态系统中最强大的交互式仪表盘工具之一,其学习曲线既平缓又深远。这里我将为您构建一个系统化的进阶学习框架,包含实战项目和关键学习节点。1.现代化Web集成开发1....

PuePy:将Python带入浏览器的革命性框架

在现代网络开发中,JavaScript无疑是主导地位的编程语言。但最近,随着WebAssembly和PyScript的崛起,Python的使用场景逐渐扩展到了前端开发领域。PuePy应运而生,作为一...

不容易!找到一个python的超简易网站搭建神器

作者:清香客来源:Python技术相信很多学习python的酱友们,大部分和我一样是为了提升工作效率,但是在提升自己的工作效率时,也会想着做同样工作的同事能不能也用上自己写的脚本(视工作环境而定)...

PyWebView:用 Python 构建桌面应用的神器

作为一个Python开发者,我一直希望能找到一种简便的方法来构建桌面应用,而不是去学习诸如Electron这种重度依赖JavaScript的技术栈。就在我为桌面应用开发寻找替代方案时,遇到...

Python Django框架中级教程:深入探索Django的核心功能

在Python的Web开发领域中,Django框架以其强大的功能和高效的开发模式占据着重要地位。对于已经掌握了Django基础的开发者来说,进一步深入学习中级知识能让我们开发出更复杂、更强大的Web应...

【Python程序开发系列】使用Flask实现前后端分离(案例)

这是我的第398篇原创文章。一、引言随着web开发的不断发展,前后端分离已成为越来越流行的架构设计。Flask是一个轻量级的Pythonweb框架,非常适合用于构建API,然后配合前端框...

每天一个Python库:Flask超轻量Web框架,灵活高效!

为什么要学Flask?Flask是一个「微型但强大的」Web框架:极简上手,几行代码即可跑起来灵活扩展,想加啥加啥(RESTful、JWT、数据库…)文档齐全,适合入门API开发或快...

Python个人量化投资系统:后台搭建

独立搞量化系统的程序员最烦啥?重复造权限管理的轮子绝对排前三。技术老手用Python+PearAdminFlask两天搭出量化后台,实测开源框架真能省下80%基础工作量。开源后台框架选对,一人项目...

python后端学什么(python后端好找工作吗)

在当今数字化的时代,Python后端开发成为了众多开发者追逐的热门领域。那么,想要在这个领域崭露头角,我们究竟应该学些什么呢?学习Python后端开发需要掌握全栈技术栈,涵盖从基础语法到分布式...

Motia:重新定义后端与智能体整合的未来平台

在AIagent技术飞速发展的今天,我们拥有了诸如Dify、RAGFlow、LangChain等一系列优秀平台。然而,随着场景复杂度增加,开发者正面临一个共同问题:后端越来越碎片化,Agen...

Python数据校验不再难:Pydantic库的工程化实践指南

在FastAPI框架横扫Python后端开发领域的今天,其默认集成的Pydantic库正成为处理数据验证的黄金标准。这个看似简单的库究竟隐藏着哪些让开发者爱不释手的能力?本文将通过真实项目案例,带您解...

Python Flask 建站框架实操教程(flask框架网页)

下面我将带您从零开始构建一个完整的Flask网站,包含用户认证、数据库操作和前端模板等核心功能。##第一部分:基础项目搭建###1.创建项目环境```bash#创建项目目录mkdirfl...

取消回复欢迎 发表评论: