百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

建设智算中心-人工智能开发平台业务架构图

ccwgpt 2024-10-23 09:13 49 浏览 0 评论

原创内容实属不易,请大家多多添加关注。本号将重点聚焦于与人工智能项目从投资到建设、运营的全生命周期方案。结合实际项目经验进行总结,希望能够为大家带来帮助

人工智能算力中心项目,按项目阶段主要分为投资、建设、运营三部分,按服务内容分为通算平台、智算平台、超算平台。本文重点介绍智算平台的人工智能开发平台业务架构图,其他内容请参考本号其他章节。

标准的智算中心,需要能够为用户提供模型训练推理一站式服务,包括数据服务、模型训练、模型仓库、模型评估、模型推理、运维管理、运营管理等服务模块。

一、数据集管理

支持创建数据集,列表展示,支持数据集的上传、下载、发布、删除和修改;支持图片、文本、表格等多种数据类型。支持上传测试数据集、模型数据,支持挂载多种数据源,包括NAS存储、对象存储、分布式存储等。

二、数据标注

1、支持新建标注任务,对多种数据类型进行标注,包括图片、文本、视频等,标注类型分为图像分类、物体检测、图像分隔等,标注格式支持json、xml、文件夹命名等不同格式。

2、支持对标注团队进行管理,分配标注任务,实现多人协同标注。

3、支持自动标注功能,平台内置标注插件。

4、支持数据清洗,提供的数据清洗功能对图像数据集和文本数据集进行清洗。可以对数据集中的图片进行去模糊、去近似、批量旋转、批量镜像等多种基础清洗服务,以及过滤无人脸图片、过滤无人体图片等高级清洗服务。同时对文本数据进行去emoji,去url繁体转简体的操作。完成数据清洗后,可提升数据质量,方便进行下一步的数据标注等操作。

5、支持数据增强,可以通过数据增强策略,对数据本身进行一定程度的扰动和扩充,从而产生"新"数据,例如改变图片形状、颜色、反转图片等,在训练时会通过学习大量的"新"数据,提高模型的泛化能力

三、模型训练

1、预置模型调参

预置模型调参,即在平台已经适配的模型基础上进行进一步的参数优化,基于模型创建训练任务。选择选择数据集、验证集、测试集,选择模型、选择模型训练框架(PyTorch、TensorFlow等)、设置超参、环境变量、CPU/GPU环境资源等,执行训练任务。支持查看训练进度、运行详情,并通过Tensorboad、visualDL等可视化工具展示各项训练数据指标。

2、算法开发

算法开发,即平台为开发者提供模型开发环境,可以可以自主下载模型进行训练。支持创建Notebook环境,创建时选择开发语言(Python3.7)、AI框架(PaddlePaddle、Pytorch、tensorflow、sklearn)、AI算力资源、cuda版本等。

支持启动Notebook打开在线IDE环境,集成Jupyter Lab/PyCharm/VScode/BML CodeLab等工具,帮助用户完成对底层操作系统层面的目录管理、数据集管理、代码管理(代码库管理/代码开发/代码版本管理)、模型管理(模型下载/模型开发/模型版本)、环境监控等工作


支持Notebook的启动、停止、编辑、删除、SSH访问等操作,配置模型参数、发布并导出模型。

3、可视化建模

可视化建模基于无代码的方式,在交互式画布上直观连接数据处理、特征工程、算法预测与评估等组件,通过拖拉拽方式,进而完成模型的开发。

四、模型仓库

支持模型导入,模型版本管理,支持模型下载、删除。支持将模型训练任务转换为模型文件,系统内置常用开源模型。包括:

五、模型评估

支持对训练模型进行质量验证,支持选择对应模型、版本、数据、AI算力创建评估任务,支持查看评估报告,包括验证结果,支持查看基本结论、准确率、F1-score、精确率、召回率。


六、模型推理

支持在线服务的部署,支持公有云部署、纯离线部署、端云协同等部署方式,支持服务的停止/启动、预测、编辑、扩容和删除。支持为推理模型创建接入应用,以便用户可通过api访问使用。支持多种推理引擎TensorRT、ONNX。

公有云部署:在线服务,即将模型仓库中的模型部署在BML提供的云端机器资源中,您可以通过访问在线API实时获取模型预测结果。您可以结合实际业务需求灵活地配置所需机器资源,并可以随时操作服务启停和扩缩容。

端云协同服务:本地+云端联合部署的模式,BML端云协同服务由EasyEdge端与边缘AI服务平台提供、基于百度智能边缘构建,能够便捷地将BML定制模型的推理能力拓展至应用现场,提供临时离线、低延时的计算服务。

离线部署方式:将训练完成的模型部署在本地,离线网络环境下调用模型。可选择将模型部署在本地的服务器、小型设备上,通过API、SDK进一步继承,灵活适应不同业务场景

七、平台运营

支持租户管理、权限控制、配额管理、开源与企业自由模型托管、集群管理、资源任务统计等。付费类型支持包年包月或按需付费,支持设置自动续约,

八、平台运维

1、支持针对GPU资源的调度策略。支持任务亲和性策略,不同容器的vGPU资源来自相同的物理GPU设备。

2、支持设置资源优先级。资源不足时,启动高优先级的任务能够抢占正在运行的低优先级任务的资源。

3、支持集群管理,资源总览、资源告警、节点核心利用率、集群使用率、GPU基本监控、性能指标监控、集群Node监控,故障感知、任务分配和调度、历史数据分析、队列管理,队列列表,搜索,同步,选择租户,资源,执行日志

4、资源超分,支持算力、显存双维度资源超分,能够支持单个物理GPU能够分配超过物理资源上限的资源量给业务应用

此为系列文章,详细描述智算平台投资、建设、运营相关的规划设计、架构原理等,此关注本号其他章节。

  1. 《投资智算中心—“投-建-运”一体化服务》
  2. 《建设智算中心-三大运营模式篇》
  3. 《建设智算中心-改善运营服务模式,提高算力利用率》
  4. 《建设智算中心-用户群体与业务场景分析》
  5. 《建设智算中心-Flops算力与大模型参数、GPU卡型号间关系》
  6. 《建设智算中心-需满足企业等保合规要求》
  7. 《建设智算中心-满足生成式人工智能服务安全基本要求》
  8. 《建设智算中心-需获取的相关认证》
  9. 《建设智算中心-通算、智算、超算业务架构》
  10. 《建设智算中心-多元算力中心组网拓扑图》
  11. 《建设智算中心-通算平台整体功能架构(1)》
  12. 《建设智算中心-通算平台整体功能架构(2)》
  13. 《建设智算中心-通算平台标准组网模式》
  14. 《建设智算中心-通算平台计算架构原理》
  15. 《建设智算中心-通算平台存储架构原理》
  16. 《建设智算中心-通算平台网络架构原理》
  17. 《建设智算中心-通算平台三级等保建设方案》
  18. 《建设智算中心-通算平台双活/灾备/迁移机制》
  19. 《建设智算中心-人工智能开发平台业务架构图》

相关推荐

定时任务工具,《此刻我要...》软件体验

之前果核给大家介绍过一款小众但实用的软件——小说规则下载器,可以把网页里的小说章节按照规则下载到本地,非常适合喜欢阅读小说的朋友。有意思的是,软件作者当时看到果核写的体验内容后,给反推荐到他的帖子里去...

前端定时任务的神库:Node-cron,让你的项目更高效!

在前端开发中,定时任务是一个常见的需求。无论是定时刷新数据、轮询接口,还是发送提醒,都需要一个可靠且灵活的定时任务解决方案。今天,我要向大家介绍一个强大的工具——Node-cron,它不仅能解决定时任...

Shutter Pro!一款多功能定时执行任务工具

这是一款可以在电脑上定时执行多种任务的小工具,使用它可以根据时间,电量等来设定一些定时任务,像定时打开程序、打开文件,定时关机重启,以及定时弹窗提醒等都可以轻松做到。这是个即开即用的小工具,无需安装,...

深度解析 Redis 缓存击穿及解决方案

在当今互联网大厂的后端开发体系中,Redis缓存占据着极为关键的地位。其凭借高性能、丰富的数据类型以及原子性操作等显著优势,助力众多高并发系统从容应对海量用户的访问冲击,已然成为后端开发从业者不可或...

从零搭建体育比分网站完整步骤(比较好的体育比分软件)

搭建一个体育比分网站是一个涉及前端、后端、数据源、部署和维护的完整项目。以下是从零开始搭建的详细流程:一、明确项目需求1.功能需求:实时比分展示(如足球、篮球、网球等)支持多个联赛和赛事历史数据查询比...

告别复杂命令行:GoCron 图形界面让定时任务触手可及

如果你是运维人员或者经常接触一些定时任务的配置,那么你一定希望有一款图形界面来帮助你方便的轻松配置定时任务,而GoCron就是这样一款软件,让你的配置可视化。什么是GoCron从名字你就可以大概猜到,...

Java任务管理框架核心技术解析与分布式高并发实战指南

在当今数字化时代,Java任务管理框架在众多应用场景中发挥着关键作用。随着业务规模的不断扩大,面对分布式高并发的复杂环境,掌握其核心技术并进行实战显得尤为重要。Java任务管理框架的核心技术涵盖多个方...

链表和结构体实现:MCU软件定时器(链表在单片机中的应用)

在一般的嵌入式产品设计中,介于成本、功耗等,所选型的MCU基本都是资源受限的,而里面的定时器的数量更是有限。在我们软件设计中往往有多种定时需求,例如脉冲输出、按键检测、LCD切屏延时等等,我们不可能...

SpringBoot定时任务(springboot定时任务每小时执行一次)

前言在我们开发中,经常碰到在某个时间点去执行某些操作,而我们不能人为的干预执行,这个时候就需要我们使用定时任务去完成该任务,下面我们来介绍下载springBoot中定时任务实现的方式。定时任务实现方式...

定时任务新玩法!systemd timer 完整实战详解

原文链接:「链接」Hello,大家好啊!今天给大家带来一篇使用systemdtimer实现定时任务调度的详细实战文章。相比传统的crontab,systemdtimer更加现代化、结构清晰...

Celery与Django:打造高效DevOps的定时任务与异步处理神器

本文详细介绍了Celery这一强大的异步任务队列系统,以及如何在Django框架中应用它来实现定时任务和异步处理,从而提高运维开发(DevOps)的效率和应用性能。下面我们先认识一下Cele...

订单超时自动取消的7种方案,我用这种!

前言在电商、外卖、票务等系统中,订单超时未支付自动取消是一个常见的需求。这个功能乍一看很简单,甚至很多初学者会觉得:"不就是加个定时器么?"但真到了实际工作中,细节的复杂程度往往会超...

裸机下多任务框架设计与实现(gd32裸机配置lwip 网络ping不通)

在嵌入式系统中,特别是在没有操作系统支持的裸机环境下,实现多任务执行是一个常见的挑战。本文将详细介绍一种基于定时器的多任务框架设计,通过全局时钟和状态机机制,实现任务的非阻塞调度,确保任务执行中不会出...

亿级高性能通知系统构建,小白也能拿来即用

作者介绍赵培龙,采货侠JAVA开发工程师分享概要一、服务划分二、系统设计1、首次消息发送2、重试消息发送三、稳定性的保障1、流量突增2、问题服务的资源隔离3、第三方服务的保护4、中间件的容错5、完善...

运维实战:深度拆解Systemd定时任务原理,90%的人不知道的玩法

运维实战:深度拆解Systemd定时任务原理,90%的人不知道的高效玩法一、Systemd定时任务的核心原理Systemd定时任务是Linux系统中替代传统cron的现代化解决方案,通过...

取消回复欢迎 发表评论: