多模态大模型:基础架构(多模态包括哪些模态)
ccwgpt 2024-10-21 03:57 173 浏览 0 评论
大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”。
多模态大型语言模型(MLLM)是人工智能领域的前沿创新,它结合了语言和视觉模型的功能,可以处理复杂的任务,如视觉问答和图像字幕。这些模型利用大规模预训练,集成了多种数据模态,以显著提高其在各种应用程序中的性能。
架构概览
较为常见的MLLM框架可以分为三个主要模块:接收且有效编码的多模态编码器、多模态之间数据对齐的投影器、和接收对齐信号并执行推理的大语言模型。当然各种项目总有自己的差异化设计,例如Chameleon或者Octo。<可以随链接查看!>
MLLM的主要的优化方向,在于处理高分辨率图像、压缩视觉标记(token)、多模态对齐、高效结构和利用紧凑语言模型等。
上图是一些MLLM的部分例子,将其中的基座LLM、视觉编码器、图像分辨率和投影器列具出来。
视觉编码器
来看看视觉编码器,与主流MLLM实践一致,基本上都是选择CLIP<链接查看详情!>的预训练模型。这种方法有助于更好地对齐视觉和文本输入的特征空间。视觉编码器在MLLM参数中所占比例相对较小,因此与语言模型相比,轻量级优化不是刚需。
单一的编码器肯定无法在不同的任务中始终表现出色,将各种偏差的数据编码器进行联动则能够产生令人惊讶的相似结果。
BRAVE的深度消融实验证明了上述的结论。BRAVE按顺序连接了K个不同视觉编码器的特征(上图左)。之后这些串联特征被MEQ-Former进一步提炼(上图右)。
多个视觉编码器的确有助于捕捉广泛的视觉表征,从而增强模型对视觉数据的理解。Cobra将DINOv2和SigLIP集成为其视觉主干,其原理是将DINOv2的低级空间特征与 SigLIP提供的语义属性相结合将提高后续任务的性能。SPHINX-X采用两个视觉编码器DINOv2和CLIP-ConvNeXt。
鉴于这些基础模型已经通过不同的学习方法(自监督与弱监督)和网络架构(ViT与 CNN)进行预训练,应该能够提供互补和复杂的视觉表征。
这些术语将在后续的文章中逐一讲解!可以关注“具身智能”专栏!
轻量级视觉编码器Vision Transformer架构在实际应用中由于硬件和环境限制而面临挑战。ViTamin代表一种轻量级视觉模型,专门针对视觉和语言模型量身定制。依照下图所示,通过两层的MBC外加一层的注意力块完成视觉编码,然后和文本一起进行对比学习。
值得一提,ViTamin-XL的参数数量只有436M,却达到了ImageNet zero-shot 82.9%的准确率,超过了EVA-E的准确率82.0%。要知道EVA-E的参数数量为4.4B。
视觉投影器
视觉投影器的目的在于将视觉嵌入(Visual embeddings)等输入映射到文本空间(Text Embeddings)中。换句话说也就是将不同模态进行对齐。
1)投影,相信读者最直观的就是线性投影仪或多层感知器(MLP)来实现,可以理解就是最普通的神经网络。比如几层的神经网与非线性激活函数组合而成。
2)部分的投影基于注意力机制。BLIP2引入Q-Former,这是一种轻量级转换器,它使用一组可学习的查询向量从冻结的视觉模型中提取视觉特征。
Q-former基于对比学习进行训练,上图右侧展示了由Flamingo提出的感知重采样器(Perceiver Resampler)考虑在交叉注意力中使用earned Queries(上图彩色序列块)作为Q,而图像特征展开与Q连接起来,在交叉注意力中充当K和V。
上图为BLIP-2的第二阶段架构,通过这种方式,在Learned Queries的相应位置的转换器输出被作为视觉特征的聚合表示,从而将可变长度的视频帧特征标准化为固定大小的特征。
3)部分的投影基于CNN。MobileVLMv2提出了LDPv2,这是一种新的投影。由三部分组成:特征转换、Token压缩和位置信息增强。通过使用逐点卷积层、平均池化和具有跳跃连接的PEG模块,LDPv2实现了更高的效率,与原始LDP相比,参数减少了99.8%,处理速度略快。
4)最后还有基于大名鼎鼎的Mamba,VL-Mamba在其视觉语言投影仪中实现了2D视觉选择性扫描(VSS)技术,促进了不同学习方法的融合。
5)和所有武功都有最后一式一样,投影可以采用混合架构。Honeybee提出了两种视觉投影仪的组合,即C-Abstractor和D-Abstractor,它们遵循两个主要设计原则:(i)在视觉Token数量生成方面提供适应性,以及(ii)有效地维护本地上下文。下图详细的展示了Honeybee的投影混合架构:
C-Abstractor,或卷积抽象器,专注于通过采用卷积架构来熟练地对局部上下文进行建模。该结构由L个ResNet块组成,然后紧接着是额外的L个ResNet块,这有助于将视觉特征抽象为任意平方数量的视觉标记。而D-Abstractor是基于Deformable注意力的Abstractor。
视觉Token压缩
MLLM在需要复杂识别的任务中面临着相当大的挑战,尤其是带有OCR的场景。尽管提高图像分辨率可以解决,然而增加视觉Token的数量给MLLM带来了巨大的计算负担,这主要是由于Transformer架构中计算成本与输入Token数量呈二次比例,因此如何优化则成为这个领域很热门的主题。
直接使用高分辨率视觉编码器进行细粒度感知的成本高,并且不符合实际使用要求。为了让MLLM能够感知细节且实现低分辨率的编码能力,一般会利用全局视图进行图片规模的压缩以及通过拆分衍生局部的图像块(Patch)。
LLaVA-UHD提出了一种图像模块化策略,将原生分辨率的图像划分为更小的可变大小切片,以实现高效和可扩展的编码。注意下图左侧,这个框架自动的选择最优的切分方案。
此外,InternLM-XComposer2-4KHD 引入了一种通过自动布局排列动态调整分辨率的策略,不仅可以保持图像的原始纵横比,还可以自适应地改变Patch布局和计数,从而提高图像信息提取的效率。
通过对不同分辨率的图像实施自适应输入策略,可以在感知能力和效率之间实现平衡。如上图所示,说白了就是将原图压缩和切块一起进行编码。
Mini-Gemini由两个编码器组成,一个用于高分辨率图像,另一个用于低分辨率视觉嵌入。它提出了patch的信息挖掘,它使用低分辨率的视觉嵌入作为查询,通过交叉注意力从高分辨率候选者那里检索相关的视觉线索。
Scaling on Scales表明,多尺度较小模型的学习能力与较大模型相当,并且预训练较小的模型可以在MLLM基准测试上匹配甚至超过较大模型的优势,同时计算效率更高。
S2-Wrapper是一种简单的机制,它可以以无参数的方式将任何预训练的视觉模型扩展到多个图像尺度。以ViT-B为例,S2-Wrapper将输入图像插值到不同的尺度(例如2242和4482),然后将每个尺度分割成几个与默认输入大小相同的子图像(4482→4×2242)。对于每个尺度,所有子图像都被输入到同一个模型中,输出(例如4×162)被合并到整个图像的特征图中(322)。不同尺度的特征图被平均池化到原始空间大小(162)并连接在一起。最终的多尺度特征具有与单尺度特征相同的空间形状,但有更高维度(例如1536 vs 768)。
小结
MLLM的主要问题是资源需求,训练这些模型需要大量的计算资源,通常只有拥有大量预算的大型企业才能使用。例如,在 NVIDIA A100 GPU上训练像MiniGPT-v2这样的模型需要超过800个GPU小时,这对于许多学术研究人员和小公司来说成本是巨大的。此外,推理的高计算成本进一步加剧了这个问题,使得在边缘计算等资源受限的环境中部署这些模型变得困顿。OpenAI的GPT-4V和谷歌的Gemini等模型通过大规模预训练取得了显著的性能,但它们的计算需求限制了它们的使用。
目前应对这些挑战的方法集中在优化MLLM的效率上,需要MLLM采用多种创新技术来解决资源消耗问题。其中包括引入更轻的架构,旨在降低参数和计算复杂性。例如,MobileVLM和LLaVA-Phi等模型使用视觉Token压缩和高效的视觉语言投影器来提高效率。
通过采用Token压缩和轻量级模型结构,这些模型实现了计算效率的显著提高,并拓宽了其应用范围。例如,与以前的型号相比,LLaVA-UHD支持处理分辨率高达6倍的图像,只需94%的计算量。这使得在学术环境中训练这些模型成为可能,一些模型只需23小时即可使用8个A100 GPU进行训练。值得一提的是,这些效率的提高不是以牺牲性能为代价的。
相关推荐
- 一个基于.Net Core遵循Clean Architecture原则开源架构
-
今天给大家推荐一个遵循CleanArchitecture原则开源架构。项目简介这是基于Asp.netCore6开发的,遵循CleanArchitecture原则,可以高效、快速地构建基于Ra...
- AI写代码翻车无数次,我发现只要提前做好这3步,bug立减80%
-
写十万行全是bug之后终于找到方法了开发"提示词管理助手"新版本那会儿,我差点被bug整崩溃。刚开始两周,全靠AI改代码架构,结果十万行程序漏洞百出。本来以为AI说没问题就稳了,结果...
- OneCode低代码平台的事件驱动设计:架构解析与实践
-
引言:低代码平台的事件驱动范式在现代软件开发中,事件驱动架构(EDA)已成为构建灵活、松耦合系统的核心范式。OneCode低代码平台通过创新性的注解驱动设计,将事件驱动理念深度融入平台架构,实现了业务...
- 国内大厂AI插件评测:根据UI图生成Vue前端代码
-
在IDEA中安装大厂的AI插件,打开ruoyi增强项目:yudao-ui-admin-vue31.CodeBuddy插件登录腾讯的CodeBuddy后,大模型选择deepseek-v3,输入提示语:...
- AI+低代码技术揭秘(二):核心架构
-
本文档介绍了为VTJ低代码平台提供支持的基本架构组件,包括Engine编排层、Provider服务系统、数据模型和代码生成管道。有关UI组件库和widget系统的信息,请参阅UI...
- GitDiagram用AI把代码库变成可视化架构图
-
这是一个名为gitdiagram的开源工具,可将GitHub仓库实时转换为交互式架构图,帮助开发者快速理解代码结构。核心功能一键可视化:替换GitHubURL中的"hub...
- 30天自制操作系统:第六天:代码架构整理与中断处理
-
1.拆开bootpack.c文件。根据设计模式将对应的功能封装成独立的文件。2.初始化pic:pic(可编程中断控制器):在设计上,cpu单独只能处理一个中断。而pic是将8个中断信号集合成一个中断...
- AI写代码越帮越忙?2025年研究揭露惊人真相
-
近年来,AI工具如雨后春笋般涌现,许多人开始幻想程序员的未来就是“对着AI说几句话”,就能轻松写出完美的代码。然而,2025年的一项最新研究却颠覆了这一期待,揭示了一个令人意外的结果。研究邀请了16位...
- 一键理解开源项目:两个自动生成GitHub代码架构图与说明书工具
-
一、GitDiagram可以一键生成github代码仓库的架构图如果想要可视化github开源项目:https://github.com/luler/reflex_ai_fast,也可以直接把域名替换...
- 5分钟掌握 c# 网络通讯架构及代码示例
-
以下是C#网络通讯架构的核心要点及代码示例,按协议类型分类整理:一、TCP协议(可靠连接)1.同步通信//服务器端usingSystem.Net.Sockets;usingTcpListene...
- 从复杂到优雅:用建造者和责任链重塑代码架构
-
引用设计模式是软件开发中的重要工具,它为解决常见问题提供了标准化的解决方案,提高了代码的可维护性和可扩展性,提升了开发效率,促进了团队协作,提高了软件质量,并帮助开发者更好地适应需求变化。通过学习和应...
- 低代码开发当道,我还需要学习LangChain这些框架吗?| IT杂谈
-
专注LLM深度应用,关注我不迷路前两天有位兄弟问了个问题:当然我很能理解这位朋友的担忧:期望效率最大化,时间用在刀刃上,“不要重新发明轮子”嘛。铺天盖地的AI信息轰炸与概念炒作,很容易让人浮躁与迷茫。...
- 框架设计并不是简单粗暴地写代码,而是要先弄清逻辑
-
3.框架设计3.框架设计本节我们要开发一个UI框架,底层以白鹭引擎为例。框架设计的第一步并不是直接撸代码,而是先想清楚设计思想,抽象。一个一个的UI窗口是独立的吗?不是的,...
- 大佬用 Avalonia 框架开发的 C# 代码 IDE
-
AvalonStudioAvalonStudio是一个开源的跨平台的开发编辑器(IDE),AvalonStudio的目标是成为一个功能齐全,并且可以让开发者快速使用的IDE,提高开发的生产力。A...
- 轻量级框架Lagent 仅需20行代码即可构建自己的智能代理
-
站长之家(ChinaZ.com)8月30日消息:Lagent是一个专注于基于LLM模型的代理开发的轻量级框架。它的设计旨在简化和提高这种模型下代理的开发效率。LLM模型是一种强大的工具,可以...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- mfc框架 (52)
- abb框架断路器 (48)
- beego框架 (52)
- java框架spring (58)
- grpc框架 (65)
- tornado框架 (48)
- 前端框架bootstrap (54)
- orm框架有哪些 (51)
- 知识框架图 (52)
- ppt框架 (55)
- 框架图模板 (59)
- 内联框架 (52)
- cad怎么画框架 (58)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)