打败 Qwen2.5-VL,完全开源可复现LLaVA-OneVision-1.5 的多模态模型

发布时间:2025年10月17日 来源:AIGC开放社区 作者:AIGC开放社区 浏览量:23

一个完全开源多模态模型,全面超越 Qwen2.5-VL。

图片

LLaVA(Large Language and Vision Assistant,大型语言与视觉助手)的故事,是开源社区用两年时间,真正复现出一个顶级的多模态模型的拼搏史。

23年4月,一个名为 LLaVA 的开创性工作横空出世。它直接用纯语言模型 GPT-4 来生成图文并茂的指令数据,然后用这些数据去微调一个连接了视觉编码器和大型语言模型的端到端模型。这个叫“视觉指令微调”的方法,第一次让开源社区低成本地拥有了“看图-理解-对话”的能力,显著缩小了与顶级闭源模型的差距,成了一个重要的里程碑。

图片

几个月后的10月,LLaVA-1.5 问世。它换上了更高分辨率的“眼睛”(CLIP-ViT-L-336px),用更干净、更面向学术任务的数据进行训练。整个训练过程被压缩到在单个8卡A100节点上只需一天左右就能完成。设计简洁,效果强劲,LLaVA-1.5 在11个基准测试上刷新了当时的纪录。

时间来到2024年,LLaVA 的进化开始加速。1月的 LLaVA-NeXT 将输入图像分辨率又提升了4倍,在推理、文字识别(OCR)和世界知识方面大幅改进,甚至在好几个基准测试上超过了当时的 Gemini Pro。4月,专攻视频的 LLaVA-NeXT-Video 出现,它巧妙地利用技术,让只在图片上训练过的模型,展现出了惊人的零样本视频理解能力。6月,LLaVA-NeXT-Interleave 更进一步,提出了一个统一的框架,能同时处理单张图片、多张图片、视频(多帧)乃至3D(多视图)的输入。

各路分支最终在2024年8月的 LLaVA-OneVision 这里汇合。它整合了之前所有的进展,成为了一个能同时处理单图像、多图像和视频场景的单一模型,真正实现了统一接口。

图片

这条进化路线清晰地展示了 LLaVA 系列如何从一个简单的图文对齐模型,一步步成长为一个功能全面、性能卓越的框架。

但一个更深层次的问题也浮现了出来。

开源不等于可以复现

尽管像 LLaVA 这样的项目在不断前进,多模态模型的接口和架构也逐渐趋同,但开源社区里,“只开放模型权重”和“真正可复现的路径”之间,始终存在一条鸿沟。

像 Qwen2.5-VL、InternVL3.5 这样的模型,在 OCR、文档理解和数理推理上都设定了很高的标杆。但它们完整的训练数据清单、数据清洗和混合的比例、具体的采样策略和训练日程,往往都只是部分披露。

Molmo 项目尝试用更干净的数据流水线和精细化的设计去逼近闭源模型。Open-Qwen2VL 则证明,在更高效的范式下,即便只用很少的多模态数据也能取得很强的性能。这些都说明,当前开源社区面临的主要瓶颈,已经不是模型架构的选择,而是“配方与工程细节的可复现性”。

正是为了填平这条鸿沟,灵感实验室(EvolvingLMMs-Lab)团队围绕“高性能、低成本、强复现”这三大目标,在 LLaVA-OneVision 的体系上,推出了 LLaVA-OneVision-1.5。

图片

LLaVA-OneVision-1.5 的核心,就是提供一个开放、高效且可复现的完整框架,让任何人都能从零开始构建高质量的视觉语言模型。

训练流程分为三个阶段。

阶段1,语言-图像对齐。这个阶段的目标是预训练投影器,让它学会如何把视觉特征精准地“翻译”成语言模型的词嵌入。使用的是 LLaVA-1.5 的558K数据集。

阶段1.5,高质量知识学习。在对齐完成的基础上,进入这个中间阶段。模型的所有参数都会被“解冻”,开始在8500万的 LLaVA-OneVision-1.5-Mid-Traning 数据集上进行全参数训练。这个阶段旨在向语言模型中注入海量的视觉和知识,是模型能力大幅提升的关键。研究发现,仅在这个中间阶段扩展数据,就能产生最先进的模型,而不需要搞那些花里胡哨的复杂训练范式。

阶段2,视觉指令微调。最后,使用精心构建的 LLaVA-OneVision-1.5-Instruct 数据集进行全参数训练,让模型学会理解和遵循各种复杂的视觉指令,成为一个能处理多样化任务的多面手。

在具体的训练执行中,效率是重中之重。训练大型模型时,一个主要的效率杀手是“填充”(padding)。因为一个批次里的样本长度通常不一样,为了对齐,就得用填充符号把短的样本补齐。这些填充符号不包含任何信息,却占用了大量的计算资源,导致 GPU利用率低下。

为了解决这个问题,研究团队提出了一种离线并行数据打包方法。在数据预处理阶段,就把多个较短的样本合并成一个长的打包序列,尽可能让每个序列的长度都接近最大值。这种方法在运行时就不需要动态打包了,整个数据集都被处理得整整齐齐。在8500万的预训练样本上,这种方法实现了高达11倍的压缩比,极大地提升了训练效率。

在训练框架上,团队使用了基于 Megatron-LM 构建的 AIAK-Training-LLM。配合分布式优化器等技术,整个中期训练过程在128个A800 GPU上只花了3.7天就完成了。

一份人人都能照做的顶级菜谱

研究团队把整个“厨房”都开放出来:数据、训练与打包的工具链、所有配置文件和脚本、详细的日志,甚至连评测命令的构建和执行细节都一并公开。这确保了社区不仅能用,还能低成本地复现,并且在此基础上进行验证和扩展。

图片

LLaVA-OneVision-1.5 的架构遵循经典的“ViT–MLP–LLM”范式,但在核心部件的选择上极其考究。

它的“眼睛”,也就是视觉编码器,没有选择老牌的 SigLIP 或 DFN,而是采用了 RICE-ViT。这是一个关键决策。RICE-ViT 的绝活是区域感知的视觉理解,尤其擅长处理文档和图片中的文字。它不像其他模型那样只能看个大概,而是能精准地聚焦到图片里的某个物体或某段文字。

RICE-ViT 还有一个巨大优势:原生支持可变分辨率的输入,不需要像其他模型那样为不同尺寸的图片做特殊微调或切块处理,大大简化了工程。相比那些依赖多个复杂损失函数的方法,RICE-ViT 只用一个统一的聚类判别损失,就同时提升了通用理解、OCR 和定位能力。设计优雅,计算高效。

它的“大脑”,也就是大型语言模型,选用了 Qwen3 作为主干,为复杂的推理和生成任务提供了强大的支持。

模型能力的上限,最终还是由数据决定的。

LLaVA-OneVision-1.5 的预训练数据集 LLaVA-OneVision-1.5-Mid-Traning 包含8500万个高质量图文对,来源极其广泛。为了避免模型学“偏科”,研究团队引入了一种叫“概念均衡”的采样策略。

这个方法不依赖图片自带的、质量参差不齐的标题。它用一个预训练好的编码器,把所有图片和50万个概念词条都转换成数学向量,然后通过计算相似度,为每张图片匹配上最相关的概念。由于概念词条本身是均衡的,这就相当于给图片打上了均衡的语义标签。在采样时,那些代表罕见概念的图片被抽中的概率会更高,从而保证模型能“博览群书”,知识面更广。

图片

在指令微调阶段,团队构建了包含2200万样本的 LLaVA-OneVision-1.5-Instruct 数据集,并确保数据在标题生成、图表理解、代码数学、通用问答、定位计数、OCR 和科学等七个类别上覆盖均衡,让模型成为一个能应对各种任务的多面手。

数据表现

经过这一整套组合拳的打造,LLaVA-OneVision-1.5 的表现非常出色。

在全面的基准测试中,80亿参数的 LLaVA-OneVision-1.5-8B 在27个基准中的18个上超越了 Qwen2.5-VL-7B。而更小的40亿参数版本,则在全部27个基准上都超越了 Qwen2.5-VL-3B。

图片

一系列的消融研究也证实了每个设计选择的正确性。RICE-ViT 在 OCR 和文档理解任务上的优越性得到了验证。中期训练数据的扩展被证明能持续提升模型性能。概念均衡策略也被证实能让模型学得更好、更全面。

LLaVA-OneVision-1.5 不仅是一个强大的模型,更是一份详尽的、可复现的蓝图,真正为多模态人工智能研究的广泛普及做出了贡献。

参考资料:

https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Instruct-Data

https://arxiv.org/abs/2509.23661

https://github.com/LLaVA-VL/LLaVA-NeXT

https://github.com/haotian-liu/LLaVA

免责声明:本文来自AIGC开放社区客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。

0 0 0
有话要说  人讨论    23 人阅读
发表

游客

这位投稿者太神秘了,什么都没留下~

超天才网©2017 www.supergenius.cn All Rights Reserved ICP备09005826号 京ICP证130304号

联系我们| 加入我们| 法律声明| 关于我们| 评论互动

超天才网©2013-2014 All Rights Reserved ICP备09005826号 京ICP证130304号

关注我们: