AI图像编辑与生成,正迎来一场体验革命。
香港中文大学,香港科技大学,香港大学和字节跳动共同研发的系统DreamOmni2,实现图像编辑与生成领域最新SOTA。
指令遵循能力全面领先,真正做到指哪打哪。
他们推出的DreamOmni2系统,让AI真正学会了同时理解语言指令和参考图像。
文本+图片的多模态指令,精准解决了过去模型处理抽象概念(如风格,材质,光照)时的无力感,让创作变得像和一位心领神会的搭档对话一样自然。
要教会AI理解文本+图片的复杂指令,最大的难题是缺乏合适的训练数据。
对于图像编辑任务,过去的数据集通常只包含指令,输入图,输出图这样的三元组。它们无法告诉模型如何从一张独立的参考图中提取某个元素或风格,并应用到另一张图上。
对于图像生成任务,现有的数据构建方法,比如UNO,依赖分割模型来抠图,以生成参考图像。这种方法处理一个具体的物体还行,但一旦遇到抽象的属性,比如一种光影风格,或者被遮挡的物体,就无能为力了。
没有好的教材,AI自然学不会高阶的创作技巧。
DreamOmni2的第一个核心突破,就是创造了一套全新的三阶段流程,专门用来生产这种高质量的多模态指令训练数据。
第一阶段,是训练一个提取模型。
这个阶段的目标,是教会AI从一张复杂的图像中,精准地提取出某个具体的物体,或某种抽象的属性。
研究团队设计了一种特征混合方案。简单来说,它通过一个双分支结构,一边生成源图像,一边生成目标图像,并在过程中巧妙地混合两者的特征。
这种方法相比传统的数据生成方式,有三个明显的好处:它不降低图像的分辨率;不会因为图像拼接产生内容混叠;生成的数据质量和准确性都更高。
第二阶段,是创造多模态指令编辑数据。
有了第一阶段训练好的提取模型,事情就变得简单了。
研究团队先用文本到图像(T2I)模型和真实图像,创建一批高质量的目标图像。
然后,让提取模型从这些目标图像中,根据关键词(比如一只猫或复古风格)提取出物体或属性,生成一张参考图像。
接着,再用一个基于指令的编辑模型,对目标图像进行修改,比如把猫去掉,或者改变风格,从而生成一张源图像。
最后,用大型语言模型(LLM)根据这个过程,自动生成一句编辑指令,比如把参考图里的猫加到源图像中。
这样,一个包含源图像,指令,参考图像,目标图像的完整训练样本就诞生了。
第三阶段,是创造多模态指令生成数据。
这个阶段在第二阶段的基础上更进一步。
研究团队再次使用第一阶段的提取模型,从第二阶段生成的源图像中,再提取出一些物体,创造出更多的参考图像。
然后把这些新参考图和已有的参考图组合起来。
最终,就形成了一个包含多张参考图,一条指令和一张目标图的训练数据集。这个数据集让模型能够学习处理更复杂的,涉及1~5个参考图像的生成任务。
通过这三个步骤,DreamOmni2为自己量身打造了一套高质量的数据集,解决了多模态指令训练的根本难题。
有了数据,还需要一个能理解这些数据的模型框架。
传统的图像生成模型,比如FLUX-Kontext,一次只能处理一张输入图。要让它理解多张参考图,就需要一些巧妙的设计。
DreamOmni2提出了索引编码和位置编码偏移方案。
当我们在指令中说图1,图2时,模型需要准确知道哪张是图1,哪张是图2。研究团队通过引入索引编码,给每张输入的参考图贴上一个独一无二的标签,解决了这个问题。
同时,他们发现,多张图片输入时,不能让它们的位置信息混在一起。就像排队一样,后一张图片的位置信息,需要根据前面图片的大小进行偏移,留出足够的空间。这个小小的调整,有效避免了生成结果中出现内容复制粘贴或者像素混淆的现象。
另一个关键创新,是视觉语言模型(VLM)和生成模型的联合训练。
现实世界中,用户输入的指令往往是随意的,甚至不合逻辑的。而模型训练时用的指令却是格式规整的。这种鸿沟会影响模型的理解能力。
DreamOmni2的解法是,引入一个VLM(视觉语言模型),比如Qwen2.5-VL 7B模型,让它充当翻译官。
这个翻译官会先把用户乱七八糟的指令,转换成模型能理解的,结构化的标准格式,然后再交给后面的生成模型去执行。
对于编辑任务,这个标准格式会结合用户指令和对图像的精细化描述。对于生成任务,则直接输出精细化的图像描述。
通过这种联合训练,生成模型能更好地领会用户的真实意图。
值得一提的是,研究团队使用LoRA的轻量化微调技术。这意味着DreamOmni2在学会新本领(处理多模态指令)的同时,完整保留了基础模型原有的指令编辑和文生图能力。
当系统检测到有参考图输入时,新的LoRA模块会自动激活;没有参考图时,它就和原来的模型一样工作,实现了无缝集成。
为了解决评测问题,研究团队还专门构建了一个全新的基准测试集,DreamOmni2基准。它由真实图像组成,全面覆盖了抽象属性和具体物体的生成与编辑场景,为该领域的研究提供了统一的评判标准。
在多模态指令编辑任务上,无论是人工评估,还是由Gemini 2.5和Doubao 1.6这样的大模型进行评估,DreamOmni2的性能都超越了所有参与比较的开源模型,并且非常接近顶尖的商业模型。
事实上,即便是GPT-4o和谷歌的Nano Banana,在编辑属性时也常常会引入一些意想不到的变化,或者出现与参考图不一致的地方。GPT-4o的编辑结果甚至还有些泛黄。这些细微的瑕疵,VLM有时都难以察觉。
从上图的视觉对比中可以直观地看到,DreamOmni2生成的编辑结果更准确,与参考图的一致性也更好。
其他开源模型在处理抽象属性时显得力不从心。即使是在它们擅长的具体物体生成上,DreamOmni2在指令遵循和物体一致性方面也更胜一筹。
在更复杂的多模态指令生成任务上,DreamOmni2的表现同样出色。
数据显示,它在人工评估和模型评估中,优于商业模型Nano Banana,并取得了与GPT-4o相当的成绩。相比其他专注于组合具体物体的开源模型,DreamOmni2在准确性和一致性上优势明显。
DreamOmni2通过一系列技术创新,真正实现了在多模态指令编辑与生成任务上的突破,为AI创作提供了全新的可能性。
参考资料:
https://github.com/dvlab-research/DreamOmni2
https://arxiv.org/html/2510.06679v1
https://huggingface.co/datasets/xiabs/DreamOmni2Bench
https://huggingface.co/xiabs/DreamOmni2
免责声明:本文来自AIGC开放社区客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。