Hugging Face 宣布推出Idefics2,这是一款多功能模型,能够理解和生成文本响应,基于图像和文本。该模型创立了新的标准,用于回答视觉问题、描述视觉内容、从图像创建故事、文档信息提取,甚至基于视觉输入进行算术运算。
Idefics2 超越了其前身 Idefics1,在参数数量和开放许可证 (Apache 2.0) 提供的多功能性方面。它还增强了光学字符识别 (OCR) 功能。
该模型不仅在视觉问答基准测试中表现出色,还在与 LLava-Next-34B 和 MM1-30B-chat 等规模更大的同类模型的竞争中占据主导地位。
Idefics2 的核心吸引力在于与 Hugging Face 的 Transformers 集成,使得针对各种多模式应用进行微调变得轻松。对于那些渴望深入研究的人,可以在 Hugging Face Hub 上进行模型实验。
Idefics2 的一个显著特点是其全面的培训理念,融合了公开可用的数据集,包括网络文档、图像标题对和 OCR 数据。此外,它还引入了一个名为“The Cauldron”的创新微调数据集,合并了 50 个精心策划的数据集,用于多方面的对话训练。
Idefics2 展示了一种改进的图像处理方法,保持了原始分辨率和纵横比,与传统的大小调整规范有明显不同。其架构受益于先进的 OCR 功能,能够熟练地转录图像和文档中的文本内容,并在解释图表和图形方面表现出改进的性能。
简化视觉特征与语言主干的集成标志着与其前身架构的转变,采用学习感知器池和 MLP 模态投影增强了 Idefics2 的整体效果。
这一视觉语言模型的进步为探索多模式交互提供了新的途径,Idefics2 有望成为社区的基础工具。其性能提升和技术创新强调了将视觉和文本数据结合起来创建复杂、上下文感知的人工智能系统的潜力。