【2024 NeurIPS】MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models
2026/5/16 6:28:01 网站建设 项目流程

paper:https://arxiv.org/abs/2407.12709
code:https://github.com/JiuTian-VL/MoME
MoME旨在解决通用型多模态大语言模型(MLLMs)在处理多种任务时因“任务干扰”导致性能下降的问题 。

文章目录

  • 核心思想与动机
  • 核心方法:MoME 架构
    • A. 视觉专家混合 (MoVE - Mixture of Vision Experts)
    • B. 语言专家混合 (MoLE - Mixture of Language Experts)
  • 数据与实验
  • 主要贡献

核心思想与动机

  • 动机(Motivation):研究发现,虽然通用型 MLLM 能够处理多种视觉语言(VL)任务,但其表现通常逊于针对特定任务训练的专家模型 。这种现象被称为任务干扰(Task Interference)
  • 核心观察:通过对不同 VL 任务的图像和文本特征分布进行分析,研究者发现不同任务在视觉语言两种模态上都存在显著的特征差异 。
  • 核心思想:为了消除干扰,必须同时在视觉和语言两个维度上利用任务差异 。MoME 通过设计专门的视觉和语言专家混合机制,使模型能根据指令动态选择最合适的处理路径 。

核心方法:MoME 架构

MoME 架构由两个关键组件组成:

A. 视觉专家混合 (MoVE - M

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询