MiMo-V2背后的反常识:罗福莉的100人团队没有职级、没有deadline
2026/5/4 3:25:21 网站建设 项目流程

2026年4月,小米大模型团队发布MiMo-V2.5-Pro公测。距离MiMo-V2-Pro发布仅过去一个多月,团队负责人罗福莉说:“正如我一个月前说的,我们追赶Claude Opus 4.6很快。”

这句话的底气来自哪里?

答案可能出乎意料——不是更贵的GPU、更多的卡、更激进的KPI考核,而是一个没有职级、没有小组、没有deadline的组织。

01 训练1T模型的人,没有deadline

MiMo-V2-Pro是一个1T参数量级的基座模型,采用Hybrid Attention混合注意力机制和MTP多词元预测架构,推理速度达到60-100 TPS,API定价曾创行业最低。

训这样一个模型,投入几千张卡,训练过程中loss spike是家常便饭。loss spike意味着参数更新不稳定,某些expert可能被"打死"——之后再也不会有token送到这个expert上。

遇到这种问题,怎么处理?

罗福莉的选择是:停下来

停几天,甚至停一两周。排查所有可能的路径——稀疏比太高?通信算子写错了?某个norm有问题?从表层查到最底层。

“我们没有deadline,就觉得模型训好了我们再发。”

没有公司给的压力吗?“没有。”

听起来像在讲一个硅谷创业故事。但这个故事发生在小米内部。

罗福莉的逻辑很清楚:大几千卡停一天,就是一两百万的损失。如果是在目标驱动的团队,停两三周去排查一个"可能不是问题"的问题,是不可接受的。但在她的团队,发现异常就要解决,哪怕代价巨大。

代价确实巨大。晚上做梦都在想loss为什么又spike了,但"又没有什么明确的节点,所以卡是有限的,你会觉得浪费了算力资源"。这种自我批判,才是真正的驱动力。

02 100人,没有职级,没有小组

MiMo团队大约100人。但真正投入一代模型迭代的核心人员,只有二三十到三四十人。

这二三十人的组织方式,完全反常识:不设小组,不设职级。

罗福莉的理由很直接:

“任何层级,一定程度都是规范和约束,而规范和约束本身是压制创造力的。”

她认为,大团队在需要深入排查问题、算法与Infra联合debug时,反而可能是劣势。小团队的协作效率更高,因为"环节上关键几个人的配合程度"才是决定因素。

没有职级意味着什么?意味着一个刚加入的实习生,可以和团队负责人直接争论技术方案。没有小组意味着什么?意味着信息不需要经过层层传递,问题发现后直接对齐到所有人。

平权不是口号,是工程需要。当训练过程中出现loss spike,最需要的是速度——从发现异常到定位原因再到验证修复,每一步都需要跨角色的紧密配合。任何层级的存在,都会在这条链路上增加摩擦。

03 “你不用,就落后了”

2026年春节,罗福莉第一次使用OpenClaw,从凌晨2点聊到6点天亮。

她当时的认知和大多数人一样:OpenClaw不过是Claude Code加一个IM界面,创始人又喜欢做"玄幻"的运营,不值得认真对待。

但三天下来,她的认知被彻底颠覆。OpenClaw从一个"有温度的产品设计",变成帮她替代生活和工作的一部分,最后变成促进研究的关键工具——她用OpenClaw和Claude Opus 4.6一起,一两个小时就构造出了重要的User Agent研究课题。

兴奋之下,她在群里强烈推荐大家使用。但没人搭理——春节假期,大家都在陪家人。

过完年回来,真正用的人很少。罗福莉下了第二个指令:

“如果第二天OpenClaw对话次数不超过100轮的人,可以直接quit。”

她买了几台Mac Mini,部署好OpenClaw,拉了不同的群,让大家分不同方向在大群里探索。

为什么在大群里?因为"个人的想象力真的是局限的——当你看到别人用OpenClaw居然能干成这个事,就会激发你自己的想象力。大家的想象力是一个乘积作用。"

她没有真的去考核谁对话了多少轮。"我没有这个想法。"她只是想传递一种态度:你不用,你可能真的要落后了。

结果是:飞书群消息10分钟不看就999+,100多人在群里疯狂探索、改框架、互相激发。两天下来,“大家发现,哇这个事这么好玩,那怎么办呢——那搞啊!”

三四周时间,团队做完了以前三四十周才能做到的研究量。

这不是加班加出来的,是群体智能爆发出来的。

04 环境比经验更重要

罗福莉的人才观同样反传统。

她不看重大模型经验。认为能力在好环境中一两个月即可习得,更在乎一个人"初始化的checkpoint上限"。

她甚至更青睐大二大三的本科生——“他们在Agent新范式面前,思想还没有被禁锢。”

这个判断背后有一个被忽视的事实:2026年的大模型范式正在经历剧变。从Chat时代转向Agent时代,从预训练主导转向后训练主导,大量在旧范式下积累的"经验"正在贬值。

一个在Chat时代有五年经验的工程师,可能不如一个没有包袱的本科生更快理解Agent框架的精髓。因为旧经验不仅是资产,也可能是负债。

团队成长的机制,她形容为"互相蒸馏"——各自吸取对方的长处。这不像传统的师徒制或培训体系,更像是开源社区的模式:每个人都在贡献,每个人都在学习,进步速度取决于信息流动的效率。

没有职级的组织,恰好为这种"蒸馏"提供了最好的容器。

05 用卡比3:5:1变成3:1:1

范式转移不只是理念变化,它直接反映在资源配置上。

罗福莉给出了一个非常具体的判断:Chat时代,研究、预训练、后训练的用卡比例大约是3:5:1,预训练占绝对主导。但进入Agent时代,更合理的比例变成了3:1:1——预训练和后训练投入相当。

顶尖团队应该已经接近1:1了。

这个变化的原因是:Agent范式极大地拉长了后训练的周期和价值。后训练不再是预训练的"收尾工作",而是释放模型潜力的主战场。强化学习scaling、Agent场景数据合成、多框架适配迁移,每一项都需要大量算力。

更关键的是,研究效率的质变让卡变成了瓶颈。过去一个idea从写代码到设计评估要一两周,现在一两小时就能做完。十个idea可以交给不同agent并行验证。

实验并行量上来后,训练卡、研究卡、推理卡全部吃紧。“卡变成更关键瓶颈,因为idea产生和验证速度太快了。”

06 一个人也能成为公司

罗福莉对组织形态的未来有一个更激进的判断:Agent会改变创业公司的组织规模。

“未来几个人甚至一个人,都可能成为一家公司。”

"一个人养很多个员工"的Multi Agent说法,现在看还有点噱头,但她认为今年内会很快变成现实。前提是模型足够便宜,Agent架构足够好,能够真正比雇一个员工更划算。

这不是空想。她自己就是例证——用OpenClaw加Claude Opus 4.6,一个人在几小时内完成过去需要团队协作数周的研究课题。当工具把个人的产出能力放大10倍甚至100倍时,组织的最小单元自然缩小。

反过来看MiMo团队本身:100人中只有二三十到四十人是核心,没有职级、没有小组、没有deadline,却能训出1T参数的模型追上Claude。这本身就是一个"小组织高产出"的活体样本。

07 驱动力不是KPI,是热爱

回到最初的问题:没有KPI、没有deadline、没有职级,靠什么驱动?

罗福莉没有给出一个漂亮的管理学答案。她给出的答案很朴素:热爱。

要求所有人必须用OpenClaw,说"对话不到100轮就辞职"——这不是考核,是表达紧迫感。飞书群999+消息——这不是加班,是大家觉得好玩。停下来两三周排查loss spike——这不是拖延,是对极致的追求。

她带团队的方式更像带一个开源社区:设定方向,提供环境,然后信任群体智能。不作KPI分解,不做OKR对齐,不做绩效排名。让每个人直接面对问题,直接参与决策,直接感受成果。

这在传统管理学看来是"失控"。但从结果来看,三周做完四十周的研究,1T模型追上Claude,这个"失控"的产出效率远超任何"可控"团队。

罗福莉说:“平权本身是有价值的,有利于所有人平等地贡献自己的创造力和智慧。”

这句话放在AI Agent时代,有了新的含义:当Agent正在替代越来越多的中层管理工作时,真正需要的不是更精细的管理体系,而是更少的层级、更快的反馈、更纯粹的创造力环境。

MiMo-V2不是靠管理训出来的,是靠环境长出来的。


本文基于「语言即世界」张小珺对罗福莉3.5小时深度访谈整理。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询