MiMo-V2背后的反常识：罗福莉的100人团队没有职级、没有deadline-创锋一号

2026年4月，小米大模型团队发布MiMo-V2.5-Pro公测。距离MiMo-V2-Pro发布仅过去一个多月，团队负责人罗福莉说：“正如我一个月前说的，我们追赶Claude Opus 4.6很快。”

这句话的底气来自哪里？

答案可能出乎意料——不是更贵的GPU、更多的卡、更激进的KPI考核，而是一个没有职级、没有小组、没有deadline的组织。

01 训练1T模型的人，没有deadline

MiMo-V2-Pro是一个1T参数量级的基座模型，采用Hybrid Attention混合注意力机制和MTP多词元预测架构，推理速度达到60-100 TPS，API定价曾创行业最低。

训这样一个模型，投入几千张卡，训练过程中loss spike是家常便饭。loss spike意味着参数更新不稳定，某些expert可能被"打死"——之后再也不会有token送到这个expert上。

遇到这种问题，怎么处理？

罗福莉的选择是：停下来。

停几天，甚至停一两周。排查所有可能的路径——稀疏比太高？通信算子写错了？某个norm有问题？从表层查到最底层。

“我们没有deadline，就觉得模型训好了我们再发。”

没有公司给的压力吗？“没有。”

听起来像在讲一个硅谷创业故事。但这个故事发生在小米内部。

罗福莉的逻辑很清楚：大几千卡停一天，就是一两百万的损失。如果是在目标驱动的团队，停两三周去排查一个"可能不是问题"的问题，是不可接受的。但在她的团队，发现异常就要解决，哪怕代价巨大。

代价确实巨大。晚上做梦都在想loss为什么又spike了，但"又没有什么明确的节点，所以卡是有限的，你会觉得浪费了算力资源"。这种自我批判，才是真正的驱动力。

02 100人，没有职级，没有小组

MiMo团队大约100人。但真正投入一代模型迭代的核心人员，只有二三十到三四十人。

这二三十人的组织方式，完全反常识：不设小组，不设职级。

罗福莉的理由很直接：

“任何层级，一定程度都是规范和约束，而规范和约束本身是压制创造力的。”

她认为，大团队在需要深入排查问题、算法与Infra联合debug时，反而可能是劣势。小团队的协作效率更高，因为"环节上关键几个人的配合程度"才是决定因素。

没有职级意味着什么？意味着一个刚加入的实习生，可以和团队负责人直接争论技术方案。没有小组意味着什么？意味着信息不需要经过层层传递，问题发现后直接对齐到所有人。

平权不是口号，是工程需要。当训练过程中出现loss spike，最需要的是速度——从发现异常到定位原因再到验证修复，每一步都需要跨角色的紧密配合。任何层级的存在，都会在这条链路上增加摩擦。

03 “你不用，就落后了”

2026年春节，罗福莉第一次使用OpenClaw，从凌晨2点聊到6点天亮。

她当时的认知和大多数人一样：OpenClaw不过是Claude Code加一个IM界面，创始人又喜欢做"玄幻"的运营，不值得认真对待。

但三天下来，她的认知被彻底颠覆。OpenClaw从一个"有温度的产品设计"，变成帮她替代生活和工作的一部分，最后变成促进研究的关键工具——她用OpenClaw和Claude Opus 4.6一起，一两个小时就构造出了重要的User Agent研究课题。

兴奋之下，她在群里强烈推荐大家使用。但没人搭理——春节假期，大家都在陪家人。

过完年回来，真正用的人很少。罗福莉下了第二个指令：

“如果第二天OpenClaw对话次数不超过100轮的人，可以直接quit。”

她买了几台Mac Mini，部署好OpenClaw，拉了不同的群，让大家分不同方向在大群里探索。

为什么在大群里？因为"个人的想象力真的是局限的——当你看到别人用OpenClaw居然能干成这个事，就会激发你自己的想象力。大家的想象力是一个乘积作用。"

她没有真的去考核谁对话了多少轮。"我没有这个想法。"她只是想传递一种态度：你不用，你可能真的要落后了。

结果是：飞书群消息10分钟不看就999+，100多人在群里疯狂探索、改框架、互相激发。两天下来，“大家发现，哇这个事这么好玩，那怎么办呢——那搞啊！”

三四周时间，团队做完了以前三四十周才能做到的研究量。

这不是加班加出来的，是群体智能爆发出来的。

04 环境比经验更重要

罗福莉的人才观同样反传统。

她不看重大模型经验。认为能力在好环境中一两个月即可习得，更在乎一个人"初始化的checkpoint上限"。

她甚至更青睐大二大三的本科生——“他们在Agent新范式面前，思想还没有被禁锢。”

这个判断背后有一个被忽视的事实：2026年的大模型范式正在经历剧变。从Chat时代转向Agent时代，从预训练主导转向后训练主导，大量在旧范式下积累的"经验"正在贬值。

一个在Chat时代有五年经验的工程师，可能不如一个没有包袱的本科生更快理解Agent框架的精髓。因为旧经验不仅是资产，也可能是负债。

团队成长的机制，她形容为"互相蒸馏"——各自吸取对方的长处。这不像传统的师徒制或培训体系，更像是开源社区的模式：每个人都在贡献，每个人都在学习，进步速度取决于信息流动的效率。

没有职级的组织，恰好为这种"蒸馏"提供了最好的容器。

05 用卡比3:5:1变成3:1:1

范式转移不只是理念变化，它直接反映在资源配置上。

罗福莉给出了一个非常具体的判断：Chat时代，研究、预训练、后训练的用卡比例大约是3:5:1，预训练占绝对主导。但进入Agent时代，更合理的比例变成了3:1:1——预训练和后训练投入相当。

顶尖团队应该已经接近1:1了。

这个变化的原因是：Agent范式极大地拉长了后训练的周期和价值。后训练不再是预训练的"收尾工作"，而是释放模型潜力的主战场。强化学习scaling、Agent场景数据合成、多框架适配迁移，每一项都需要大量算力。

更关键的是，研究效率的质变让卡变成了瓶颈。过去一个idea从写代码到设计评估要一两周，现在一两小时就能做完。十个idea可以交给不同agent并行验证。

实验并行量上来后，训练卡、研究卡、推理卡全部吃紧。“卡变成更关键瓶颈，因为idea产生和验证速度太快了。”

06 一个人也能成为公司

罗福莉对组织形态的未来有一个更激进的判断：Agent会改变创业公司的组织规模。

“未来几个人甚至一个人，都可能成为一家公司。”

"一个人养很多个员工"的Multi Agent说法，现在看还有点噱头，但她认为今年内会很快变成现实。前提是模型足够便宜，Agent架构足够好，能够真正比雇一个员工更划算。

这不是空想。她自己就是例证——用OpenClaw加Claude Opus 4.6，一个人在几小时内完成过去需要团队协作数周的研究课题。当工具把个人的产出能力放大10倍甚至100倍时，组织的最小单元自然缩小。

反过来看MiMo团队本身：100人中只有二三十到四十人是核心，没有职级、没有小组、没有deadline，却能训出1T参数的模型追上Claude。这本身就是一个"小组织高产出"的活体样本。

07 驱动力不是KPI，是热爱

回到最初的问题：没有KPI、没有deadline、没有职级，靠什么驱动？

罗福莉没有给出一个漂亮的管理学答案。她给出的答案很朴素：热爱。

要求所有人必须用OpenClaw，说"对话不到100轮就辞职"——这不是考核，是表达紧迫感。飞书群999+消息——这不是加班，是大家觉得好玩。停下来两三周排查loss spike——这不是拖延，是对极致的追求。

她带团队的方式更像带一个开源社区：设定方向，提供环境，然后信任群体智能。不作KPI分解，不做OKR对齐，不做绩效排名。让每个人直接面对问题，直接参与决策，直接感受成果。

这在传统管理学看来是"失控"。但从结果来看，三周做完四十周的研究，1T模型追上Claude，这个"失控"的产出效率远超任何"可控"团队。

罗福莉说：“平权本身是有价值的，有利于所有人平等地贡献自己的创造力和智慧。”

这句话放在AI Agent时代，有了新的含义：当Agent正在替代越来越多的中层管理工作时，真正需要的不是更精细的管理体系，而是更少的层级、更快的反馈、更纯粹的创造力环境。

MiMo-V2不是靠管理训出来的，是靠环境长出来的。

本文基于「语言即世界」张小珺对罗福莉3.5小时深度访谈整理。

企业官网建设流程全解析

01 训练1T模型的人，没有deadline

02 100人，没有职级，没有小组

03 “你不用，就落后了”

04 环境比经验更重要

05 用卡比3:5:1变成3:1:1

06 一个人也能成为公司

07 驱动力不是KPI，是热爱

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

01 训练1T模型的人，没有deadline

02 100人，没有职级，没有小组

03 “你不用，就落后了”

04 环境比经验更重要

05 用卡比3:5:1变成3:1:1

06 一个人也能成为公司

07 驱动力不是KPI，是热爱

热门文章

文章分类

标签云

相关文章

保姆级教程：在QEMU虚拟机上编译并集成Intel FSP到Slim Bootloader

第16篇：Vibe Coding时代：FastAPI + SSE 流式输出 LangGraph Agent，解决长任务等待无反馈问题

React Native抽屉导航终极指南：UI Kitten Drawer组件深度解析

需要专业的网站建设服务？