sex8.c 01年实习生被曝认真字节RL核默算法！系字节LLM攻坚小构成员

发布日期：2025-03-21 12:35 点击次数：104

一个超越 DeepSeek GRPO 的关键 RL 算法出现了！sex8.c

用上该算法后，Qwen2.5-32B 模子只经过 RL 锤真金不怕火，不引入蒸馏等其他时间，在 AIME 2024 基准上拿下 50 分，优于交流 setting 下使用 GRPO 算法的 DeepSeek-R1-Zero-Qwen，且 DAPO 使用的锤真金不怕火步数还减少了 50%。

这个算法名为 DAPO，字节、清华 AIR 蚁集实验室 SIA Lab 出品，现已开源。

论文通信作家和开源形式认真东谈主王人是一个叫 Qiying Yu 的东谈主。

Qiying Yu，何许东谈主也？

量子位搜罗收罗公开贵寓，整理出以下信息：

禹棋赢，01 年生，本科毕业于哈工大，直博参预清华 AIR，目前博士三年岁在读。客岁年中，他以洽商实习生的身份加入字节初度推出的「Top Seed 东谈主才谋划」。

咱们还从知情东谈主士处得知了禹棋赢的另一重身份——

在字节大模子团队里面认真打造"才调显贵教训的下一代讲话模子"的攻坚小组中，禹棋赢是独一的实习生。

天然是实习生，但在这个大神云集的小组里，禹棋赢被委以重负，径直认真 RL 标的的洽商。

凭什么？

事情要从客岁夏天提及。

客岁 10 月，他在字节第一个跑出 aha moment

客岁 5 月，字节启动「Top Seed 东谈主才谋划」，最终登第多名应届和在读博士构成史无先例的 AI 洽商团队，禹棋赢就在其中。

为期 2 个月的 warm up landing（近似可解放探索的适当期）后，禹棋赢锚定了我方的标的——大讲话模子推理。

简直定下标的的同期，禹棋赢就和 mentor 王明轩详情，要作念一个智谋的强推理才调模子。

这事儿和豆包大模子主团队的形式并行鞭策，主如果禹棋赢一个东谈主在探索。

更为关键的是，看到"采样更多，弱模子准确率也不错很高"的状态后，他执意以及折服要用 RL 来作念。

不久之后的 9 月，RL 与 CoT 联接使逻辑准确性和泛化才调大幅教训的 OpenAI-o1 就出现了。

标的没错！那就"沿这条路一直往后作念"。

心中额外，无所畏惧。禹棋赢启动形态拿 o1 跑 case，比如挨个作念 IMO 题（其中部分题目获得谜底不难，严谨的证明历程才是得分点）。

不跑没关系，一跑起来问题就清晰了。

o1 能给出正确谜底，然而证明历程枯竭。

基于此，禹棋赢和团队那时就赌了一把，判断 o1 是纯基于 outcome supervision train 出来的。

于是乎，禹棋赢 get 了一个与那时主流想路不同的猛烈时间信号：

用 outcome based reward 去作念 RL。

就这样干吧！接着即是基于字节里面小模子和里面代码库，用很少的 GPU、学术界开源数据集，豪恣迭代、豪恣跑。

这一干还真给他干出东西来了——

一启动，能把小模子的数学才调教训几十分，超越里面最大、最强的模子。

自后，禹棋赢简直每天王人会发现模子涌现出一些新才调，一些此前大伙儿一直想让它有、但又望尘不及的才调。

当今，不需要构造任何东西，只需要通过 RL，模子我方就能把这些才调涌现出来，以致涌现复杂的类 o1 的推理才调。

以至于那段时分禹棋赢十分振奋，每天拽着王明轩豪恣商榷到深宵。

他我方更是径直在会议室摆了张床住在公司。

天然他和床的关系，在那 1 个多月里其实是这样的：更阑 12 点能躺下，但振奋得根蒂睡不领略，凌晨 2 点又爬起来写代码，可能 5 点多一个 idea 灵感乍现就又爬起来。

基本上每整夜王人十分振奋地起来好几次，就这样醒醒睡睡，也不合计累。

此处出现了一个关键的时分节点。

"大致十月十几号，咱们发现要模子输出十分复杂的数学公式时，它会说 This is very difficult and seems to lead a very complicated equation. Let ’ s try another approach。"禹棋赢合计大模子这个反想事后换想维的活动很有灵性。

屏息凝想，他和王明轩盯着屏幕反复说明，最终认定——这即是他们所追求的才调的雏形！

凭据截图，那时他们在文档里敲下这样一段话：

十分成心思。愈加执意地信托 Outcome-based RL 一定能引发出十分狠恶的活动！！！

没错，DeepSeek-R1 引东谈主瞩方针 Aha Moment（顿悟时刻），禹棋赢在客岁 10 月在字节里面跑通了。

外传，尔后，禹棋赢被邀请参预 LLM 攻坚小组，并委以「认真 RL 标的」的重负。

下一战，"洽商清醒 RL 的 scaling 端正"

以上细节，来自最近互联网冲浪时在一个知乎话题下的巧合发现。答主匿名，共享了在字节大模子团队 Top Seed 实习的经历，从事 RL 标的。

经量子位求证说明，该答主即是禹棋赢。

沿着这条线索，咱们在互联网上征集整理了禹棋赢的更多"战绩"。

据 HIT 贪图学部团委公众号贵寓，禹棋赢是哈尔滨工业大学 2018 级本科生。

他以材料专科入学，半途转到贪图机科学与时间专科，主要洽商标的为天然讲话处理。

按照目前贵寓来看，这应该是名天禀型选手——大二才启动学编程，但同庚就加入了博导车万翔的科研团队。

大四时，禹棋赢在左旺孟西席团队以一作身份在 ECCV 上发表了一篇论文。

本科毕业后，禹棋赢直博清华，当今清华 AIR 博三在读。

此前，他曾先在智源实习，行动中枢作家产出了 Emu、EVA-CLIP 系列使命，侍从的 mentor 是曹越（前光年以外联创）和王鑫龙（智源洽商院视觉模子洽商中心认真东谈主）。

客岁 5 月字节开启 Top Seed 谋划后，他在 6 月通过校企配合形式入选，成为首批 Top Seed 成员。

量子位获悉，和禹棋赢同期的 Top Seed 实习生还有两届 IMO 满分选手、LLaDA 一作、 Buffer of Thoughts 一作等东谈主。

这里补充一句，前边咱们提到过禹棋赢的 mentor 王明轩，即是客岁量子位最初曝光的字节大模子关键 8 东谈主之一。

△王明轩，图源豆包大模子团队公众号

禹棋赢加入 Top Seed 后，就有了和王明轩全部发现 aha moment，每晚商榷到 11 点、谁也不想离开公司的铭刻经历。

后头在 LLM 攻坚小组，有一个好音书，和一个坏音书。

好音书是，加入攻坚小组后，非论是工程上如故数据上获得的各方复古王人更多了。

加上组织扁平，饱读舞 end to end 把模子、预锤真金不怕火、后锤真金不怕火买通，联接高卑劣去想考问题，合座交流十分高效。

"坏"音书是，1 月底，DeepSeek-R1 从天而下。

禹棋赢在知乎帖中欷歔，蓝本"那时每天王人在领路冲破与振奋中渡过，但有点缺憾的是，到 1 月就被 Deepseek 打爆了 hhh。"

倒不是凉了半截，至少 R1 的出现示意一直执意鞭策的阶梯莫得错，DeepSeek 团队还把它作念得很优雅，且实测服从十分优秀。

自后的测试戒指炫耀，如果遴荐蒸馏不错立即教训推理服从，但那时为了简直弄清醒机理，禹棋赢和共事们如故遴荐徐徐来，作念永远的事情，step by step 教训数据质地。

回看那段日子，禹棋赢合计"追念里实足莫得困窘"，振奋得睡不着觉的感受还百里挑一在目。

"怕什么谈理无限，进一寸有进一寸的爽气。"他在知乎帖中写谈，团队里非论是工程如故算法，王人会把追求谈理、追求时间内容的冲破行动十分大的 reward，全国会合计这个很欢乐。

当今的禹棋赢又有了新的追求：他 bet LLM RL 时间 towards AGI，接下来的谋略是洽商清醒 RL 的 scaling。

大模子行业，训戒不再是独一筹码

禹棋赢身上蚁合了太多 tag，是现如今大模子一线极具代表性的缩影。

还有个更戏剧性的 tag，必须要提的那种——

进字节前，禹棋赢还在智源作念多模态标的实习的时候，外传十分多一线大模子团队的 HR 王人给他和共事抛过橄榄枝。

那时候，禹棋赢是在 DeepSeek 和字节中作念的最终遴荐。

谜底嘛，全国读到这折服王人知谈了。

之是以这样选，禹棋赢我方说得很清醒，"字节场景和资源丰富，探索空间饱胀，上限够高。"

而况和外界印象不相通，新东谈主在这里也不错获得很好的 nurture，"明轩、永辉频频来找我交流，我也不错说是在字节读的博"。

如果再来一次，靠近 DeepSeek，我如故会选 ByteDance。

我合计 DeepSeek 斗争力的确很强，但我会长途让 ByteDance 胜算更大少量！

有点中二？有点火？

这倒不是关键，关键是的确有场合能贯串禹棋赢的高燃。

字节对禹棋赢的重用，内容上是当下顶尖大模子团队对"贬责前沿问题才调"的极致追求——一个能在 RL 标的从 0 到 1 跑通关键时间的年青东谈主，即使身份仅仅实习生，也能成为攻坚战中不行替代的突击手。

这种情况在 AI、在大模子这行并不是新鲜事了。

情色幽默

以推行贬质问题的才调而非履历界说价值的逻辑，早照旧在重塑 AI 产业的东谈主才坐标系。

OpenAI 从 GPT-1 启动就这样，一作 Alec Radford 刚从非顶尖高校本科毕业，自后简直参与了 OpenAI 通盘的紧要冲破；到 GPT-4o、Sora，团队半壁山河王人是新东谈主、年青东谈主。

DeepSeek 也这样，是清北应届生撑起一派天。创业团队更无须多说，大部分王人是年青毕业生组局。

当今又有了字节 TopSeed 实习生禹棋赢这个例子。

他们的故事折射出 AI 大模子时间的全新图景——训戒不再是独一筹码，风趣心与奉行力才是通行证。

AGI 范畴，大片的未知范畴恭候探索。当一个新的模子架构或锤真金不怕火顺次被提议，非论是老法师如故生手村村民，王人需要从头学习和适当。

另一边，过往的泰斗顺弁言可能成为通往 AGI 的想维镣铐。

年青东谈主天然训戒相对枯竭，但不落窠臼，还领有一些独属于初出茅屋者的特色：他们对时间直观的信任高于既有范式，有拦王人拦不住的关怀与风趣心，对试错资本怀抱极高的耐受度。

这一切对探索 AGI 来说，珍稀十分。

十分 nice 的事情即是，学界和工业界王人很认这张通行证。

学界培养和重用年青东谈主。每个 AI 顶会上王人出身耀眼的新星；各大高校大模子关系专科，每年王人有更年青的东谈主担任教职，为自后者引路。

工业界迎接和托举年青东谈主。就拿字节 Top Seed 这个大模子东谈主才项谋略杆为例，为包括实习生在内的年青东谈主提供充分算力资源、业界顶级待遇，不仅赐与探索空间，还不错将洽商转为推交运用。

一条簇新的、清醒的逻辑链摆在咱们目前：

当 AGI 探索参预无东谈主区，谁离前沿和新的范畴更近，谁就能引颈和界说端正，绝非论履历和出身。

One More Thing

At last，看到这儿的一又友们有福了，来吃临了一口瓜：

量子位独家获悉，本年字节还会链接 Top Seed 形式。

将由原谷歌 DeepMind 副总裁、现字节越过豆包大模子团队认真 AI 基础洽商探索使命的吴永辉躬行带队。

参考贵寓：

[ 1 ] https://www.zhihu.com/people/wabjpz

[ 2 ] https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTEyNQ==&mid=2247488385&idx=1&sn=56b0aefdc366c35535094062318be078&chksm=cebb3c1bf9ccb50d0061a76305f3710d7baba55d8a8400c55b84ca1aaa287f5af535acc649b2#rd

[ 3 ] https://mp.weixin.qq.com/s/2oo0LLsOLdKomNZs2UONnw

一键三连「点赞」「转发」「提神心」

迎接在批驳区留住你的观点！sex8.c

上一篇：sex8.c 全运会履历赛开门红！马龙领衔北京男乒完胜湖南队
下一篇：sex8.c 谁还专门呀🧐Stein：黄蜂能够将在本年夏天重启马威的来往市集

sex8.c 01年实习生被曝认真字节RL核默算法！系字节LLM攻坚小构成员

热点资讯

相关资讯