sex8.c 01年实习生被曝认真字节RL核默算法!系字节LLM攻坚小构成员

发布日期:2025-03-21 12:35    点击次数:102

sex8.c 01年实习生被曝认真字节RL核默算法!系字节LLM攻坚小构成员

一个超越 DeepSeek GRPO 的关键 RL 算法出现了!sex8.c

用上该算法后,Qwen2.5-32B 模子只经过 RL 锤真金不怕火,不引入蒸馏等其他时间,在 AIME 2024 基准上拿下 50 分,优于交流 setting 下使用 GRPO 算法的 DeepSeek-R1-Zero-Qwen,且 DAPO 使用的锤真金不怕火步数还减少了 50%。

这个算法名为 DAPO,字节、清华 AIR 蚁集实验室 SIA Lab 出品,现已开源。

论文通信作家和开源形式认真东谈主王人是一个叫 Qiying Yu 的东谈主。

Qiying Yu,何许东谈主也?

量子位搜罗收罗公开贵寓,整理出以下信息:

禹棋赢,01 年生,本科毕业于哈工大,直博参预清华 AIR,目前博士三年岁在读。客岁年中,他以洽商实习生的身份加入字节初度推出的「Top Seed 东谈主才谋划」。

咱们还从知情东谈主士处得知了禹棋赢的另一重身份——

在字节大模子团队里面认真打造"才调显贵教训的下一代讲话模子"的攻坚小组中,禹棋赢是独一的实习生。

天然是实习生,但在这个大神云集的小组里,禹棋赢被委以重负,径直认真 RL 标的的洽商。

凭什么?

事情要从客岁夏天提及。

客岁 10 月,他在字节第一个跑出 aha moment

客岁 5 月,字节启动「Top Seed 东谈主才谋划」,最终登第多名应届和在读博士构成史无先例的 AI 洽商团队,禹棋赢就在其中。

为期 2 个月的 warm up landing(近似可解放探索的适当期)后,禹棋赢锚定了我方的标的——大讲话模子推理。

简直定下标的的同期,禹棋赢就和 mentor 王明轩详情,要作念一个智谋的强推理才调模子。

这事儿和豆包大模子主团队的形式并行鞭策,主如果禹棋赢一个东谈主在探索。

更为关键的是,看到"采样更多,弱模子准确率也不错很高"的状态后,他执意以及折服要用 RL 来作念。

不久之后的 9 月,RL 与 CoT 联接使逻辑准确性和泛化才调大幅教训的 OpenAI-o1 就出现了。

标的没错!那就"沿这条路一直往后作念"。

心中额外,无所畏惧。禹棋赢启动形态拿 o1 跑 case,比如挨个作念 IMO 题(其中部分题目获得谜底不难,严谨的证明历程才是得分点)。

不跑没关系,一跑起来问题就清晰了。

o1 能给出正确谜底,然而证明历程枯竭。

基于此,禹棋赢和团队那时就赌了一把,判断 o1 是纯基于 outcome supervision train 出来的。

于是乎,禹棋赢 get 了一个与那时主流想路不同的猛烈时间信号:

用 outcome based reward 去作念 RL。

就这样干吧!接着即是基于字节里面小模子和里面代码库,用很少的 GPU、学术界开源数据集,豪恣迭代、豪恣跑。

这一干还真给他干出东西来了——

一启动,能把小模子的数学才调教训几十分,超越里面最大、最强的模子。

自后,禹棋赢简直每天王人会发现模子涌现出一些新才调,一些此前大伙儿一直想让它有、但又望尘不及的才调。

当今,不需要构造任何东西,只需要通过 RL,模子我方就能把这些才调涌现出来,以致涌现复杂的类 o1 的推理才调。

以至于那段时分禹棋赢十分振奋,每天拽着王明轩豪恣商榷到深宵。

他我方更是径直在会议室摆了张床住在公司。

天然他和床的关系,在那 1 个多月里其实是这样的:更阑 12 点能躺下,但振奋得根蒂睡不领略,凌晨 2 点又爬起来写代码,可能 5 点多一个 idea 灵感乍现就又爬起来。

基本上每整夜王人十分振奋地起来好几次,就这样醒醒睡睡,也不合计累。

此处出现了一个关键的时分节点。

"大致十月十几号,咱们发现要模子输出十分复杂的数学公式时,它会说 This is very difficult and seems to lead a very complicated equation. Let ’ s try another approach。"禹棋赢合计大模子这个反想事后换想维的活动很有灵性。

屏息凝想,他和王明轩盯着屏幕反复说明,最终认定——这即是他们所追求的才调的雏形!

凭据截图,那时他们在文档里敲下这样一段话:

十分成心思。愈加执意地信托 Outcome-based RL 一定能引发出十分狠恶的活动!!!

没错,DeepSeek-R1 引东谈主瞩方针 Aha Moment(顿悟时刻),禹棋赢在客岁 10 月在字节里面跑通了。

外传,尔后,禹棋赢被邀请参预 LLM 攻坚小组,并委以「认真 RL 标的」的重负。

下一战,"洽商清醒 RL 的 scaling 端正"

以上细节,来自最近互联网冲浪时在一个知乎话题下的巧合发现。答主匿名,共享了在字节大模子团队 Top Seed 实习的经历,从事 RL 标的。

经量子位求证说明,该答主即是禹棋赢。

沿着这条线索,咱们在互联网上征集整理了禹棋赢的更多"战绩"。

据 HIT 贪图学部团委公众号贵寓,禹棋赢是哈尔滨工业大学 2018 级本科生。

他以材料专科入学,半途转到贪图机科学与时间专科,主要洽商标的为天然讲话处理。

按照目前贵寓来看,这应该是名天禀型选手——大二才启动学编程,但同庚就加入了博导车万翔的科研团队。

大四时,禹棋赢在左旺孟西席团队以一作身份在 ECCV 上发表了一篇论文。

本科毕业后,禹棋赢直博清华,当今清华 AIR 博三在读。

此前,他曾先在智源实习,行动中枢作家产出了 Emu、EVA-CLIP 系列使命,侍从的 mentor 是曹越(前光年以外联创)和王鑫龙(智源洽商院视觉模子洽商中心认真东谈主)。

客岁 5 月字节开启 Top Seed 谋划后,他在 6 月通过校企配合形式入选,成为首批 Top Seed 成员。

量子位获悉,和禹棋赢同期的 Top Seed 实习生还有两届 IMO 满分选手、LLaDA 一作、 Buffer of Thoughts 一作等东谈主。

这里补充一句,前边咱们提到过禹棋赢的 mentor 王明轩,即是客岁量子位最初曝光的字节大模子关键 8 东谈主之一。

△王明轩,图源豆包大模子团队公众号

禹棋赢加入 Top Seed 后,就有了和王明轩全部发现 aha moment,每晚商榷到 11 点、谁也不想离开公司的铭刻经历。

后头在 LLM 攻坚小组,有一个好音书,和一个坏音书。

好音书是,加入攻坚小组后,非论是工程上如故数据上获得的各方复古王人更多了。

加上组织扁平,饱读舞 end to end 把模子、预锤真金不怕火、后锤真金不怕火买通,联接高卑劣去想考问题,合座交流十分高效。

"坏"音书是,1 月底,DeepSeek-R1 从天而下。

禹棋赢在知乎帖中欷歔,蓝本"那时每天王人在领路冲破与振奋中渡过,但有点缺憾的是,到 1 月就被 Deepseek 打爆了 hhh。"

倒不是凉了半截,至少 R1 的出现示意一直执意鞭策的阶梯莫得错,DeepSeek 团队还把它作念得很优雅,且实测服从十分优秀。

自后的测试戒指炫耀,如果遴荐蒸馏不错立即教训推理服从,但那时为了简直弄清醒机理,禹棋赢和共事们如故遴荐徐徐来,作念永远的事情,step by step 教训数据质地。

回看那段日子,禹棋赢合计"追念里实足莫得困窘",振奋得睡不着觉的感受还百里挑一在目。

"怕什么谈理无限,进一寸有进一寸的爽气。"他在知乎帖中写谈,团队里非论是工程如故算法,王人会把追求谈理、追求时间内容的冲破行动十分大的 reward,全国会合计这个很欢乐。

当今的禹棋赢又有了新的追求:他 bet LLM RL 时间 towards AGI,接下来的谋略是洽商清醒 RL 的 scaling。

大模子行业,训戒不再是独一筹码

禹棋赢身上蚁合了太多 tag,是现如今大模子一线极具代表性的缩影。

还有个更戏剧性的 tag,必须要提的那种——

进字节前,禹棋赢还在智源作念多模态标的实习的时候,外传十分多一线大模子团队的 HR 王人给他和共事抛过橄榄枝。

那时候,禹棋赢是在 DeepSeek 和字节中作念的最终遴荐。

谜底嘛,全国读到这折服王人知谈了。

之是以这样选,禹棋赢我方说得很清醒,"字节场景和资源丰富,探索空间饱胀,上限够高。"

而况和外界印象不相通,新东谈主在这里也不错获得很好的 nurture,"明轩、永辉频频来找我交流,我也不错说是在字节读的博"。

如果再来一次,靠近 DeepSeek,我如故会选 ByteDance。

我合计 DeepSeek 斗争力的确很强,但我会长途让 ByteDance 胜算更大少量!

有点中二?有点火?

这倒不是关键,关键是的确有场合能贯串禹棋赢的高燃。

字节对禹棋赢的重用,内容上是当下顶尖大模子团队对"贬责前沿问题才调"的极致追求——一个能在 RL 标的从 0 到 1 跑通关键时间的年青东谈主,即使身份仅仅实习生,也能成为攻坚战中不行替代的突击手。

这种情况在 AI、在大模子这行并不是新鲜事了。

情色幽默

以推行贬质问题的才调而非履历界说价值的逻辑,早照旧在重塑 AI 产业的东谈主才坐标系。

OpenAI 从 GPT-1 启动就这样,一作 Alec Radford 刚从非顶尖高校本科毕业,自后简直参与了 OpenAI 通盘的紧要冲破;到 GPT-4o、Sora,团队半壁山河王人是新东谈主、年青东谈主。

DeepSeek 也这样,是清北应届生撑起一派天。创业团队更无须多说,大部分王人是年青毕业生组局。

当今又有了字节 TopSeed 实习生禹棋赢这个例子。

他们的故事折射出 AI 大模子时间的全新图景——训戒不再是独一筹码,风趣心与奉行力才是通行证。

AGI 范畴,大片的未知范畴恭候探索。当一个新的模子架构或锤真金不怕火顺次被提议,非论是老法师如故生手村村民,王人需要从头学习和适当。

另一边,过往的泰斗顺弁言可能成为通往 AGI 的想维镣铐。

年青东谈主天然训戒相对枯竭,但不落窠臼,还领有一些独属于初出茅屋者的特色:他们对时间直观的信任高于既有范式,有拦王人拦不住的关怀与风趣心,对试错资本怀抱极高的耐受度。

这一切对探索 AGI 来说,珍稀十分。

十分 nice 的事情即是,学界和工业界王人很认这张通行证。

学界培养和重用年青东谈主。每个 AI 顶会上王人出身耀眼的新星;各大高校大模子关系专科,每年王人有更年青的东谈主担任教职,为自后者引路。

工业界迎接和托举年青东谈主。就拿字节 Top Seed 这个大模子东谈主才项谋略杆为例,为包括实习生在内的年青东谈主提供充分算力资源、业界顶级待遇,不仅赐与探索空间,还不错将洽商转为推交运用。

一条簇新的、清醒的逻辑链摆在咱们目前:

当 AGI 探索参预无东谈主区,谁离前沿和新的范畴更近,谁就能引颈和界说端正,绝非论履历和出身。

One More Thing

At last,看到这儿的一又友们有福了,来吃临了一口瓜:

量子位独家获悉,本年字节还会链接 Top Seed 形式。

将由原谷歌 DeepMind 副总裁、现字节越过豆包大模子团队认真 AI 基础洽商探索使命的吴永辉躬行带队。

参考贵寓:

[ 1 ] https://www.zhihu.com/people/wabjpz

[ 2 ] https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTEyNQ==&mid=2247488385&idx=1&sn=56b0aefdc366c35535094062318be078&chksm=cebb3c1bf9ccb50d0061a76305f3710d7baba55d8a8400c55b84ca1aaa287f5af535acc649b2#rd

[ 3 ] https://mp.weixin.qq.com/s/2oo0LLsOLdKomNZs2UONnw

一键三连「点赞」「转发」「提神心」

迎接在批驳区留住你的观点!sex8.c



热点资讯

相关资讯

Powered by 足交 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024