崗位職責(zé):
?1、強(qiáng)化學(xué)習(xí)算法研發(fā)?:
開發(fā)基于深度強(qiáng)化學(xué)習(xí)(DRL)的智能體算法,提升復(fù)雜場景(數(shù)字人分身、問診等)中的決策能力,優(yōu)化訓(xùn)練效率與模型泛化性?;
研究多智能體強(qiáng)化學(xué)習(xí)(MARL)、模仿學(xué)習(xí)(Imitation Learning)等技術(shù),推動AI在真實(shí)環(huán)境中的落地應(yīng)用?;
參與后訓(xùn)練階段的Scaling Law研究,包括獎勵模型設(shè)計(jì)、強(qiáng)化學(xué)習(xí)訓(xùn)練及推理優(yōu)化?。
2、?DeepResearcher框架開發(fā)?:
探索真實(shí)網(wǎng)絡(luò)環(huán)境下強(qiáng)化學(xué)習(xí)訓(xùn)練框架的優(yōu)化,支持分布式訓(xùn)練與高效在線推理?;
結(jié)合開源生態(tài)(如DeepSpeed、Megatron),構(gòu)建可擴(kuò)展的AI研究者模型基礎(chǔ)設(shè)施?。
3、?算法工程化與部署?:
負(fù)責(zé)強(qiáng)化學(xué)習(xí)模型的訓(xùn)練加速與推理優(yōu)化,應(yīng)用量化、蒸餾等技術(shù)實(shí)現(xiàn)工業(yè)級部署?;
與交付團(tuán)隊(duì)協(xié)作,適配昇騰芯片等AI加速硬件,提升模型計(jì)算效率?;
4、完成領(lǐng)導(dǎo)交辦的相關(guān)工作。
任職要求:
1、學(xué)歷與專業(yè)?:計(jì)算機(jī)、人工智能、自動化等相關(guān)專業(yè)本科及以上學(xué)歷?;
?2、技術(shù)能力?:
熟悉主流強(qiáng)化學(xué)習(xí)算法(如PPO、REINFORCE、RLOO)及多智能體協(xié)作框架?;
掌握PyTorch/TensorFlow框架,具備Python/C++開發(fā)能力,熟悉分布式訓(xùn)練工具(如DeepSpeed)?;
?3、經(jīng)驗(yàn)背景?:
有強(qiáng)化學(xué)習(xí)項(xiàng)目實(shí)戰(zhàn)經(jīng)驗(yàn),熟悉算法從研發(fā)到落地的全流程?;
在頂會(ICML、NeurIPS、AAAI等)發(fā)表相關(guān)論文或參與開源項(xiàng)目(如Stable Baselines3)者優(yōu)先?。
?4、加分項(xiàng)?:
具備真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)訓(xùn)練經(jīng)驗(yàn)(如游戲NPC智能化、機(jī)器人控制)?;
熟悉大語言模型(LLM)的強(qiáng)化學(xué)習(xí)對齊技術(shù)(如RLHF)?;
了解AI基礎(chǔ)設(shè)施優(yōu)化(如算子編譯、存儲調(diào)度)或芯片級加速開發(fā)?。