免费黄频,啊啊啊用力

登錄/注冊我要招人

400-885-9898

更新于 6月6日

APP

舉報

強(qiáng)化學(xué)習(xí)算法工程師(J10815)

3-4萬

北京豐臺區(qū)
5-10年
本科
全職
招2人

雇員點(diǎn)評標(biāo)簽

工作環(huán)境好
同事很nice
氛圍活躍
團(tuán)隊(duì)執(zhí)行強(qiáng)
準(zhǔn)時發(fā)工資
人際關(guān)系好

職位描述

深度強(qiáng)化學(xué)習(xí)DRL智能體算法MARL模仿學(xué)習(xí)PyTorchTensorFlowPythonDEEPSPEEDPPO多智能體協(xié)作框架強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)經(jīng)驗(yàn)

崗位職責(zé):

?1、強(qiáng)化學(xué)習(xí)算法研發(fā)?：

開發(fā)基于深度強(qiáng)化學(xué)習(xí)（DRL）的智能體算法，提升復(fù)雜場景（數(shù)字人分身、問診等）中的決策能力，優(yōu)化訓(xùn)練效率與模型泛化性?；

研究多智能體強(qiáng)化學(xué)習(xí)（MARL）、模仿學(xué)習(xí)（Imitation Learning）等技術(shù)，推動AI在真實(shí)環(huán)境中的落地應(yīng)用?；

參與后訓(xùn)練階段的Scaling Law研究，包括獎勵模型設(shè)計(jì)、強(qiáng)化學(xué)習(xí)訓(xùn)練及推理優(yōu)化?。

2、?DeepResearcher框架開發(fā)?：

探索真實(shí)網(wǎng)絡(luò)環(huán)境下強(qiáng)化學(xué)習(xí)訓(xùn)練框架的優(yōu)化，支持分布式訓(xùn)練與高效在線推理?；

結(jié)合開源生態(tài)（如DeepSpeed、Megatron），構(gòu)建可擴(kuò)展的AI研究者模型基礎(chǔ)設(shè)施?。

3、?算法工程化與部署?：

負(fù)責(zé)強(qiáng)化學(xué)習(xí)模型的訓(xùn)練加速與推理優(yōu)化，應(yīng)用量化、蒸餾等技術(shù)實(shí)現(xiàn)工業(yè)級部署?；

與交付團(tuán)隊(duì)協(xié)作，適配昇騰芯片等AI加速硬件，提升模型計(jì)算效率?；

4、完成領(lǐng)導(dǎo)交辦的相關(guān)工作。

任職要求:

1、學(xué)歷與專業(yè)?：計(jì)算機(jī)、人工智能、自動化等相關(guān)專業(yè)本科及以上學(xué)歷?；

?2、技術(shù)能力?：

熟悉主流強(qiáng)化學(xué)習(xí)算法（如PPO、REINFORCE、RLOO）及多智能體協(xié)作框架?；

掌握PyTorch/TensorFlow框架，具備Python/C++開發(fā)能力，熟悉分布式訓(xùn)練工具（如DeepSpeed）?；

?3、經(jīng)驗(yàn)背景?：

有強(qiáng)化學(xué)習(xí)項(xiàng)目實(shí)戰(zhàn)經(jīng)驗(yàn)，熟悉算法從研發(fā)到落地的全流程?；

在頂會（ICML、NeurIPS、AAAI等）發(fā)表相關(guān)論文或參與開源項(xiàng)目（如Stable Baselines3）者優(yōu)先?。

?4、加分項(xiàng)?：

具備真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)訓(xùn)練經(jīng)驗(yàn)（如游戲NPC智能化、機(jī)器人控制）?；

熟悉大語言模型（LLM）的強(qiáng)化學(xué)習(xí)對齊技術(shù)（如RLHF）?；

了解AI基礎(chǔ)設(shè)施優(yōu)化（如算子編譯、存儲調(diào)度）或芯片級加速開發(fā)?。

工作地點(diǎn)

北京豐臺區(qū)漢威國際廣場4區(qū)3號樓

完善一份簡歷
1736萬+企業(yè)在線搜索，780萬+海量職位精準(zhǔn)推薦

相似職位

深度學(xué)習(xí)實(shí)習(xí)生220-300元/天
北京 - 海淀
北京朗視儀器股份有限公司
AI助理工程師1.8-2.3萬
北京 - 朝陽
江西愛魅文化科技有限公司北京分公司
人工智能模型訓(xùn)練優(yōu)化2.6-5萬
北京 - 豐臺
北京環(huán)宇科創(chuàng)管理咨詢有限公司
科技研發(fā)崗-25年畢業(yè)生7000-10000元·14薪
北京 - 海淀
北京六建集團(tuán)有限責(zé)任公司
制藥知識AI研究員1.2-1.8萬·13薪
北京 - 朝陽
北京尚質(zhì)合規(guī)科技有限公司
Python開發(fā)工程師8000-15000元
北京 - 朝陽
北京世紀(jì)互聯(lián)軟件開發(fā)有限公司

查看更多相似職位

職位發(fā)布者

黃春霞/人事經(jīng)理

三日內(nèi)活躍

立即溝通

南威軟件股份有限公司

南威軟件集團(tuán)成立于2002年，行政總部設(shè)立于福建泉州，在北京設(shè)立全球業(yè)務(wù)和運(yùn)營總部，是全國政務(wù)服務(wù)龍頭企業(yè)、行業(yè)領(lǐng)先的社會治理科技公司，擁有超百家全資、控股、參股公司，其中包括太極數(shù)智、人大金倉、四方偉業(yè)、安巽科技、北京友虹等行業(yè)標(biāo)桿企業(yè)。南威軟件是福建省首家在上海主板上市的網(wǎng)信企業(yè)（股票代碼：603636），全國第993家主板上市公司，是國家數(shù)字政府建設(shè)聯(lián)盟常任副理事長單位、互聯(lián)網(wǎng)+政務(wù)服務(wù)電子證照國家標(biāo)準(zhǔn)制定的組長單位、國家電子文件管理推進(jìn)聯(lián)盟副理事長單位、國家智慧城市標(biāo)準(zhǔn)化總體組十家理事單位之一、福建省軟件行業(yè)協(xié)會會長單位，聚焦發(fā)展數(shù)字政府的政務(wù)服務(wù)、公共安全、城市管理等主營業(yè)務(wù)，深化發(fā)展社會服務(wù)運(yùn)營，創(chuàng)新發(fā)展行業(yè)實(shí)用型芯片與傳感器產(chǎn)業(yè)，服務(wù)于政府?dāng)?shù)字化轉(zhuǎn)型、助力國家治理體系和治理能力現(xiàn)代化。公司擁有九項(xiàng)行業(yè)頂級資質(zhì)，包括國家信息系統(tǒng)建設(shè)和服務(wù)能力評估四級（國內(nèi)最高級別）、涉密信息系統(tǒng)集成甲級、CCRC信息安全服務(wù)資質(zhì)一級（安全集成一級、安全運(yùn)維一級、軟件安全開發(fā)一級）、國家建筑智能化系統(tǒng)設(shè)計(jì)專項(xiàng)甲級、國家電子與智能化工程專業(yè)承包壹級、國家安防工程企業(yè)設(shè)計(jì)施工維護(hù)能力壹級、CMMI-5國際軟件成熟度認(rèn)證、ITSS運(yùn)維服務(wù)能力成熟度壹級、國家規(guī)劃布局內(nèi)重點(diǎn)軟件企業(yè)（旗下三家）等，并取得了軍工保密資格、國軍標(biāo)質(zhì)量管理體系、武器裝備科研生產(chǎn)許可備案等軍工資質(zhì)，是行業(yè)內(nèi)資質(zhì)最高最全的企業(yè)之一。

公司主頁