国产精品黄片,久久99精品久久久水蜜桃

登錄/注冊(cè) 我要招人

400-885-9898

該職位已失效，看看其他機(jī)會(huì)吧

APP

舉報(bào)

強(qiáng)化學(xué)習(xí)算法專家

1.8-3萬

長沙岳麓區(qū)
3-5年
博士
全職
招1人

查看更多相似職位

職位描述

強(qiáng)化學(xué)習(xí)?SACCPOBAYESIAN RLSAFE RLPyTorchTensorFlowRL水務(wù)能源

崗位職責(zé)：

1.算法設(shè)計(jì)與優(yōu)化：設(shè)計(jì)面向污水處理動(dòng)態(tài)控制的強(qiáng)化學(xué)習(xí)算法（如基于PPO、SAC的離線強(qiáng)化學(xué)習(xí)框架），解決高維狀態(tài)空間（傳感器數(shù)據(jù)）、稀疏獎(jiǎng)勵(lì)（水質(zhì)長期達(dá)標(biāo)）問題。 2.開發(fā)水務(wù)安全強(qiáng)化學(xué)習(xí)（Safe RL）策略，確?？刂苿?dòng)作符合物理約束（如曝氣量調(diào)節(jié)幅度、泵站啟停頻率限制）。 3.仿真環(huán)境構(gòu)建：基于污水處理工藝（如A2/O工藝、MBR膜處理）構(gòu)建高精度數(shù)字孿生環(huán)境（使用OpenAI Gym或自定義仿真平臺(tái)），模擬流量波動(dòng)、水質(zhì)變化、設(shè)備老化等動(dòng)態(tài)場(chǎng)景。 4.設(shè)計(jì)部分可觀測(cè)馬爾可夫決策過程（POMDP）模型，應(yīng)對(duì)傳感器噪聲和延遲。工業(yè)數(shù)據(jù)建模：處理歷史運(yùn)行數(shù)據(jù)（時(shí)序傳感器數(shù)據(jù)、設(shè)備日志），構(gòu)建離線強(qiáng)化學(xué)習(xí)（Batch RL）訓(xùn)練集，避免在線探索風(fēng)險(xiǎn)。 5.開發(fā)獎(jiǎng)勵(lì)函數(shù)工程，平衡多目標(biāo)優(yōu)化（如COD去除率↑ vs 能耗成本↓ vs 設(shè)備損耗↓）。 6.算法驗(yàn)證與調(diào)優(yōu)：與水務(wù)工程師協(xié)作定義關(guān)鍵性能指標(biāo)（KPIs），在仿真環(huán)境中驗(yàn)證策略穩(wěn)定性。實(shí)現(xiàn)分布式RL訓(xùn)練（如Ray RLlib），加速策略迭代。

任職要求： 1.硬性要求：博士學(xué)歷（第一學(xué)歷985 211重本或者重點(diǎn)大學(xué)本碩博優(yōu)先），3年以上強(qiáng)化學(xué)習(xí)算法開發(fā)經(jīng)驗(yàn)，主導(dǎo)過至少1個(gè)工業(yè)控制類RL項(xiàng)目（水務(wù)，能源、化工、制造領(lǐng)域優(yōu)先）。 2.精通離線強(qiáng)化學(xué)習(xí)（Offline RL）和安全強(qiáng)化學(xué)習(xí)（Safe RL），熟悉約束策略優(yōu)化（CPO）、不確定性量化（Bayesian RL）方法。 3.熟練使用PyTorch/TensorFlow及RL框架（Stable Baselines3、RLlib），具備自定義算法開發(fā)能力。 4.掌握工業(yè)控制基礎(chǔ)知識(shí)，理解PID控制、PLC邏輯與強(qiáng)化學(xué)習(xí)的結(jié)合點(diǎn)。

加分項(xiàng)：發(fā)表過ICML、NeurIPS等頂會(huì)RL論文（研究方向?yàn)镾afe RL/Offline RL優(yōu)先）。

薪資面議。

查看全部