崗位職責(zé):
1.算法設(shè)計(jì)與優(yōu)化:設(shè)計(jì)面向污水處理動(dòng)態(tài)控制的強(qiáng)化學(xué)習(xí)算法(如基于PPO、SAC的離線強(qiáng)化學(xué)習(xí)框架),解決高維狀態(tài)空間(傳感器數(shù)據(jù))、稀疏獎(jiǎng)勵(lì)(水質(zhì)長期達(dá)標(biāo))問題。
2.開發(fā)水務(wù)安全強(qiáng)化學(xué)習(xí)(Safe RL)策略,確??刂苿?dòng)作符合物理約束(如曝氣量調(diào)節(jié)幅度、泵站啟停頻率限制)。
3.仿真環(huán)境構(gòu)建:基于污水處理工藝(如A2/O工藝、MBR膜處理)構(gòu)建高精度數(shù)字孿生環(huán)境(使用OpenAI Gym或自定義仿真平臺(tái)),模擬流量波動(dòng)、水質(zhì)變化、設(shè)備老化等動(dòng)態(tài)場(chǎng)景。
4.設(shè)計(jì)部分可觀測(cè)馬爾可夫決策過程(POMDP)模型,應(yīng)對(duì)傳感器噪聲和延遲。
工業(yè)數(shù)據(jù)建模:處理歷史運(yùn)行數(shù)據(jù)(時(shí)序傳感器數(shù)據(jù)、設(shè)備日志),構(gòu)建離線強(qiáng)化學(xué)習(xí)(Batch RL)訓(xùn)練集,避免在線探索風(fēng)險(xiǎn)。
5.開發(fā)獎(jiǎng)勵(lì)函數(shù)工程,平衡多目標(biāo)優(yōu)化(如COD去除率↑ vs 能耗成本↓ vs 設(shè)備損耗↓)。
6.算法驗(yàn)證與調(diào)優(yōu):與水務(wù)工程師協(xié)作定義關(guān)鍵性能指標(biāo)(KPIs),在仿真環(huán)境中驗(yàn)證策略穩(wěn)定性。實(shí)現(xiàn)分布式RL訓(xùn)練(如Ray RLlib),加速策略迭代。
任職要求:
1.硬性要求:博士學(xué)歷(第一學(xué)歷985 211重本或者 重點(diǎn)大學(xué)本碩博優(yōu)先),3年以上強(qiáng)化學(xué)習(xí)算法開發(fā)經(jīng)驗(yàn),主導(dǎo)過至少1個(gè)工業(yè)控制類RL項(xiàng)目(水務(wù),能源、化工、制造領(lǐng)域優(yōu)先)。
2.精通離線強(qiáng)化學(xué)習(xí)(Offline RL)和安全強(qiáng)化學(xué)習(xí)(Safe RL),熟悉約束策略優(yōu)化(CPO)、不確定性量化(Bayesian RL)方法。
3.熟練使用PyTorch/TensorFlow及RL框架(Stable Baselines3、RLlib),具備自定義算法開發(fā)能力。
4.掌握工業(yè)控制基礎(chǔ)知識(shí),理解PID控制、PLC邏輯與強(qiáng)化學(xué)習(xí)的結(jié)合點(diǎn)。
加分項(xiàng):
發(fā)表過ICML、NeurIPS等頂會(huì)RL論文(研究方向?yàn)镾afe RL/Offline RL優(yōu)先)。
薪資面議。