崗位職責(zé):
1、參數(shù)代碼模型數(shù)據(jù)清洗方面的工作,包括收集、整理與清洗等內(nèi)容,持續(xù)優(yōu)化數(shù)據(jù)質(zhì)量
2、參數(shù)代碼模型數(shù)據(jù)合成方面的工作,包括預(yù)訓(xùn)練數(shù)據(jù)、后訓(xùn)練數(shù)據(jù)、驗(yàn)證沙盒等內(nèi)容
3、參與代碼模型預(yù)訓(xùn)練驗(yàn)證相關(guān)工作,對數(shù)據(jù)配比、數(shù)據(jù)調(diào)度等方向進(jìn)行優(yōu)化
4、參與代碼模型后訓(xùn)練對齊相關(guān)工作,包括指令微調(diào)、強(qiáng)化學(xué)習(xí)方面的內(nèi)容
任職要求:
精通NLP相關(guān)技術(shù),例如Transformer架構(gòu)、Megatron和DeepSpeed等大模型訓(xùn)練框架;
具有大模型訓(xùn)練數(shù)據(jù)處理經(jīng)驗(yàn);
熟悉數(shù)據(jù)清洗、增強(qiáng)和合成技術(shù);
熟練掌握Python編程,具備良好的代碼風(fēng)格和工程能力。