崗位職責:
1、設計和開發(fā)大規(guī)模預訓練數(shù)據(jù)處理鏈路,為基座模型預訓練提供穩(wěn)定、可靠的高質量數(shù)據(jù)處理能力,包括數(shù)據(jù)尋源、數(shù)據(jù)抓取/采集、數(shù)據(jù)解析(OCR、圖片、網(wǎng)頁)等工作內(nèi)容;
2、設計和開發(fā)服務大模型預訓練的數(shù)據(jù)平臺,管理數(shù)據(jù)的元信息、血緣、存儲治理等數(shù)據(jù)全生命周期要素;提供預訓練數(shù)據(jù)的可視化、可觀測能力;探索數(shù)據(jù)實驗、數(shù)據(jù)發(fā)版的工程上限;
3、針對LLM、VLM等模型構建數(shù)據(jù)合成方案和框架,支持數(shù)據(jù)Scale等工作;
4、根據(jù)大模型訓練數(shù)據(jù)特點,抽象并開發(fā)高效、可靠的數(shù)據(jù)加工框架,提升所有大模型算法工程師處理數(shù)據(jù)的工程效率;
任職要求:
1、本科及以上學歷,計算機相關專業(yè)優(yōu)先;
2、三年以上本崗位工作經(jīng)驗;
3、熟悉 Python 編程語言,熟悉計算機圖形學,熟悉;
4、良好的溝通協(xié)調能力和團隊合作精神;
5、較強的主動性、責任心與執(zhí)行能力,能獨立承擔任務和有系統(tǒng)進度把控能力。