崗位職責:
1. 設計、構建和優(yōu)化高質(zhì)量的代碼數(shù)據(jù)集,以支持代碼大模型的研發(fā)。
2. 建立和完善數(shù)據(jù)質(zhì)量評估體系,定期對數(shù)據(jù)集進行審核,保證數(shù)據(jù)的準確性、完整性和一致性。
3. 確保所有數(shù)據(jù)收集和使用過程遵守相關的法律法規(guī),實施有效的數(shù)據(jù)保護措施。
崗位要求:
1. 至少2年以上的AI/NLP領域工作經(jīng)驗,特別在代碼大數(shù)據(jù)處理方面擁有深入的理解和實踐經(jīng)驗。
2. Kaggle等平臺有系統(tǒng)性代碼數(shù)據(jù)采集經(jīng)驗(需提供案例說明)。
3. 精通Python及其相關數(shù)據(jù)處理庫(如scrpy,pandas,SQL等),并能夠開發(fā)自定義腳本或工具來加速數(shù)據(jù)處理流程。
4. 對大數(shù)據(jù)處理框架(如Hadoop, spark)有一定了解,對開源生態(tài)有深刻理解,熟悉主流開源協(xié)議(MIT/GPL/Apache等)及數(shù)據(jù)合規(guī)要求。
5. 能夠主動參與開源社區(qū),識別有價值的教據(jù)源,并確保所有教據(jù)提作符合合規(guī)要求。
6. 對于特定領域的數(shù)據(jù)處理(例如算法競賽、開源項目貢獻歷史等)有獨特見解和成功案例者優(yōu)先考慮。
7. 能夠基于具體業(yè)務場景,提出創(chuàng)新性的數(shù)據(jù)解決方案。
8》 具備從零開始構建大規(guī)模多語言代碼數(shù)據(jù)集的能力,包括但不限于數(shù)據(jù)采集、清洗、標注及結構化處理。
薪資:10-20K,具體面談,線上面試
此崗位為外包崗位,介意勿投