崗位職責(zé):
1、負(fù)責(zé)設(shè)計(jì)、構(gòu)建和優(yōu)化高質(zhì)量的代碼數(shù)據(jù)集,以支持代碼大模型的研發(fā)
2、建立和完善數(shù)據(jù)質(zhì)量評估體系,定期對數(shù)據(jù)集進(jìn)行審核,保證數(shù)據(jù)的準(zhǔn)確性、完
整性和一致性。
3、確保所有數(shù)據(jù)收集和使用過程遵守相關(guān)的法律法規(guī),實(shí)施有效的數(shù)據(jù)保護(hù)措施,
維護(hù)用戶隱私。
4、緊跟行業(yè)動態(tài)和技術(shù)進(jìn)步,不斷探索新的方法和技術(shù)來提升數(shù)據(jù)處理效率和效果
崗位要求:
1.至少2年以上的AI/NLP領(lǐng)域工作經(jīng)驗(yàn),特別在代碼大數(shù)據(jù)處理方面擁有深入的理解和實(shí)踐經(jīng)驗(yàn)。
2.具備從零開始構(gòu)建大規(guī)模多語言代碼數(shù)據(jù)集的能力,包括但不限于數(shù)據(jù)采集、清洗、標(biāo)注及結(jié)構(gòu)化處理。熟悉如何通過算法提高數(shù)據(jù)質(zhì)量和減少噪音。在GitHub、Stack Overflow Kaggle等平臺有系統(tǒng)性代碼數(shù)據(jù)采集經(jīng)驗(yàn)(需提供案例說明)。
3.精通Python及其相關(guān)數(shù)據(jù)處理庫(如Scrapy,pandas.SQL等),并能夠開發(fā)自定義腳本或工具來加速數(shù)據(jù)處理流程。對大數(shù)據(jù)處理框架(如Hadoop.Spark)有一定了解更佳,
4.對開源生態(tài)有深刻理解,熟悉主流開源協(xié)議(MIT/GPL/Apache等)及數(shù)據(jù)合規(guī)要求,需能主動參與開源社區(qū),識別有價值的數(shù)據(jù)源,并確保所有數(shù)據(jù)操作符合合規(guī)要求。
5.對于特定領(lǐng)域的數(shù)據(jù)處理(例如算法競賽、開源項(xiàng)目貢獻(xiàn)歷史等)有獨(dú)特見解和成功案例者優(yōu)先考慮。能夠基于具體業(yè)務(wù)場景,提出創(chuàng)新性的數(shù)據(jù)解決方案。
6.優(yōu)秀的溝通能力和團(tuán)隊(duì)合作精神,能夠與跨職能團(tuán)隊(duì)有效合作,共同推動項(xiàng)目的進(jìn)展。