【崗位職責(zé)】
1、負(fù)責(zé)設(shè)計(jì)、構(gòu)建和優(yōu)化高質(zhì)量的代碼數(shù)據(jù)集,以支持代碼大模型的研發(fā)
2、建立和完善數(shù)據(jù)質(zhì)量評(píng)估體系,定期對(duì)數(shù)據(jù)集進(jìn)行審核,保證數(shù)據(jù)的準(zhǔn)確性、完整性和一致性。
3、確保所有數(shù)據(jù)收集和使用過(guò)程遵守相關(guān)的法律法規(guī),實(shí)施有效的數(shù)據(jù)保護(hù)措施,維護(hù)用戶隱私。
4、緊跟行業(yè)動(dòng)態(tài)和技術(shù)進(jìn)步,不斷探索新的方法和技術(shù)來(lái)提升數(shù)據(jù)處理效率和效果。
【任職要求】
1. 至少2年以上的AI/NLP領(lǐng)域工作經(jīng)驗(yàn),特別在代碼大數(shù)據(jù)處理方面擁有深入的理解和實(shí)踐經(jīng)驗(yàn)。
2. 具備從零開始構(gòu)建大規(guī)模多語(yǔ)言代碼數(shù)據(jù)集的能力,包括但不限于數(shù)據(jù)采集、清洗、標(biāo)注及結(jié)構(gòu)化處理。熟悉如何通過(guò)算法提高數(shù)據(jù)質(zhì)量和減少噪音。在GitHub、Stack Overflow、Kaggle等平臺(tái)有系統(tǒng)性代碼數(shù)據(jù)采集經(jīng)驗(yàn)(需提供案例說(shuō)明)。
3. 精通Python及其相關(guān)數(shù)據(jù)處理庫(kù)(如Scrapy, pandas, SQL等),并能夠開發(fā)自定義腳本或工具來(lái)加速數(shù)據(jù)處理流程。對(duì)大數(shù)據(jù)處理框架(如Hadoop, Spark)有一定了解更佳。
4. 對(duì)開源生態(tài)有深刻理解,熟悉主流開源協(xié)議(MIT/GPL/Apache等)及數(shù)據(jù)合規(guī)要求,需能主動(dòng)參與開源社區(qū),識(shí)別有價(jià)值的數(shù)據(jù)源,并確保所有數(shù)據(jù)操作符合合規(guī)要求。
5. 對(duì)于特定領(lǐng)域的數(shù)據(jù)處理(例如算法競(jìng)賽、開源項(xiàng)目貢獻(xiàn)歷史等)有獨(dú)特見解和成功案例者優(yōu)先考慮。能夠基于具體業(yè)務(wù)場(chǎng)景,提出創(chuàng)新性的數(shù)據(jù)解決方案。
6. 優(yōu)秀的溝通能力和團(tuán)隊(duì)合作精神,能夠與跨職能團(tuán)隊(duì)有效合作,共同推動(dòng)項(xiàng)目的進(jìn)展。