崗位職責(zé):
1、負(fù)責(zé)AI訓(xùn)練數(shù)據(jù)的全流程管理:清洗、標(biāo)注、增強(qiáng)、版本控制及質(zhì)量評(píng)估;
2、負(fù)責(zé)多模態(tài)訓(xùn)練數(shù)據(jù)(文本、圖像、語(yǔ)音、視頻等)的采集、清洗與結(jié)構(gòu)化處理,制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),確保數(shù)據(jù)集的多樣性、代表性和合規(guī)性;
3、開(kāi)發(fā)自動(dòng)化工具或腳本(如Python/Pandas)處理大規(guī)模數(shù)據(jù),解決噪聲過(guò)濾、重復(fù)數(shù)據(jù)刪除、格式統(tǒng)一等問(wèn)題;
4、設(shè)計(jì)數(shù)據(jù)標(biāo)注規(guī)則與流程,確保標(biāo)注結(jié)果的一致性與準(zhǔn)確性(如實(shí)體識(shí)別、語(yǔ)義分割、意圖分類等任務(wù));
5、通過(guò)應(yīng)用數(shù)據(jù)增強(qiáng)技術(shù)(如文本擴(kuò)寫(xiě)、圖像變換、對(duì)抗生成)提升數(shù)據(jù)量級(jí)與多樣性,優(yōu)化模型泛化能力;
6、設(shè)計(jì)數(shù)據(jù)標(biāo)注規(guī)則與SOP,搭建自動(dòng)化數(shù)據(jù)處理Pipeline;
7、開(kāi)發(fā)數(shù)據(jù)合成工具(如基于Diffusion模型生成圖像數(shù)據(jù));
8、保障數(shù)據(jù)安全合規(guī),制定隱私脫敏與版權(quán)管理策略。
任職要求:
1、計(jì)算機(jī)/統(tǒng)計(jì)學(xué)相關(guān)專業(yè)本科以上學(xué)歷,2年以上數(shù)據(jù)工程經(jīng)驗(yàn);
2、精通Python/SQL,熟練使用數(shù)據(jù)處理庫(kù)(如Pandas、NumPy)及分布式計(jì)算工具(Spark、Dask)。
3、熟悉主流標(biāo)注工具(Label Studio/CVAT)及數(shù)據(jù)湖架構(gòu);
4、了解數(shù)據(jù)標(biāo)注行業(yè)生態(tài),熟悉GDPR/《個(gè)人信息保護(hù)法》等數(shù)據(jù)合規(guī)要求;
5、參與過(guò)大模型預(yù)訓(xùn)練數(shù)據(jù)建設(shè)(如RedPajama/The Pile);
6、熟悉房地產(chǎn)業(yè)務(wù)場(chǎng)景的數(shù)據(jù)特點(diǎn)與標(biāo)注規(guī)范者優(yōu)先。