職位描述:
1.負(fù)責(zé)大模型預(yù)訓(xùn)練數(shù)據(jù)的清洗、去噪與結(jié)構(gòu)化處理,構(gòu)建高質(zhì)量語(yǔ)料庫(kù),支持模型訓(xùn)練需求。
2.設(shè)計(jì)并實(shí)現(xiàn)基于Python的高效數(shù)據(jù)處理Pipeline,優(yōu)化數(shù)據(jù)預(yù)處理流程,提升數(shù)據(jù)質(zhì)量。
3.擅長(zhǎng)對(duì)接數(shù)據(jù)采集(上游)與模型訓(xùn)練(下游),制定數(shù)據(jù)規(guī)范、質(zhì)量監(jiān)控及閉環(huán)優(yōu)化策略,確保數(shù)據(jù)-模型高效協(xié)同。
核心技能要求:
1.編程能力
a. 熟練掌握Python語(yǔ)言,熟練使用正則表達(dá)式,掌握面向?qū)ο缶幊碳邦?lèi)的繼承等,有html,json等數(shù)據(jù)處理經(jīng)驗(yàn)。
b. 熟練掌握Linux,能夠自主進(jìn)行conda環(huán)境配置與依賴管理,擅長(zhǎng)使用grep/awk/sed等命令進(jìn)行文本處理。
c. 具備N(xiāo)LP實(shí)戰(zhàn)經(jīng)驗(yàn),熟悉中文分詞技術(shù),掌握文本分類(lèi)模型訓(xùn)練流程及調(diào)優(yōu)方法,有實(shí)際項(xiàng)目經(jīng)驗(yàn)
2.加分項(xiàng)
a. 熟悉lxml,BeautifulSoup等技術(shù),有一定的爬蟲(chóng)經(jīng)驗(yàn)。
b. 熟悉DeepSeek、通義千問(wèn)等國(guó)產(chǎn)大模型的選型、量化、推理加速及ollama部署,具備Prompt工程和RAG優(yōu)化等垂直領(lǐng)域適配經(jīng)驗(yàn)。
c. 熟練部署并優(yōu)化開(kāi)源工具,掌握容器化封裝、性能調(diào)優(yōu)及生產(chǎn)級(jí)落地能力,確保高效穩(wěn)定服務(wù)于業(yè)務(wù)場(chǎng)景。
d. 有spark分布式和并發(fā)數(shù)據(jù)處理經(jīng)驗(yàn);
任職資格:
1.本科及以上學(xué)歷(研究生優(yōu)先),計(jì)算機(jī)、數(shù)據(jù)科學(xué)、人工智能相關(guān)專(zhuān)業(yè)。
2.1年以上數(shù)據(jù)清洗/處理經(jīng)驗(yàn),有LLM或NLP項(xiàng)目經(jīng)驗(yàn)者優(yōu)先。
3.具備良好的數(shù)據(jù)敏感度,能獨(dú)立解決復(fù)雜數(shù)據(jù)問(wèn)題。
4.強(qiáng)烈的責(zé)任心與團(tuán)隊(duì)協(xié)作能力,適應(yīng)快節(jié)奏技術(shù)迭代。