公司致力于人工智能領(lǐng)域前沿技術(shù)研發(fā),現(xiàn)因業(yè)務(wù)擴(kuò)展需要,誠(chéng)聘資深大模型系統(tǒng)工程師加入我們的技術(shù)團(tuán)隊(duì),共同推動(dòng)智能算力基礎(chǔ)設(shè)施的創(chuàng)新發(fā)展。
工作地點(diǎn): [西安、成都、貴陽(yáng)]
崗位職責(zé):
-
負(fù)責(zé)大模型訓(xùn)練/推理系統(tǒng)的部署、優(yōu)化與維護(hù)
-
搭建和維護(hù)AI基礎(chǔ)設(shè)施(GPU/DCU/NPU集群)
-
設(shè)計(jì)高可用系統(tǒng)架構(gòu),優(yōu)化Linux環(huán)境下Docker/Kubernetes等容器化部署方案
-
保障分布式存儲(chǔ)(MinIO)、緩存(Redis)、搜索(Elasticsearch)等中間件的穩(wěn)定運(yùn)行
-
開(kāi)發(fā)自動(dòng)化運(yùn)維腳本(Shell/Python),提升系統(tǒng)管理效率
-
進(jìn)行大模型性能調(diào)優(yōu),解決分布式訓(xùn)練中的系統(tǒng)級(jí)問(wèn)題
-
維護(hù)MySQL/PostgreSQL數(shù)據(jù)庫(kù)集群,保障數(shù)據(jù)服務(wù)可靠性
任職要求:
-
計(jì)算機(jī)/電子工程相關(guān)專業(yè)本科及以上學(xué)歷
-
5年以上Linux系統(tǒng)運(yùn)維/架構(gòu)師經(jīng)驗(yàn),3年以上AI系統(tǒng)相關(guān)經(jīng)驗(yàn)
-
精通以下技術(shù)棧:
? 操作系統(tǒng):CentOS/Ubuntu等主流Linux發(fā)行版
? 容器化技術(shù):Docker/Nginx/K8s深度使用經(jīng)驗(yàn)
? 數(shù)據(jù)庫(kù):MySQL/PostgreSQL至少精通一種
? 硬件加速:英偉達(dá)GPU/海光DCU/昇騰NPU部署調(diào)優(yōu)經(jīng)驗(yàn)
-
熟練掌握Shell/Python自動(dòng)化腳本開(kāi)發(fā)
-
具備大模型(LLM)分布式訓(xùn)練/部署實(shí)戰(zhàn)經(jīng)驗(yàn)
-
熟悉主流深度學(xué)習(xí)框架(PyTorch/TensorFlow)部署模式
-
優(yōu)秀的系統(tǒng)問(wèn)題定位與性能優(yōu)化能力
加分項(xiàng):
-
有大模型落地項(xiàng)目經(jīng)驗(yàn)者優(yōu)先
-
熟悉分布式文件系統(tǒng)(Ceph/GlusterFS)部署
-
具有Kubernetes集群管理認(rèn)證(CKA/CKAD)
-
掌握Go/C++等系統(tǒng)級(jí)開(kāi)發(fā)語(yǔ)言
-
熟悉AWS/Azure/華為云等云平臺(tái)AI服務(wù)