崗位職責(zé):
1、硬件維護(hù)
負(fù)責(zé)GPU服務(wù)器的安裝、調(diào)試、上架、故障診斷及維修。
定期檢查硬件狀態(tài)(GPU、CPU、內(nèi)存、硬盤、電源等),確保設(shè)備穩(wěn)定運(yùn)行。
配合供應(yīng)商處理硬件保修或更換(如GPU燒毀、顯存故障等)。
2、集群與驅(qū)動(dòng)管理
管理大規(guī)模GPU集群(萬卡級(jí)),支持算力網(wǎng)絡(luò)架構(gòu)(IB/RoCE/NVLink/PCIe),優(yōu)化集群性能(HPL/HPCG基準(zhǔn)測試),解決網(wǎng)絡(luò)通信、存儲(chǔ)(Lustre/CephFS)及算力調(diào)度(Slurm/PBS)問題。
部署與維護(hù)監(jiān)控系統(tǒng)(Prometheus/Grafana/Zabbix),實(shí)時(shí)跟蹤GPU利用率、功耗及健康狀態(tài),構(gòu)建故障預(yù)警機(jī)制,設(shè)計(jì)HA測試方案(故障注入/災(zāi)備切換)。
3、硬件與軟件適配
執(zhí)行服務(wù)器硬件改配(如GPU升級(jí)、液冷方案部署)及軟件適配(驅(qū)動(dòng)安裝、BIOS/固件更新),確保與操作系統(tǒng)(Linux/CentOS)、虛擬化平臺(tái)(Docker/Kubernetes)及AI框架(CUDA/TensorRT)的兼容性。
參與智算中心交付,配合完成服務(wù)器上架、網(wǎng)絡(luò)配置及壓力測試,支持異構(gòu)加速場景(大模型訓(xùn)練/推理)。
4、文檔與協(xié)作
編寫運(yùn)維手冊、故障處理SOP及巡檢報(bào)告,維護(hù)維修案例庫,記錄硬件生命周期(故障歷史、配件更換)。
與研發(fā)、售前團(tuán)隊(duì)協(xié)作,解決復(fù)雜技術(shù)問題(如硬件兼容性、性能瓶頸),提供客戶技術(shù)培訓(xùn)及方案定制。
探索前沿技術(shù)(如Chiplet異構(gòu)集成、存算一體架構(gòu)),優(yōu)化運(yùn)維自動(dòng)化工具(Ansible/Python腳本),提升故障處理效率。
任職要求:
1、專業(yè)背景
計(jì)算機(jī)、電子工程、通信等相關(guān)專業(yè),本科及以上學(xué)歷;3年以上GPU服務(wù)器維護(hù)或數(shù)據(jù)中心運(yùn)維經(jīng)驗(yàn),熟悉NVIDIA/AMD主流顯卡架構(gòu)(如Hopper/Ada Lovelace)者優(yōu)先。
2、核心技能
硬件能力:精通GPU服務(wù)器拆裝、故障診斷(如錯(cuò)誤代碼解析),掌握焊接工具(熱風(fēng)槍、示波器)及備件管理,熟悉服務(wù)器BMC管理(IPMI/RedFish)。
軟件與工具:熟練使用Linux命令行,掌握自動(dòng)化工具(Ansible/Kubernetes)、監(jiān)控平臺(tái)(Prometheus)及集群管理工具(Slurm);熟悉Python/Shell腳本開發(fā)。
網(wǎng)絡(luò)與架構(gòu):理解IB/RoCE網(wǎng)絡(luò)協(xié)議、RDMA原理,掌握集群文件系統(tǒng)(Lustre/NFS)部署與調(diào)優(yōu),熟悉PCIe/CXL接口規(guī)范。
3、軟技能
具備快速故障定位能力(MTTR優(yōu)化),能在7×24小時(shí)輪值中響應(yīng)緊急事件;良好的客戶溝通能力,適應(yīng)定制化服務(wù)需求。