一、任職資格:
具備4年及以上主流物理服務(wù)器、操作系統(tǒng)維護(hù)經(jīng)驗;
精通GPU服務(wù)器、通算服務(wù)器主要部件的基本工作原理,具備GPU復(fù)雜故障的獨立排查能力,并進(jìn)行故障復(fù)盤和預(yù)防;
精通Linux操作系統(tǒng)的日常維護(hù)、復(fù)雜問題排查,具備shell腳本編程;
具備服務(wù)器及操作系統(tǒng)相關(guān)認(rèn)證證書人員優(yōu)先,服務(wù)器及操作系統(tǒng)相關(guān)認(rèn)證證書包含:RHCA、RHCE、RHCSA、ACP、VCP、VCAP、MCP、CKA、UCP、KYCP、HCIP-openEuler、NCA-AIIO認(rèn)證等(英偉達(dá)認(rèn)證助理-AI基礎(chǔ)設(shè)施與運維)。
二、工作內(nèi)容: 1、負(fù)責(zé)使用監(jiān)控工具實現(xiàn)GPU服務(wù)器、通用算力服務(wù)器、操作系統(tǒng)、中間件等軟硬件的性能監(jiān)控、巡檢、配置、升級、安全加固等工作,確保穩(wěn)定運行; 2、負(fù)責(zé)服務(wù)器和操作系統(tǒng)等軟硬件日志分析、性能監(jiān)控、容量規(guī)劃,及時發(fā)現(xiàn)并解決潛在問題,同時編寫和完善服務(wù)器和操作系統(tǒng)運維文檔,包括操作手冊、應(yīng)急預(yù)案等; 3、負(fù)責(zé)GPU算力服務(wù)器、通算服務(wù)器和操作系統(tǒng)故障處理,快速定位問題和恢復(fù)業(yè)務(wù); 4、負(fù)責(zé)監(jiān)控服務(wù)器和操作系統(tǒng)性能指標(biāo),分析性能瓶頸,提出優(yōu)化建議,實施服務(wù)器和操作系統(tǒng)性能優(yōu)化方案,提升系統(tǒng)性能和資源利用率,跟蹤服務(wù)器和操作系統(tǒng)新技術(shù)發(fā)展,評估新技術(shù)應(yīng)用價值,推動系統(tǒng)升級改造