崗位職責(zé):
1、負(fù)責(zé)使用監(jiān)控工具實(shí)現(xiàn)GPU服務(wù)器、通用算力服務(wù)器、操作系統(tǒng)、中間件等軟硬件的性能監(jiān)控、巡檢、配置、升級(jí)、安全加固等工作,確保穩(wěn)定運(yùn)行;
2、負(fù)責(zé)服務(wù)器和操作系統(tǒng)等軟硬件日志分析、性能監(jiān)控、容量規(guī)劃,及時(shí)發(fā)現(xiàn)并解決潛在問(wèn)題,同時(shí)編寫和完善服務(wù)器和操作系統(tǒng)運(yùn)維文檔,包括操作手冊(cè)、應(yīng)急預(yù)案等;
3、負(fù)責(zé)GPU算力服務(wù)器、通算服務(wù)器和操作系統(tǒng)故障處理,快速定位問(wèn)題和恢復(fù)業(yè)務(wù);
4、負(fù)責(zé)監(jiān)控服務(wù)器和操作系統(tǒng)性能指標(biāo),分析性能瓶頸,提出優(yōu)化建議,實(shí)施服務(wù)器和操作系統(tǒng)性能優(yōu)化方案,提升系統(tǒng)性能和資源利用率,跟蹤服務(wù)器和操作系統(tǒng)新技術(shù)發(fā)展,評(píng)估新技術(shù)應(yīng)用價(jià)值,推動(dòng)系統(tǒng)升級(jí)改造。
任職要求:
1、具備4年及以上主流物理服務(wù)器、操作系統(tǒng)維護(hù)經(jīng)驗(yàn);
2、精通GPU服務(wù)器、通算服務(wù)器主要部件的基本工作原理,具備GPU復(fù)雜故障的獨(dú)立排查能力,并進(jìn)行故障復(fù)盤和預(yù)防;
3、精通Linux操作系統(tǒng)的日常維護(hù)、復(fù)雜問(wèn)題排查,具備shell腳本編程;
4、具備服務(wù)器及操作系統(tǒng)相關(guān)認(rèn)證證書人員優(yōu)先,服務(wù)器及操作系統(tǒng)相關(guān)認(rèn)證證書包含:RHCA、RHCE、RHCSA、ACP、VCP、VCAP、MCP、CKA、UCP、KYCP、HCIP-openEuler、NCA-AIIO認(rèn)證等(英偉達(dá)認(rèn)證助理-AI基礎(chǔ)設(shè)施與運(yùn)維)。