崗位職責(zé):
1、系統(tǒng)運(yùn)維保障
負(fù)責(zé)HPC集群(基于Slurm作業(yè)調(diào)度系統(tǒng))的日常運(yùn)維,保障超算平臺(tái)穩(wěn)定運(yùn)行;
維護(hù)InfiniBand(IB)網(wǎng)絡(luò)架構(gòu),處理網(wǎng)絡(luò)性能優(yōu)化及故障排查;
管理分布式存儲(chǔ)系統(tǒng)(Lustre/GPFS),監(jiān)控存儲(chǔ)容量、性能及硬件健康狀態(tài),及時(shí)處理存儲(chǔ)故障。
2、硬件與設(shè)備維護(hù)
負(fù)責(zé)物理服務(wù)器(X86/ARM/GPU/SW64架構(gòu))存儲(chǔ)的基礎(chǔ)配置、硬件巡檢、故障診斷及備件更換;
維護(hù)網(wǎng)絡(luò)設(shè)備(交換機(jī)、路由器、防火墻等),確保網(wǎng)絡(luò)連通性及安全性;
配合供應(yīng)商完成硬件維保及升級(jí)工作。
3、系統(tǒng)與安全運(yùn)維
熟悉CentOS/Rocky/Ubuntu等Linux系統(tǒng),執(zhí)行系統(tǒng)巡檢、補(bǔ)丁升級(jí)、漏洞修復(fù)等操作;
制定并優(yōu)化運(yùn)維流程,編寫(xiě)運(yùn)維手冊(cè)、故障報(bào)告、變更記錄等技術(shù)文檔。
任職要求
大專(zhuān)及以上學(xué)歷,1年以上超算/HPC集群或大型數(shù)據(jù)中心運(yùn)維經(jīng)驗(yàn);
熟悉超算領(lǐng)域相關(guān)架構(gòu)組件,能熟練操作Slurm作業(yè)調(diào)度系統(tǒng),了解IB網(wǎng)絡(luò)架構(gòu)原理;
具備Lustre/GPFS存儲(chǔ)系統(tǒng)維護(hù)經(jīng)驗(yàn),了解分布式存儲(chǔ)原理。
熟練操作Linux系統(tǒng),掌握Shell/Python腳本編寫(xiě)能力;
熟悉服務(wù)器硬件架構(gòu)(X86/ARM/GPU等),能獨(dú)立完成硬件故障排查及更換;
了解網(wǎng)絡(luò)基礎(chǔ)知識(shí)(TCP/IP、VLAN、路由協(xié)議等),具備網(wǎng)絡(luò)設(shè)備配置經(jīng)驗(yàn)。
軟性素質(zhì)
責(zé)任心強(qiáng),具備良好的服務(wù)意識(shí),與用戶(hù)及團(tuán)隊(duì)高效溝通,推動(dòng)問(wèn)題解決。
邏輯清晰,具備技術(shù)文檔編寫(xiě)及問(wèn)題分析能力;
良好的團(tuán)隊(duì)協(xié)作與跨部門(mén)溝通能力。
加分項(xiàng)
持有RHCE、CCNA、HPC認(rèn)證等相關(guān)證書(shū);
有國(guó)產(chǎn)化平臺(tái)(如SW64、昇騰、海光架構(gòu))運(yùn)維經(jīng)驗(yàn);
熟悉容器化技術(shù)(Docker/Kubernetes)或自動(dòng)化運(yùn)維工具Ansible