工作職責
1.設計并搭建大規(guī)模 K8S 計算集群,保障數(shù)據(jù)、訓練、推理等平臺穩(wěn)定運行。
2.負責 K8S 集群日常運維,包括資源調度、彈性擴縮容、服務部署與版本升級。
3.優(yōu)化 K8S 集群性能,解決任務調度、彈性容災等技術問題,提升平臺運行效率。
4.監(jiān)控集群狀態(tài),快速定位并處理故障,制定應急預案,保障業(yè)務連續(xù)性。
5.研究業(yè)內 K8S 運維方案,結合 AI 平臺需求優(yōu)化運維流程與技術方案。
任職資格
1.計算機相關專業(yè)本科及以上學歷,3 年以上 K8S 運維經(jīng)驗,有 AI 平臺運維經(jīng)驗優(yōu)先。
2.精通 K8S 集群架構、網(wǎng)絡、存儲、資源管理,熟練使用 kubectl、Helm 等工具。
3.熟悉 Docker 容器化技術,掌握 Spring Boot、Python 等服務部署與調試。
4.熟悉 Jenkins、Argo 等 DevOps 工具鏈,具備自動化運維、CI/CD 流程搭建經(jīng)驗。
5.具備良好的問題分析與解決能力,責任心強,能適應高強度運維工作。
6.具備獨立部署redis、rabbitmq、mysql、minio、harbor、es等組件并調優(yōu)