崗位職責:
1. 負責公司平臺級核心服務的運維與團隊管理,提升業(yè)務的穩(wěn)定性、可靠性與工程效率;
2. 主導應用上線評審、發(fā)布交付、配置變更、狀態(tài)監(jiān)控、容量管理、故障響應等關鍵流程;
3. 參與核心服務的高可用性設計、性能優(yōu)化和容量規(guī)劃,確保業(yè)務平滑擴展與高效迭代;
4. 主導線上重大問題排查、故障恢復與復盤優(yōu)化,推動故障演練、應急預案與SOP建設;
5. 負責容器化環(huán)境下高可用管理,包括限流、降級、容錯、容災等方案制定與落地;
6. 推動運維流程標準化、文檔化、平臺化與自動化建設,提升整個團隊的運維交付效率與安全保障能力。技能要求:
- 本科及以上學歷,6 年以上互聯(lián)網(wǎng)公司運維經(jīng)驗,1 年以上技術團隊管理經(jīng)驗;- 熟悉微服務架構、分布式系統(tǒng)部署、兩地三中心、業(yè)務多活等架構模型;
- 精通 Kubernetes 生態(tài)及其組件運行原理,具備大規(guī)模生產(chǎn)環(huán)境下的使用、排錯和性能調優(yōu)經(jīng)驗;
- 熟練掌握 Python / Go / Shell 等腳本語言,能獨立開發(fā)運維工具或服務;
- 熟悉并應用過 SRE 運維體系(如 SLO/SLA、Error Budget、可觀測性、自動化響應);
- 有強系統(tǒng)架構思維,具備技術推進、流程優(yōu)化和平臺工程化能力;
其他要求:
- 有 PostgreSQL / Doris / Kafka / Nacos 等組件運維經(jīng)驗;
- 具備 Service Mesh 實戰(zhàn)(如 Istio)、Sidecar 模型理解;
- 有 DevOps 平臺工具自研或二次開發(fā)經(jīng)驗;