工作經(jīng)驗
要求1 - 3年阿里云運維經(jīng)驗,熟悉國網(wǎng)公司運維流程者優(yōu)先。
問題處理與分析能力
- 具備較強的問題分析與解決能力,能獨立處理突發(fā)故障,迅速定位問題根源并提出解決方案。
職業(yè)素養(yǎng)
- 責任心強,工作細致,具備良好的溝通能力和團隊協(xié)作意識,能夠與不同部門的人員有效合作。
證書與學歷
- 學歷上一般要求本科及以上,計算機相關(guān)專業(yè)。擁有阿里云相關(guān)認證(如ACP/ACE)、網(wǎng)絡相關(guān)認證(如CCIE、HCIE)者優(yōu)先。
負責阿里組件分布式消息隊列RocketMQ、分布式調(diào)度SchedulerX、全景業(yè)務監(jiān)控Sunfire、全局事務服務GTS的運維及運營工作,具體包含以下內(nèi)容:
1、集群部署與管理
負責部署、擴容、縮容及升級工作,確保集群的高可用性和可擴展性。
監(jiān)控集群狀態(tài),包括Broker節(jié)點健康狀態(tài)、消息堆積情況、網(wǎng)絡延遲等,及時發(fā)現(xiàn)并處理潛在問題。
2、性能優(yōu)化
根據(jù)業(yè)務需求調(diào)整配置參數(shù),如消息存儲策略、刷盤機制、同步/異步發(fā)送等,以優(yōu)化性能。
定期進行性能測試和調(diào)優(yōu),確保組件能夠滿足業(yè)務的高并發(fā)、低延遲需求。
3、故障處理
建立完善的故障應急響應機制,快速定位并解決運行中的故障,如宕機、節(jié)點失效等。
分析故障根因,制定預防措施,避免類似故障再次發(fā)生。
4、安全運維
負責組件的安全配置,如訪問控制、數(shù)據(jù)加密、審計日志等,確保消息傳輸和存儲的安全性。
定期進行安全漏洞掃描和修復,防范潛在的安全風險。并協(xié)助業(yè)務團隊開展檢修工作。