任職要求:
1、系統(tǒng)與網(wǎng)絡(luò):熟悉Linux系統(tǒng)管理,深入理解TCP/IP等網(wǎng)絡(luò)協(xié)議,能熟練運(yùn)用常見(jiàn)運(yùn)維工具,如Shell/Python腳本、Ansible等。
2、 容器與云技術(shù):熟悉容器化技術(shù),如Docker、Kubernetes,了解云原生技術(shù)棧,有阿里云產(chǎn)品(如分布式消息隊(duì)列RocketMQ、分布式調(diào)度SchedulerX、全景業(yè)務(wù)監(jiān)控Sunfire、全局事務(wù)服務(wù)GTS等)使用及優(yōu)化經(jīng)驗(yàn)。
3、監(jiān)控與日志:熟悉常用的開(kāi)源監(jiān)控/日志分析系統(tǒng),如Prometheus、Zabbix、ELK。
4、數(shù)據(jù)庫(kù)與中間件:掌握主流數(shù)據(jù)庫(kù)(如MySQL)和中間件(如Nginx、Redis)的運(yùn)維知識(shí),熟悉其性能優(yōu)化和故障排查。
工作經(jīng)驗(yàn):
1、要求1 - 3年阿里云運(yùn)維經(jīng)驗(yàn),熟悉國(guó)網(wǎng)公司運(yùn)維流程者優(yōu)先。
問(wèn)題處理與分析能力
2、具備較強(qiáng)的問(wèn)題分析與解決能力,能獨(dú)立處理突發(fā)故障,迅速定位問(wèn)題根源并提出解決方案。
崗位職責(zé):
負(fù)責(zé)阿里組件分布式消息隊(duì)列RocketMQ、分布式調(diào)度SchedulerX、全景業(yè)務(wù)監(jiān)控Sunfire、全局事務(wù)服務(wù)GTS的運(yùn)維及運(yùn)營(yíng)工作,具體包含以下內(nèi)容:
1、集群部署與管理
負(fù)責(zé)部署、擴(kuò)容、縮容及升級(jí)工作,確保集群的高可用性和可擴(kuò)展性。
監(jiān)控集群狀態(tài),包括Broker節(jié)點(diǎn)健康狀態(tài)、消息堆積情況、網(wǎng)絡(luò)延遲等,及時(shí)發(fā)現(xiàn)并處理潛在問(wèn)題。
2、性能優(yōu)化
根據(jù)業(yè)務(wù)需求調(diào)整配置參數(shù),如消息存儲(chǔ)策略、刷盤機(jī)制、同步/異步發(fā)送等,以優(yōu)化性能。
定期進(jìn)行性能測(cè)試和調(diào)優(yōu),確保組件能夠滿足業(yè)務(wù)的高并發(fā)、低延遲需求。
3、故障處理
建立完善的故障應(yīng)急響應(yīng)機(jī)制,快速定位并解決運(yùn)行中的故障,如宕機(jī)、節(jié)點(diǎn)失效等。
分析故障根因,制定預(yù)防措施,避免類似故障再次發(fā)生。
4、安全運(yùn)維
負(fù)責(zé)組件的安全配置,如訪問(wèn)控制、數(shù)據(jù)加密、審計(jì)日志等,確保消息傳輸和存儲(chǔ)的安全性。
定期進(jìn)行安全漏洞掃描和修復(fù),防范潛在的安全風(fēng)險(xiǎn)。并協(xié)助業(yè)務(wù)團(tuán)隊(duì)開(kāi)展檢修工作。