崗位工作概述:
1. 負責設計、部署、優(yōu)化及維護高效、可擴展的AI算力IT系統(tǒng)設施,包括服務器、存儲、網(wǎng)絡及安全設備等;
2. 確保用戶AI研發(fā)、模型訓練及推理任務的順利進行;
深入?yún)⑴c從需求分析、架構(gòu)設計、資源調(diào)度、性能優(yōu)化到故障排查的全過程,為公司的AI算力業(yè)務發(fā)展提供堅實的算力支撐。
工作經(jīng)驗:
1.
具備10年以上AI算力系統(tǒng)或高性能計算(HPC)領域的工作經(jīng)驗,有成功部署和優(yōu)化大規(guī)模AI計算集群的經(jīng)驗者優(yōu)先;
2.
在大型互聯(lián)網(wǎng)公司、科研機構(gòu)或AI初創(chuàng)企業(yè)從事AI算力系統(tǒng)建設與維護的經(jīng)驗;
有主導或參與過至少兩個大型AI算力集群的設計、部署與優(yōu)化項目的優(yōu)先考慮。
教育水平要求:
1. 計算機科學、信息技術(shù)、軟件工程或相關專業(yè)本科及以上學歷;
碩士及以上學歷,或在相關領域有深入研究或突出貢獻者,將優(yōu)先考慮。
崗位技能要求:
1. 架構(gòu)設計:能夠設計高可用、可擴展的AI算力架構(gòu),包括硬件選型、網(wǎng)絡規(guī)劃、存儲設計等;
2. 資源調(diào)度與優(yōu)化:熟悉Kubernetes、Docker等容器化技術(shù),以及YARN等資源調(diào)度系統(tǒng),能夠優(yōu)化資源利用率,提升計算效率;
3. 性能調(diào)優(yōu):具備深入的系統(tǒng)性能調(diào)優(yōu)能力,包括CPU、GPU、內(nèi)存、網(wǎng)絡、存儲等各方面的優(yōu)化;
4. 自動化運維:熟悉Ansible、Puppet等自動化運維工具,能夠編寫自動化腳本提升運維效率;
5. 故障排查與應急響應:能夠快速響應系統(tǒng)故障,準確排查問題根源,并制定有效的解決方案。
工作職責與任務:
1.
系統(tǒng)規(guī)劃與設計:根據(jù)公司業(yè)務需求,規(guī)劃并設計AI算力系統(tǒng)的整體架構(gòu),包括硬件選型、網(wǎng)絡布局、存儲策略等。
2.
部署與集成:負責AI算力集群的部署、配置與集成,確保系統(tǒng)穩(wěn)定運行。
3.
性能優(yōu)化:對AI算力任務進行性能分析,提出并實施優(yōu)化方案,提升計算效率。
4.
運維管理:負責日常運維工作,包括系統(tǒng)監(jiān)控、日志分析、故障排查與解決等。
5.
技術(shù)創(chuàng)新與研究:跟蹤AI算力領域的最新技術(shù)動態(tài),探索并引入新技術(shù),提升系統(tǒng)競爭力。
團隊建設與培訓:指導并培養(yǎng)初級工程師,提升團隊整體技術(shù)水平。
其他素質(zhì)要求:
1. 具備自驅(qū)力:具備工作主動性和自我驅(qū)動學習能力;
2.
問題解決:具備較強的問題分析和解決能力,能夠獨立或協(xié)助解決復雜的技術(shù)問題;
溝通能力:良好的溝通能力和團隊合作精神,能夠與不同部門有效協(xié)作,推動項目進展。