崗位職責:
1、負責網(wǎng)絡硬件設備及配套系統(tǒng)網(wǎng)絡的安裝調(diào)試;
2、負責網(wǎng)絡設備的維護、管理、故障排除等日常工作;
3、負責網(wǎng)絡設備及監(jiān)控系統(tǒng)的日志分析;
4、檢查網(wǎng)絡安全漏洞,并能提出解決方案及時修復;
5、上級領導臨時安排的其他工作。
崗位要求:
1、精通底層基礎設施(硬件、網(wǎng)絡、存儲),尤其是高速網(wǎng)絡和 GPU;
2、深入理解分布式深度學習訓練原理和工具(PyTorch, DeepSpeed, Megatron, NCCL),特別是混合并行和優(yōu)化技術(ZeRO, AMP);
3、具備強大的工程實踐能力(監(jiān)控、日志、自動化運維、調(diào)試、性能調(diào)優(yōu));
4、了解目標模型(DeepSeek)的具體需求和特性;
5、具備團隊協(xié)作和解決復雜問題的能力。