崗位職責
1. 負責深度學習模型訓練框架的研發(fā)與優(yōu)化,支持大規(guī)模分布式訓練任務(如多機多卡并行、混合精度訓練);
2. 設計和實現高并發(fā)、低延遲的模型線上推理服務,優(yōu)化服務端性能(QPS/延遲/資源占用);
3. 參與AI框架核心模塊開發(fā)(如自定義算子、自動微分、計算圖優(yōu)化),深入理解PyTorch等框架的運行機制;
4. 構建和維護高效的Linux開發(fā)環(huán)境,設計自動化工具鏈(編譯/部署/監(jiān)控),保障模型訓練與服務的穩(wěn)定性。
任職要求
1. 技術基礎:
熟練掌握C/C++或Python,熟悉多線程編程(如鎖、線程池、協(xié)程)、常用設計模式(工廠/單例/觀察者);
熟悉Linux開發(fā)環(huán)境,熟練使用Shell腳本、性能分析工具(perf/strace/gdb)、系統(tǒng)級調試;
熟悉深度學習框架(PyTorch/TensorFlow),了解其核心機制(如動態(tài)圖、梯度計算、CUDA加速);
2. 工作經驗(滿足其一即可):
模型線上服務方向;
有模型部署經驗,熟悉TensorRT/ONNX/Triton等推理框架,掌握性能優(yōu)化技術(量化/剪枝/動態(tài)批處理);
熟悉高并發(fā)服務開發(fā)(gRPC/RESTful API),具備分布式系統(tǒng)設計能力(負載均衡/容災)。
模型訓練方向:
有大規(guī)模分布式訓練經驗,熟悉DDP/Horovod等框架,掌握顯存優(yōu)化(梯度檢查點/混合精度);
熟悉數據處理流水線優(yōu)化(Dataset/DataLoader)、訓練任務調度(Kubernetes/Slurm)。
3. 加分項:
參與過開源深度學習框架(PyTorch/TensorFlow)的源碼貢獻;
有CUDA編程經驗,或內核級性能調優(yōu)案例(如自定義算子、內存池設計);
熟悉容器化技術(Docker/K8s)、CI/CD工具鏈。