崗位職責(zé):
1、需求分析與建模
深入理解業(yè)務(wù)場景(如AI訓(xùn)練、大數(shù)據(jù)分析、實(shí)時(shí)渲染等),量化算力需求(計(jì)算量、存儲(chǔ)量、網(wǎng)絡(luò)帶寬、延遲要求等)。
建立算力需求模型,預(yù)測短期與長期的資源消耗趨勢(如峰值負(fù)載、擴(kuò)展周期)。
2、算力架構(gòu)設(shè)計(jì)與規(guī)劃
設(shè)計(jì)算力資源分配方案,包括本地服務(wù)器集群、云計(jì)算資源(公有云/混合云)、邊緣節(jié)點(diǎn)等混合架構(gòu)。
優(yōu)化算力資源的調(diào)度策略(如動(dòng)態(tài)擴(kuò)縮容、負(fù)載均衡、容災(zāi)備份),提升資源利用率。
針對特定場景(如大模型訓(xùn)練)優(yōu)化硬件選型(CPU/GPU/NPU比例、存儲(chǔ)類型、網(wǎng)絡(luò)拓?fù)洌?3、成本與性能優(yōu)化
平衡算力性能與成本,制定資源采購、租賃或混合部署方案(如冷熱數(shù)據(jù)分層存儲(chǔ)、競價(jià)實(shí)例使用策略)。
監(jiān)控算力使用效率,提出優(yōu)化建議(如資源回收、算法加速、代碼調(diào)優(yōu))。
4、技術(shù)研究與落地
跟進(jìn)算力技術(shù)趨勢(如量子計(jì)算、存算一體、分布式訓(xùn)練框架),推動(dòng)新技術(shù)在業(yè)務(wù)中的試點(diǎn)與應(yīng)用。
5、輸出技術(shù)文檔(如算力需求白皮書、資源使用規(guī)范)。
崗位要求:
1、計(jì)算機(jī)科學(xué)、電子工程、數(shù)學(xué)、統(tǒng)計(jì)學(xué)等相關(guān)專業(yè)。三年以上工作經(jīng)驗(yàn)
2、熟悉主流算力硬件(如NVIDIA GPU、TPU、FPGA)及架構(gòu)特性(CUDA、RDMA網(wǎng)絡(luò))。
3、精通云計(jì)算平臺(tái)(AWS/Azure/阿里云)的算力服務(wù)(如彈性計(jì)算、容器服務(wù)、Serverless)。
4、掌握分布式系統(tǒng)原理,熟悉調(diào)度框架(Kubernetes、Slurm、Spark)。
5、具備性能調(diào)優(yōu)經(jīng)驗(yàn)(如并行計(jì)算優(yōu)化、內(nèi)存/帶寬瓶頸分析)。
分析能力
6、溝通能力好,能將技術(shù)方案轉(zhuǎn)化為業(yè)務(wù)部門可理解的語言,協(xié)調(diào)多方資源推進(jìn)項(xiàng)目。
7、有大規(guī)模算力集群(如超算中心、AI訓(xùn)練平臺(tái))規(guī)劃經(jīng)驗(yàn);
8、熟悉綠色算力(如液冷技術(shù)、PUE優(yōu)化)或政策合規(guī)要求(如數(shù)據(jù)安全、能效標(biāo)準(zhǔn))。