1. 高效通信庫研發(fā):參與公司自研芯片智能計(jì)算系統(tǒng)集合通信庫的研發(fā)工作,致力于創(chuàng)建高性能、高可靠性的通信庫,以支持大規(guī)模并行計(jì)算任務(wù)的數(shù)據(jù)交換與同步過程。
2. 通信性能優(yōu)化:結(jié)合自研芯片的獨(dú)特硬件架構(gòu),定位通信庫中的性能瓶頸,并制定有效的優(yōu)化策略,以顯著提高通信效率和響應(yīng)速度。
3. 系統(tǒng)通信性能評估:從功能完整性、運(yùn)行效率及可靠性等多個(gè)維度,對系統(tǒng)及芯片架構(gòu)在支持集合通信機(jī)制方面進(jìn)行深入評估,確保為模型訓(xùn)練等應(yīng)用場景提供最優(yōu)的通信支持。
崗位要求:
1. 集合通信經(jīng)驗(yàn):了解主流集合通信庫(如NCCL、MPI)的工作原理、內(nèi)部架構(gòu)及其應(yīng)用案例,有相關(guān)性能調(diào)優(yōu)的實(shí)際操作經(jīng)驗(yàn)者優(yōu)先考慮。
2. 編程技能:精通C/C++編程語言,擁有扎實(shí)的數(shù)據(jù)結(jié)構(gòu)和算法基礎(chǔ)。熟悉Linux操作系統(tǒng)環(huán)境下的開發(fā)流程,注重代碼質(zhì)量和規(guī)范性。
3. 網(wǎng)絡(luò)知識:掌握計(jì)算機(jī)網(wǎng)絡(luò)的基本理論,具備豐富的網(wǎng)絡(luò)編程實(shí)戰(zhàn)經(jīng)驗(yàn),能夠在復(fù)雜環(huán)境下快速診斷并解決網(wǎng)絡(luò)通信故障。
4. 體系結(jié)構(gòu)理解:深刻理解計(jì)算機(jī)體系結(jié)構(gòu),尤其是硬件層面的并行化設(shè)計(jì)原則,能夠準(zhǔn)確評估硬件特性對通信性能的影響,并探索潛在的性能改進(jìn)空間。
5. 工具使用:熟練運(yùn)用git等版本控制系統(tǒng)以及vim等文本編輯器,能夠高效地管理代碼庫,促進(jìn)團(tuán)隊(duì)協(xié)作開發(fā)。
6. 并行計(jì)算能力:熟悉CUDA/OpenMP/OpenCV等并行計(jì)算框架和技術(shù),有能力通過這些技術(shù)來增強(qiáng)通信庫的并行處理能力。
7. 軟技能:具備出色的學(xué)習(xí)能力和溝通技巧,樂于分享個(gè)人經(jīng)驗(yàn)和見解,積極參與團(tuán)隊(duì)合作,對待工作認(rèn)真負(fù)責(zé),展現(xiàn)出高度的職業(yè)道德和敬業(yè)精神。
(此崗位為外包崗位)