崗位職責(zé):
1.基于業(yè)務(wù)場景(行為識(shí)別)對(duì)InternVL、QwenVL等VLM模型進(jìn)行領(lǐng)域適配性微調(diào),優(yōu)化圖像理解、動(dòng)作識(shí)別、多模態(tài)推理能力
2.構(gòu)建零售場景專屬數(shù)據(jù)集,設(shè)計(jì)數(shù)據(jù)增強(qiáng)策略,解決遮擋、光照變化等實(shí)際場景挑戰(zhàn)
3.實(shí)現(xiàn)CV&VLM模型在邊緣設(shè)備(如Jetson系列)/云端的輕量化部署,優(yōu)化推理速度與資源占用
4.開發(fā)模型服務(wù)化接口,支持實(shí)時(shí)視頻流分析與行為事件觸發(fā)機(jī)制
5.設(shè)計(jì)時(shí)序行為分析框架,融合目標(biāo)檢測(如定位、姿態(tài)估計(jì)、動(dòng)作分類等多模塊協(xié)同工作
6.構(gòu)建基于VLM的異常行為識(shí)別系統(tǒng)(違規(guī)操作等場景)
7.跟進(jìn)VLM前沿技術(shù)(如多模態(tài)prompt工程、模型蒸餾),探索3D視覺與VLM的融合方案
8.輸出可復(fù)用的算法組件庫,建立零售場景算法基準(zhǔn)測試體系
崗位要求:
1.熟練掌握PyTorch框架及HuggingFace生態(tài),具有InternVL/QwenVL等開源VLM實(shí)戰(zhàn)調(diào)優(yōu)經(jīng)驗(yàn)
2.精通模型壓縮技術(shù)(量化/剪枝/知識(shí)蒸餾),有VLLM/LMdeploy等部署工具實(shí)戰(zhàn)經(jīng)驗(yàn)
3.熟悉視頻理解技術(shù)棧(OpenCV/FFmpeg/Decord),具備多線程視頻處理系統(tǒng)開發(fā)能力
4.具備強(qiáng)工程實(shí)現(xiàn)能力,主導(dǎo)過至少1個(gè)完整AI項(xiàng)目從研發(fā)到落地的全生命周期
5.理解行為場景特性:能通過算法設(shè)計(jì)應(yīng)對(duì)監(jiān)控視角差異、制服相似度、復(fù)雜背景干擾等挑戰(zhàn)
6.有行為識(shí)別項(xiàng)目經(jīng)驗(yàn)者優(yōu)先,熟悉NTU RGB+D、AVA等行為數(shù)據(jù)集者加分
7.具備產(chǎn)品化思維,能協(xié)同硬件團(tuán)隊(duì)優(yōu)化計(jì)算資源分配方案
8.具有技術(shù)文檔撰寫習(xí)慣,代碼符合工業(yè)級(jí)可維護(hù)性標(biāo)準(zhǔn)
9.在CVPR/ICCV/ECCV等會(huì)議發(fā)表過多模態(tài)學(xué)習(xí)相關(guān)論文
10.有成功通過模型微調(diào)提升特定場景指標(biāo)30%以上案例
11.具備模型服務(wù)高并發(fā)處理經(jīng)驗(yàn)
碩士或985,211的本科畢業(yè)生 ,30以內(nèi)
我們提供:
參與千萬級(jí)門店智能化改造的行業(yè)標(biāo)桿項(xiàng)目
配備A100/H100算力集群及邊緣設(shè)備開發(fā)套件
技術(shù)成果可快速應(yīng)用于數(shù)萬線下零售場景
與VLM領(lǐng)域頂尖團(tuán)隊(duì)定期技術(shù)交流機(jī)會(huì)