我們正在尋找一位具備大模型基礎(chǔ)知識,并精通 C++ 和 Python 的工程師,負責大語言模型(LLM)的微調(diào)、優(yōu)化及 RAG(Retrieval-Augmented Generation)增強。您將參與 LoRA、量化、推理加速等優(yōu)化工作,并探索高效檢索增強生成(RAG)方案,提升模型在長文本理解和知識問答方面的能力。
崗位職責:
1、負責大語言模型(LLM)的微調(diào)(Fine-tuning),包括 LoRA、全參數(shù)微調(diào)等;
2、研究并優(yōu)化 RAG(檢索增強生成)方案,提升模型的上下文理解能力;
3、優(yōu)化模型推理性能,研究并實現(xiàn)量化技術(shù)(如 GPTQ、AWQ);
4、結(jié)合 C++ 和 Python 進行高效實現(xiàn),優(yōu)化訓(xùn)練和推理流程;
5、參與向量檢索、知識庫構(gòu)建及索引優(yōu)化,如 FAISS、HNSW、Milvus 等;
6、研究并落地高效 RAG 方案,結(jié)合分塊策略、召回排序、知識蒸餾等提升效果;
7、結(jié)合業(yè)務(wù)需求,推進大模型在智能問答、搜索增強等應(yīng)用落地。
任職要求:
1、熟悉大模型的基礎(chǔ)知識,如 Transformer、注意力機制、參數(shù)高效微調(diào)(PEFT)等;
2、熟練掌握 C++ 和 Python,有扎實的編程能力和性能優(yōu)化經(jīng)驗;
3、具備模型微調(diào)(Fine-tuning)經(jīng)驗,熟悉 LoRA、Adapter、QLoRA 等技術(shù)
4、了解 RAG 相關(guān)技術(shù),如向量數(shù)據(jù)庫、檢索策略、知識增強等;
5、熟悉 PyTorch 或 TensorFlow,并具備實際項目經(jīng)驗;
6、有模型量化(如 GPTQ、AWQ)的實踐經(jīng)驗優(yōu)先;
7、了解 CUDA、TensorRT、ONNX、Triton 等推理加速工具優(yōu)先;
8、具備良好的團隊合作和溝通能力,能夠獨立分析和解決問題。
加分項:
1、有開源項目貢獻或論文發(fā)表
2、熟悉 FlashAttention、Fused Kernel 優(yōu)化等高效計算庫;
3、了解分布式訓(xùn)練(DeepSpeed、FSDP、Megatron-LM);
4、具備檢索-生成融合優(yōu)化(如 Hybrid Search、跨模態(tài)檢索)的經(jīng)驗。