一、公司介紹:
彩訊股份(證券代碼:300634)創(chuàng)始于2004年,是國家高新技術(shù)企業(yè),國家鼓勵(lì)的重點(diǎn)軟件企業(yè)。員工規(guī)模4500余人,其中研發(fā)及產(chǎn)品運(yùn)營人員約占92%。擁有北京、廣州、深圳、杭州、成都五處研發(fā)基地以及覆蓋全國的運(yùn)營網(wǎng)絡(luò)。
公司主營智慧渠道、協(xié)同辦公、智算服務(wù)與數(shù)據(jù)智能三大產(chǎn)品線,覆蓋電信、金融、能源等多行業(yè)的大中型央國企,服務(wù)終端消費(fèi)者超過10億?;诙嗄攴e累的豐富的業(yè)務(wù)應(yīng)用場景,結(jié)合公司全面AI戰(zhàn)略,構(gòu)建從AI原生云計(jì)算解決方案Rich AICloud、一站式AI應(yīng)用開發(fā)平臺(tái)Rich AIBox到垂直行業(yè)大模型應(yīng)用解決方案的AI全棧服務(wù)體系,覆蓋企業(yè)大模型應(yīng)用開發(fā)全生命周期,助力AI技術(shù)的普及與深入應(yīng)用。
二、職位描述:
我們正在尋找一位專注于多模態(tài)文檔解析的 RAG 算法工程師,加入我們的前沿技術(shù)團(tuán)隊(duì)。你將專注于處理和解析各種多模態(tài)文檔 (如 PDF、PPT、網(wǎng)頁等),從中提取文本、圖像、表格等信息,構(gòu)建高質(zhì)量的知識(shí)庫,為 RAG 系統(tǒng)提供豐富的知識(shí)來源。你將有機(jī)會(huì)探索先進(jìn)的文檔解析技術(shù),解決實(shí)際業(yè)務(wù)場景中的復(fù)雜文檔處理挑戰(zhàn),并提升 RAG 系統(tǒng)對非結(jié)構(gòu)化數(shù)據(jù)的理解能力。
【崗位職責(zé)】:
1、多模態(tài)文檔解析技術(shù)研究與選型: 研究和選型各種多模態(tài)文檔解析技術(shù),包括但不限于 OCR (光學(xué)字符識(shí)別)、版面分析、表格識(shí)別、圖像理解、信息抽取等技術(shù)。
2、文檔解析流程設(shè)計(jì)與開發(fā): 設(shè)計(jì)和開發(fā)高效、穩(wěn)定的多模態(tài)文檔解析流程,能夠處理各種復(fù)雜格式的文檔,并從中提取結(jié)構(gòu)化和非結(jié)構(gòu)化信息。
3、解析算法優(yōu)化與定制: 針對不同類型的文檔和業(yè)務(wù)需求,優(yōu)化和定制文檔解析算法,提升解析準(zhǔn)確率和效率。
4、知識(shí)庫構(gòu)建與數(shù)據(jù)清洗: 將解析后的文檔信息構(gòu)建成結(jié)構(gòu)化的知識(shí)庫,并進(jìn)行數(shù)據(jù)清洗、去噪、標(biāo)準(zhǔn)化等處理,保證知識(shí)庫質(zhì)量。
5、與 RAG 系統(tǒng)集成: 將文檔解析模塊與 RAG 系統(tǒng)有效集成,確保解析后的知識(shí)能夠被 RAG 系統(tǒng)檢索和利用。
6、文檔解析性能優(yōu)化: 針對大規(guī)模文檔處理場景,優(yōu)化文檔解析性能,包括解析速度、資源消耗等。
7、技術(shù)文檔編寫與分享: 撰寫技術(shù)文檔、參與技術(shù)分享,沉淀文檔解析經(jīng)驗(yàn),促進(jìn)團(tuán)隊(duì)技術(shù)積累。
【任職要求】:
1、計(jì)算機(jī)科學(xué)、圖像處理、自然語言處理或相關(guān)專業(yè)本科及以上學(xué)歷。
2、熟悉多模態(tài)文檔解析技術(shù),包括 OCR、版面分析、表格識(shí)別、圖像理解、信息抽取等。
3、有使用和優(yōu)化開源文檔解析工具 (如 Tesseract, PaddleOCR, LayoutParser, PDFMiner 等) 的經(jīng)驗(yàn)。
4、了解 RAG (Retrieval-Augmented Generation) 技術(shù)原理,有 RAG 系統(tǒng)或知識(shí)庫構(gòu)建經(jīng)驗(yàn)者優(yōu)先。
5、熟悉圖像處理、計(jì)算機(jī)視覺、自然語言處理 (NLP) 常用技術(shù)。
6、熟練掌握 Python 編程語言,熟悉常用的圖像處理和 NLP 相關(guān)庫 (如 OpenCV, Pillow, PyTesseract, SpaCy, Transformers 等)。
7、具備處理各種復(fù)雜文檔格式 (如 PDF, PPT, Word, HTML, 網(wǎng)頁等) 的經(jīng)驗(yàn)。
8、良好的問題解決能力和動(dòng)手能力,能夠獨(dú)立完成文檔解析模塊的開發(fā)和優(yōu)化。
9、優(yōu)秀的溝通能力和團(tuán)隊(duì)合作精神。
10、對文檔解析技術(shù)發(fā)展趨勢保持關(guān)注,樂于學(xué)習(xí)和探索新技術(shù)。
【加分項(xiàng)】:
1、有大規(guī)模文檔解析項(xiàng)目經(jīng)驗(yàn)者優(yōu)先。
2、有處理特定行業(yè)文檔 (如法律文檔、財(cái)務(wù)報(bào)表、醫(yī)療報(bào)告等) 的經(jīng)驗(yàn)。
3、熟悉深度學(xué)習(xí)在文檔解析中的應(yīng)用,如基于深度學(xué)習(xí)的 OCR、版面分析模型。
4、在文檔解析、圖像處理、NLP 相關(guān)領(lǐng)域發(fā)表過學(xué)術(shù)論文或有開源項(xiàng)目貢獻(xiàn)者優(yōu)先。
5、對知識(shí)圖譜構(gòu)建和應(yīng)用有了解者優(yōu)先。