崗位職責(zé):
(1)負(fù)責(zé)服務(wù)端基于Java / Python編程技術(shù)實(shí)現(xiàn)系統(tǒng)內(nèi)外部數(shù)據(jù)同步、數(shù)據(jù)采集及數(shù)據(jù)分析等功能模塊的編碼工作,確保數(shù)據(jù)處理過程的代碼質(zhì)量與可維護(hù)性;
(2)參與技術(shù)方案設(shè)計(jì),與項(xiàng)目經(jīng)理、前后端開發(fā)、AI開發(fā)協(xié)作,推動(dòng)數(shù)據(jù)采集需求與系統(tǒng)業(yè)務(wù)邏輯的精準(zhǔn)對(duì)接;
(3)設(shè)計(jì)并開發(fā)數(shù)據(jù)采集模塊,通過爬蟲技術(shù)抓取外部公開數(shù)據(jù),結(jié)合 ETL 工具實(shí)現(xiàn)數(shù)據(jù)同步,完成數(shù)據(jù)解析、清洗、轉(zhuǎn)換及結(jié)構(gòu)化入庫;
(4)遵循公司代碼規(guī)范,編寫高可復(fù)用的爬蟲與數(shù)據(jù)處理代碼,參與代碼審查,優(yōu)化數(shù)據(jù)采集性能(如分布式爬蟲架構(gòu))與反爬策略(如 IP 池管理);
(5)參與數(shù)據(jù)模塊的測(cè)試、聯(lián)調(diào)及上線工作,確保內(nèi)外部數(shù)據(jù)的一致性、準(zhǔn)確性,保障系統(tǒng)中數(shù)據(jù)相關(guān)功能的交付質(zhì)量。
任職要求:
(1)本科或以上學(xué)歷,計(jì)算機(jī)科學(xué)、軟件工程、數(shù)據(jù)科學(xué)等相關(guān)專業(yè);
(2)5 年及以上 Java 開發(fā)經(jīng)驗(yàn),3 年及以上爬蟲與數(shù)據(jù)開發(fā)復(fù)合經(jīng)驗(yàn),具備爬蟲類項(xiàng)目經(jīng)驗(yàn),具備企業(yè)級(jí)數(shù)據(jù)采集與處理的項(xiàng)目落地能力。有爬取過招標(biāo)類網(wǎng)站數(shù)據(jù)經(jīng)驗(yàn)者優(yōu)先考慮;
(3)熟悉 Spring Boot、MyBatisplus開發(fā)框架,能設(shè)計(jì)數(shù)據(jù)采集模塊與投標(biāo)系統(tǒng)的接口集成方案;
(4)精通 MySQL/PostgreSQL 數(shù)據(jù)庫,掌握索引優(yōu)化、分庫分表及數(shù)據(jù)建模,能設(shè)計(jì)爬蟲與內(nèi)部數(shù)據(jù)的存儲(chǔ)架構(gòu);熟悉 Redis 緩存、Kafka 消息隊(duì)列,實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)同步與異步處理;
(5)精通 Scrapy、HttpClient 等爬蟲框架,掌握 IP 池輪換、請(qǐng)求頻率控制、UA 隨機(jī)化等反爬技術(shù);熟悉 Selenium、Puppeteer 等,能抓取動(dòng)態(tài)頁面數(shù)據(jù);熟練使用 BeautifulSoup/JSoup 等解析 HTML,通過正則表達(dá)式提取關(guān)鍵信息;了解分布式爬蟲架構(gòu)(如 Scrapy-Redis),具備 TB 級(jí)情報(bào)數(shù)據(jù)采集與處理經(jīng)驗(yàn);
(6)熟悉 ETL 工具(如 Kettle、DataX)或其他數(shù)據(jù)同步框架,能完成企業(yè)內(nèi)部系統(tǒng)平臺(tái)的數(shù)據(jù)對(duì)接;熟悉數(shù)據(jù)清洗、轉(zhuǎn)換規(guī)則,能基于業(yè)務(wù)規(guī)范設(shè)計(jì)數(shù)據(jù)校驗(yàn)邏輯;掌握 SQL 優(yōu)化技巧,能編寫復(fù)雜查詢語句實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)分析;了解數(shù)據(jù)可視化基礎(chǔ)(如 ECharts 圖表開發(fā)),可配合前端展示數(shù)據(jù)采集結(jié)果;
(7)熟練使用 Git 版本控制工具,理解前后端協(xié)作模式,具備容器化部署(Docker/Kubernetes)經(jīng)驗(yàn)。