一、工作職責(zé)
1、需求分析與規(guī)劃:與團(tuán)隊(duì)成員或客戶溝通,了解數(shù)據(jù)需求,確定需要爬取的數(shù)據(jù)類型、來(lái)源和頻率。規(guī)劃爬蟲程序的實(shí)現(xiàn)方案,包括架構(gòu)設(shè)計(jì)、技術(shù)選型等。
2、爬蟲程序開發(fā)與維護(hù):編寫爬蟲程序,利用HTTP請(qǐng)求模擬瀏覽器行為,訪問(wèn)目標(biāo)網(wǎng)站并抓取所需數(shù)據(jù)。對(duì)爬蟲程序進(jìn)行調(diào)試和維護(hù),確保穩(wěn)定運(yùn)行和高效爬取。
3、數(shù)據(jù)解析與提?。悍治瞿繕?biāo)網(wǎng)站的頁(yè)面結(jié)構(gòu)和數(shù)據(jù)格式,使用正則表達(dá)式XPath、CSS選擇器等技術(shù)提取所需數(shù)據(jù)。對(duì)抓取到的數(shù)據(jù)進(jìn)行清洗、去重、格式化等處理,確保數(shù)據(jù)質(zhì)量。
4、反爬蟲應(yīng)對(duì):了解并分析目標(biāo)網(wǎng)站的反爬蟲策略,采取相應(yīng)的手段應(yīng)對(duì),如設(shè)置請(qǐng)求頭、使用代理IP、模擬用戶行為等。不斷優(yōu)化爬蟲策略,降低被封禁的風(fēng)險(xiǎn)。
5、性能優(yōu)化與擴(kuò)展:不斷優(yōu)化爬蟲程序的性能和穩(wěn)定性,提高爬取效率和數(shù)據(jù)準(zhǔn)確性。根據(jù)需求擴(kuò)展爬取范圍和功能,滿足新的數(shù)據(jù)需求。
6、法律合規(guī)與道德考量:遵守相關(guān)法律法規(guī)和道德準(zhǔn)則,尊重網(wǎng)站的使用條款和robots.txt文件。確保爬取行為的合法合規(guī),不侵犯他人的合法權(quán)益。
二、崗位職責(zé):
1、精通至少一種編程語(yǔ)言(如Python、Java等),熟悉正則表達(dá)式、XPath等技術(shù);
2、熟悉HTTP協(xié)議、TCP/IP協(xié)議等網(wǎng)絡(luò)通訊原理;熟悉MySQL數(shù)據(jù)庫(kù),了解MySQL索引優(yōu)化、查詢優(yōu)化和存儲(chǔ)優(yōu)化,熟悉大數(shù)據(jù)開發(fā)框架;
3、負(fù)責(zé)從互聯(lián)網(wǎng)上自動(dòng)獲取和提取數(shù)據(jù),以滿足企業(yè)的數(shù)據(jù)分析和業(yè)務(wù)需求,為企業(yè)的決策支持、市場(chǎng)研究、產(chǎn)品優(yōu)化等提供數(shù)據(jù)基礎(chǔ)。
(前期需到上海工作2個(gè)月,包住宿與午餐)
專業(yè)要求: 計(jì)算機(jī)科學(xué)與技術(shù),電子與計(jì)算機(jī)工程,計(jì)算機(jī)應(yīng)用技術(shù),計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),軟件工程(可接受應(yīng)屆生)