崗位職責(zé)
1. 負(fù)責(zé)設(shè)計(jì)和開(kāi)發(fā)高效、穩(wěn)定的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的自動(dòng)化采集、清洗和存儲(chǔ)
2. 分析目標(biāo)網(wǎng)站結(jié)構(gòu)及反爬機(jī)制,制定爬取策略,優(yōu)化爬蟲(chóng)性能,確保數(shù)據(jù)抓取的準(zhǔn)確性和時(shí)效性
3.利用主流的大數(shù)據(jù)相關(guān)技術(shù),對(duì)抓取后的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行清洗、存儲(chǔ)等;并持續(xù)優(yōu)化平臺(tái),以便滿足各種爬取業(yè)務(wù)需求
任職資格
1.三年以上大規(guī)模爬蟲(chóng)/反爬經(jīng)驗(yàn),熟悉HTTP協(xié)議/瀏覽器原理/前端JS/APP抓取
2.熟悉至少Python、Java、JavaScript中的一種語(yǔ)言;精通一種開(kāi)源爬蟲(chóng)框架,如scrapy、webmagic、nutch、heritrix等等,有開(kāi)發(fā)爬蟲(chóng)框架經(jīng)驗(yàn)優(yōu)先
3.熟悉app端數(shù)據(jù)抓取(有逆向、脫殼等經(jīng)驗(yàn)),掌握Apktool、dex2iar、JD-GUI、frida、ida等工具,能獨(dú)立完成APP軟件大量級(jí)的數(shù)據(jù)抓取優(yōu)先
4.有Java開(kāi)發(fā)經(jīng)驗(yàn)最好