崗位職責(zé):
1、負(fù)責(zé)公司數(shù)據(jù)源抓取需求,滿足公司對(duì)多源數(shù)據(jù)采集要求;
2、實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的抓取、抽取,去重、分類,垃圾過(guò)濾,質(zhì)量識(shí)別、解析入庫(kù)等工作;
3、能獨(dú)立解決實(shí)際數(shù)據(jù)挖掘過(guò)程碰到的各類問(wèn)題 。
任職要求:
1、本科以上學(xué)歷,2年以上爬蟲開發(fā)相關(guān)經(jīng)驗(yàn),熟練使用Python進(jìn)行數(shù)據(jù)爬?。?
2、 熟練使用正則表達(dá)式、css path、xpath等,能夠從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
3、 熟悉各種抓取技術(shù),包括代理、PhantomJSselenium、驗(yàn)證碼處理;
4、精通一種開源爬框架,如scrapy、webmagic、nutch、heritrix等;
5、熟悉各種反爬蟲技術(shù)及其應(yīng)對(duì)措施,有分布式爬蟲架構(gòu)經(jīng)驗(yàn)優(yōu)先;
6、具有良好的團(tuán)隊(duì)協(xié)作精神,思維清晰敏捷,邏輯分析能力強(qiáng);
7、會(huì)開車,能接受短期出差。
職位福利:定期體檢、五險(xiǎn)一金、員工旅游、年終分紅