崗位描述:
1、爬蟲系統(tǒng)的設(shè)計(jì)及開發(fā),負(fù)責(zé)指定網(wǎng)站的數(shù)據(jù)爬取,破解反爬策略并按規(guī)定入庫;
2、對數(shù)據(jù)進(jìn)行清洗去重入庫,結(jié)構(gòu)化處理,特征提取等數(shù)據(jù)處理工作;
3、維護(hù)和優(yōu)化已有的爬蟲服務(wù),按需求做增量采集,數(shù)據(jù)監(jiān)控,拓展數(shù)據(jù)源;
4、參與網(wǎng)頁信息抽取、數(shù)據(jù)清洗等研發(fā)和優(yōu)化工作;
5、與產(chǎn)品項(xiàng)目部門、運(yùn)營部門對接工作。
任職要求:
1、計(jì)算機(jī)或相關(guān)專業(yè),本科或以上學(xué)歷,1年以上爬蟲開發(fā)經(jīng)驗(yàn);
2、熟悉網(wǎng)絡(luò)爬蟲原理,至少1年以上網(wǎng)絡(luò)爬蟲項(xiàng)目開發(fā)經(jīng)驗(yàn),有大規(guī)模分布式爬蟲相關(guān)經(jīng)驗(yàn);
3、熟練使用正則表達(dá)式、xpath、beautifulsoup、css path等解析提取數(shù)據(jù);
4、熟練使用MongoDB,Mysql數(shù)據(jù)庫;
5、熟悉開源爬蟲框架,如scrapy、webmagic、nutch、Abot、DotnetSpide等,擅長反爬蟲,驗(yàn)證碼破解,代理技術(shù)等;
6、具有數(shù)據(jù)挖掘、自然語言處理、數(shù)據(jù)處理、大數(shù)據(jù)分析背景者優(yōu)先;
7、同時(shí)掌握Python與Java者優(yōu)先。