1、搭建數(shù)據(jù)采集平臺,通過對數(shù)據(jù)的抓取、解析、調(diào)度、存儲等模塊的拆分與優(yōu)化,構(gòu)建和完善統(tǒng)一的抓取服務(wù)平臺;
2、設(shè)計爬取、調(diào)度和抽取算法,優(yōu)化系統(tǒng);
3、熟識Hadoop生態(tài)圈技術(shù)體系對離線計算、內(nèi)存計算和流式計算均有深刻理解如Hadoop、Hive、Spark、Flink、Impala 等;
4、解決爬蟲和數(shù)據(jù)庫出現(xiàn)的問題并不斷維護(hù)、優(yōu)化程序。
任職資格:
1、本科及以上學(xué)歷,計算機(jī)相關(guān)專業(yè),2年左右相關(guān)經(jīng)驗;
2、Python 開發(fā)的經(jīng)驗,爬蟲開發(fā)經(jīng)驗,熟識MySQL或了解PostgreSQL 數(shù)據(jù)庫能協(xié)助檢查數(shù)據(jù)入庫環(huán)節(jié);
3、熟識整個爬蟲的設(shè)計及實現(xiàn)流程.精通網(wǎng)頁抓取原理及技術(shù),精通正則表達(dá)式從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
4、具有搜尋相關(guān)技術(shù)研發(fā)、數(shù)據(jù)挖掘、數(shù)據(jù)處理、自然語言處理、信息檢索、機(jī)器學(xué)習(xí)背景者優(yōu)先。
職位福利:五險一金、加班補(bǔ)助、周末雙休、員工旅游、定期體檢