工作職責:
1、負責全球公開新聞資訊站點、論壇、社交等公開數(shù)據(jù)的智能化采集與獲取,應對大規(guī)模文本、圖像、視頻數(shù)據(jù)的采集、抽取,去重、分類,垃圾過濾,質(zhì)量識別、解析入庫等工作;
2、負責各種開源網(wǎng)絡數(shù)據(jù)的基本挖掘分析,參與數(shù)據(jù)服務產(chǎn)品研發(fā);
3、負責爬蟲技術與反爬技術研究,快速響應業(yè)務需求;
4、優(yōu)秀的技術文檔意識和維護能力。
任職要求:
1、精通熟悉爬蟲原理及優(yōu)化技術,熟悉主流爬蟲框架使用;熟悉常見的反爬機制及應對策略,包括但不限于使用代理IP,驗證碼智能識別,動態(tài)JS數(shù)據(jù)解析等;
2、熟悉各類應用網(wǎng)絡協(xié)議知識,基本網(wǎng)絡協(xié)議分析,熟悉基于Phantomjs、Headless、Selenium等無界面瀏覽器自動化交互采集技術;
3、對數(shù)據(jù)結構和算法設計有較為深刻的理解;
4、有較強的編程能力,具備良好的編程習慣,能夠編寫高質(zhì)量技術文檔。