職位要求:
1. 精通Python爬蟲框架(Scrapy/Selenium/Requests等),熟悉分布式爬蟲架構;
2. 掌握反爬破解技術(IP代理池、請求頭模擬、JS逆向等);
3. 具備文獻平臺爬取經驗(如Elsevier、知網、PubMed等為佳);
4. 能通過日志分析快速定位爬蟲中斷原因,制定修復方案。
工作職責
1.開發(fā)自動化爬蟲程序,從指定學術網站/數據庫每日抓取篇文獻(PDF);
2.設計防封禁策略,繞過反爬機制(如驗證碼、IP限制、動態(tài)加載等);
3.按項目規(guī)范清洗、結構化數據;
4.監(jiān)控爬蟲運行,及時修復因網站改版、規(guī)則變動導致的故障;
5.定期提交爬取日志與數據質量報告。
試崗要求(合作前提)
提交可運行的爬蟲Demo,證明能穩(wěn)定實現(xiàn)單日2000篇文獻的爬取能力;
目標網站及字段要求將在簽約NDA后提供。