崗位職責:
1. 負責多類型網頁數據(動態(tài)/靜態(tài))的自動化采集、解析及清洗結構化存儲,確保高覆蓋率與數據準確性,支撐業(yè)務復雜需求。
2. 處理諸如速率限制、動態(tài)內容和網站更改等挑戰(zhàn)。
崗位要求
1. 近期1年以上爬蟲經驗,熟悉最新爬蟲動向;
2. 精通Python及主流框架(Scrapy/PySpider二次開發(fā)經驗優(yōu)先),掌握XPath/CSS/正則/BeautifulSoup等解析技術,能熟練處理JSON/XML等結構化數據。
3. 具備基礎反爬應對能力,能分析常見加密參數(如Token、Sign)熟悉請求頭偽裝等反封禁策略。
4. 熟悉Headless瀏覽器技術(Playwright/Puppeteer/Selenium),能處理大規(guī)模JS渲染頁面。
5. 了解JS逆向及熟悉常見加密算法(AES、RSA等),有主流平臺(如有小紅書筆記詳情頁API逆向或抖音X-Bogus參數破解)經驗優(yōu)先。
6. 了解分布式消息隊列(Kafka/RabbitMQ)、高性能存儲(ES/HBase/Doris)及數據庫(MySQL/MongoDB/Redis)等
7. 熟悉APP逆向工具(JADX/Frida/Xposed),具備Android so庫分析或Hook開發(fā)經驗優(yōu)先。
8. 注重代碼可維護性,有文檔編寫習慣。