您好,現在軟糖來為大家解答以上的問題。python爬蟲框架,python爬蟲框架相信很多小伙伴還不知道,現在讓我們一起來看看吧!
1、由于項目需求收集并使用過一些爬蟲相關庫,做過一些對比分析。
2、以下是我接觸過的一些庫:Beautiful Soup。
3、名氣大,整合了一些常用爬蟲需求。
4、缺點:不能加載JS。
5、Scrapy。
6、看起來很強大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。
7、用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。
8、但是對于稍微復雜一點的頁面,如weibo的頁面信息,這個框架就滿足不了需求了。
9、mechanize。
10、優點:可以加載JS。
11、缺點:文檔嚴重缺失。
12、不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。
13、selenium。
14、這是一個調用瀏覽器的driver,通過這個庫你可以直接調用瀏覽器完成某些操作,比如輸入驗證碼。
15、cola。
16、一個分布式爬蟲框架。
17、項目整體設計有點糟,模塊間耦合度較高,不過值得借鑒。
18、以下是我的一些實踐經驗:對于簡單的需求,比如有固定pattern的信息,怎么搞都是可以的。
19、對于較為復雜的需求,比如爬取動態頁面、涉及狀態轉換、涉及反爬蟲機制、涉及高并發,這種情況下是很難找到一個契合需求的庫的,很多東西只能自己寫。
20、至于題主提到的:還有,采用現有的Python爬蟲框架,相比與直接使用內置庫,優勢在哪?因為Python本身寫爬蟲已經很簡單了。
21、third party library可以做到built-in library做不到或者做起來很困難的事情,僅此而已。
22、還有就是,爬蟲簡不簡單,完全取決于需求,跟Python是沒什么關系的。
本文就為大家分享到這里,希望小伙伴們會喜歡。