python爬蟲框架(python爬蟲框架)

導讀您好,現在軟糖來為大家解答以上的問題。python爬蟲框架,python爬蟲框架相信很多小伙伴還不知道,現在讓我們一起來看看吧!1、由于項目需求...

您好,現在軟糖來為大家解答以上的問題。python爬蟲框架,python爬蟲框架相信很多小伙伴還不知道,現在讓我們一起來看看吧!

1、由于項目需求收集并使用過一些爬蟲相關庫,做過一些對比分析。

2、以下是我接觸過的一些庫:Beautiful Soup。

3、名氣大,整合了一些常用爬蟲需求。

4、缺點:不能加載JS。

5、Scrapy。

6、看起來很強大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。

7、用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。

8、但是對于稍微復雜一點的頁面,如weibo的頁面信息,這個框架就滿足不了需求了。

9、mechanize。

10、優點:可以加載JS。

11、缺點:文檔嚴重缺失。

12、不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。

13、selenium。

14、這是一個調用瀏覽器的driver,通過這個庫你可以直接調用瀏覽器完成某些操作,比如輸入驗證碼。

15、cola。

16、一個分布式爬蟲框架。

17、項目整體設計有點糟,模塊間耦合度較高,不過值得借鑒。

18、以下是我的一些實踐經驗:對于簡單的需求,比如有固定pattern的信息,怎么搞都是可以的。

19、對于較為復雜的需求,比如爬取動態頁面、涉及狀態轉換、涉及反爬蟲機制、涉及高并發,這種情況下是很難找到一個契合需求的庫的,很多東西只能自己寫。

20、至于題主提到的:還有,采用現有的Python爬蟲框架,相比與直接使用內置庫,優勢在哪?因為Python本身寫爬蟲已經很簡單了。

21、third party library可以做到built-in library做不到或者做起來很困難的事情,僅此而已。

22、還有就是,爬蟲簡不簡單,完全取決于需求,跟Python是沒什么關系的。

本文就為大家分享到這里,希望小伙伴們會喜歡。

免責聲明:本文由用戶上傳,如有侵權請聯系刪除!