目錄
                1.1.1 爬蟲能做什么?
                視頻教程:模板下載:

                1.爬蟲是什么?

                爬蟲是一個自動采集全網公開數據的軟件,它根據既定的抓取目標,有選擇的訪問網上的網頁與相關的鏈接,獲取所需要的信息。

                 

                2.爬蟲可以采集的范圍

                凡是通過瀏覽器可以公開訪問的內容,都可以大批量采集下來。

                前嗅ForeSpider可以實現:

                (1)需要登錄或自動獲取cookie的網站

                前嗅ForeSpider支持自動登錄,自動獲取cookie信息。

                (2)需要輸入驗證碼采可見的數據

                可接入第三方打碼平臺,最多3秒自動返回打碼結果。

                (3)搜索欄檢索關鍵詞的數據

                支持各種搜索欄檢索關鍵詞,可批量導入數十萬關鍵詞。

                (4)各種協議的網站數據

                支持http、https、各類APP的協議等。

                (5)JavaScript和Ajax動態生成的內容

                支持所有JavaScript生成的動態內容。

                (6)需要用IP代理的網站

                支持IP代理,不用擔心封鎖IP。

                (7)post請求和get請求

                支持post請求和get請求的網頁。

                (8)OAuth認證

                支持OAuth認證的網頁。

                (9)搜索引擎全網數據挖掘

                可以通過一個模板,采集搜索引擎,挖掘所需數據。

                (10)采集境外網站

                可以采集境外的網站內容。

                (11)采集本地文件

                可采集本地文件的內容。

                (12)采集內網網站

                可采集內網網站的內容。

                (13)采集瀑布流翻頁

                可采集瀑布流翻頁的網站內容。

                 

                3.爬蟲不能采集的范圍

                (1)非公開數據

                網絡爬蟲技術是一種批量數據下載技術,不是黑客技術,只能采集前端瀏覽器上能顯示的數據內容,對于網站的服務器后端數據,如用戶數據等,是不能采集的。

                對于需要賬號登錄才能查看的內容,如果您有賬號可以登錄,是可以采集該賬號下可見數據的;對于其他賬號下的內容,也同樣不能夠采集。

                (2)需要手機掃碼的數據

                對于需要掃碼后才能顯示的數據,無法實現批量采集。

                (3)對于賬號有權限限制的數據

                有些網站限制一個登錄賬號一天只能查看x條數據,如果用戶沒有多余的賬號,是無法突破這樣的限制的。

                (4)需要登錄,但是沒有賬號密碼

                有些網站登錄之后才可以看到信數據,沒有賬號和密碼,爬蟲是沒有權限進行此采集的。

                (5)需要付費的信息

                付費會員采集可以看到的數據,或者需要付費購買的數據,爬蟲沒有權限進行采集。

                (6)網站的后臺數據

                網站后臺的數據為非公開數據,爬蟲不能進行采集。

                (7)網站的注冊數據

                網站/APP等注冊用戶數據,屬于隱私數據,爬蟲不能進行采集。

                (8)其他涉及侵犯第三方版權的內容


                在车里怎么做那个在外面会