想像一下,輸入一個網址,按下按鈕,幾分鐘內就把網站轉成好讀的檔案。這篇文章介紹用 Crawl for AI 做到這件事。文章用簡單句子說明功能和重點,讓你可以馬上動手去使用。
把網站轉成 Markdown 很方便。Markdown 易讀又好編輯。你可以拿來寫筆記、做文件,或當作資料來源。用 Crawl for AI 這類 開源工具,可以自動抓取多頁內容,省時間也更穩定。
工具會讓你設定網址、最大深度和頁數。可選擇是否包含外部連結,或輸入關鍵字來幫助排序。系統會從網頁抓出標題(優先用 H1,沒找到就用網址),並整理成合法的檔名。抓取時採用 串流回呼,即時回報進度。完成後,可下載單一長檔或把每頁打包成 zip。
| 策略 | 特點 | 何時用 | | --- | --- | --- | | 廣度優先 | 先抓同一層的所有連結,較快覆蓋廣度 | 想快速蒐集多頁面時 | | 最佳優先 | 依關鍵字或分數排序,優先抓重要頁面 | 要針對關鍵內容時 | | 深度優先 | 先沿一條路走到底,再換路徑 | 少用,適合特定結構網站 |
想把網站內容快速抓下來並轉成好讀的檔案嗎?Crawl for AI 是一款開源的 網路爬蟲 工具。它能自動爬網站、解析內容,並把頁面輸出成 Markdown 轉換 格式,方便儲存與後續處理。現在就去下載或使用,開始建立你的內容庫。
工具會先找頁面中的 H1 做為檔名。找不到 H1 時,就用 URL 當備用名稱。檔名會過濾不合法字元,將它們換成底線或安全字元,確保檔案能在各系統上正確存取。
爬蟲支援三種主要策略。廣度優先 會先抓同一層的所有連結。最佳優先 會根據關鍵字相關度排序,先抓重要頁面。深度優先 則先往下挖到最深再回來。選擇策略可依需求調整。
| 策略 | 特點 | 適用情境 | | --- | --- | --- | | 廣度優先 (BFS) | 同層連結先抓;較平衡 | 需要完整廣度索引時 | | 最佳優先 | 依關鍵字或分數排序;先抓重點 | 只要重點頁面或有限資源時 | | 深度優先 (DFS) | 一路往下再回頭;可能漏掉廣度 | 探索深層結構或特定路徑時 |
爬蟲採用串流回呼 (streaming callback),抓到一頁就會回傳一個分塊。這樣可以即時更新進度條與狀態文字,使用者不必等全部完成才看到結果。
輸出有三種常見選項:合併成一個長的 Markdown 檔;或把每頁存成獨立的 Markdown 檔;也可以把所有檔案壓成一個 Zip 檔下載。若想保留原網址路徑結構,也可以在輸出時做目錄對應。
想在幾分鐘內把整個網站抓下來並轉成 Markdown 嗎?Crawl for AI 是一個開源的 網路爬蟲 工具。它可以設定最大深度、最多頁數、是否包含外部連結,還能用關鍵字做加權排序。抓取時會用 串流回呼 回報進度,抓完後可下載單一 Markdown 或打包成 zip。
| 策略 | 描述 | 優點 | 缺點 | 適用情境 | | --- | --- | --- | --- | --- | | 廣度優先 (Breadth-first) | 同層先抓完再往下 | 較快覆蓋整站 | 可能抓很多不重要頁面 | 網站結構扁平時 | | 最佳優先 (Best-first) | 用關鍵字分數決定抓哪頁 | 優先重要頁面 | 需提供關鍵字設定 | 想抓重點內容時 | | 深度優先 (Depth-first) | 一路往下抓完再回頭 | 能深入單一路徑 | 目前有已知問題,且不常用 | 特殊需要深層頁面時 |
雖然工具功能齊全,但有兩個已知限制。第一,深度優先 策略目前在某些情況下不穩定。第二,設定的最大頁數會少抓一頁(off-by-one),這是小的 index 錯誤。這些問題能透過調整設定或稍微修改程式碼解決。
要開始很簡單:設定好網址、深度與頁數,選擇策略,開啟外部連結或 verbose,按下抓取。系統會用 串流回呼 回報進度,抓完後可下載單檔 Markdown 或 zip。想試試看就去使用或去下載 Crawl for AI,把網站快速轉成可用的 Markdown。
想在幾分鐘內把網站抓下來,並把內容轉成 Markdown 嗎?用 Crawl for AI 這個開源工具,就能做到。下面用簡單步驟說明設定、啟動爬取,還有如何下載結果。
先填入要爬的網址。再設定「最大深度」和「最大頁數」。實務上常遇到一個小問題:結果比你設定的頁數少一頁(index 問題)。簡單做法是把最大頁數加 1 當作備援。標題檔名會用頁面裡的 H1 或 URL,並把不合用的字元換成底線,方便做檔案存取與 Markdown 轉換。
爬蟲有三種常見策略:廣度優先、最佳優先和深度優先。可選擇是否包含外部連結,是否用關鍵字來提升相關頁面的優先權,或開啟詳細模式(verbose)看更多訊息。若要依關鍵字排序,最佳優先會用關鍵字相關分數來決定下一個要抓的頁面。這個過程會使用串流回呼來即時回傳結果和進度。
| 策略 | 運作方式 | 適合使用情境 | | --- | --- | --- | | 廣度優先 (廣度優先) | 先抓同一層的所有連結,再往下走。 | 想快速覆蓋整個網站的表層內容。 | | 最佳優先 (最佳優先) | 根據關鍵字分數挑最相關的頁面先抓。 | 需要重點抓取與特定主題相關的頁面。 | | 深度優先 (深度優先) | 先沿著一條路徑一直往下抓,抓完再回頭。 | 少用。只在要深挖單一路徑時才用。 |
按下開始後,爬蟲會用非同步方式執行。資料會以一小段一小段的方式回傳,這就是 串流回呼。程式會把每個頁面加入清單,並更新進度條與狀態文字。抓完後,可直接下載合併成一份長 Markdown,或下載每頁為單檔後壓成 Zip。若想要更有結構的資料夾層次,還可以在程式上改用 URL 路徑來建立子目錄。現在就去使用或下載這個 開源工具,把你的網頁內容快速轉成 Markdown。