如何用 Crawl4ai 在幾分鐘內建立網路爬蟲並匯出 Markdown

開場：你想在幾分鐘內抓取網站並轉成 Markdown 嗎？

想像一下，輸入一個網址，按下按鈕，幾分鐘內就把網站轉成好讀的檔案。這篇文章介紹用 Crawl for AI 做到這件事。文章用簡單句子說明功能和重點，讓你可以馬上動手去使用。

用一個問題吸引：為什麼要把網站轉成 Markdown？

把網站轉成 Markdown 很方便。Markdown 易讀又好編輯。你可以拿來寫筆記、做文件，或當作資料來源。用 Crawl for AI 這類 開源工具，可以自動抓取多頁內容，省時間也更穩定。

本文重點：快速示範 Crawl for AI 的用途與流程

工具會讓你設定網址、最大深度和頁數。可選擇是否包含外部連結，或輸入關鍵字來幫助排序。系統會從網頁抓出標題（優先用 H1，沒找到就用網址），並整理成合法的檔名。抓取時採用 串流回呼，即時回報進度。完成後，可下載單一長檔或把每頁打包成 zip。

| 策略 | 特點 | 何時用 | | --- | --- | --- | | 廣度優先 | 先抓同一層的所有連結，較快覆蓋廣度 | 想快速蒐集多頁面時 | | 最佳優先 | 依關鍵字或分數排序，優先抓重要頁面 | 要針對關鍵內容時 | | 深度優先 | 先沿一條路走到底，再換路徑 | 少用，適合特定結構網站 |

主要輸入：網址、最大深度、最大頁數、是否含外連、關鍵字、是否詳細日誌
核心功能：標題抽取、非法字元替換、策略選擇、串流回呼即時更新
輸出選項：合併成單一 Markdown 或逐頁打包為 zip
注意事項：有時頁數會少一頁；深度優先在某些版本可能有問題

Crawl for AI 是什麼？核心功能一覽

想把網站內容快速抓下來並轉成好讀的檔案嗎？Crawl for AI 是一款開源的 網路爬蟲 工具。它能自動爬網站、解析內容，並把頁面輸出成 Markdown 轉換 格式，方便儲存與後續處理。現在就去下載或使用，開始建立你的內容庫。

標題抽取與檔名清理：如何從 H1 或 URL 建檔名

工具會先找頁面中的 H1 做為檔名。找不到 H1 時，就用 URL 當備用名稱。檔名會過濾不合法字元，將它們換成底線或安全字元，確保檔案能在各系統上正確存取。

爬行策略：廣度優先 (BFS)、最佳優先、深度優先 (DFS)

爬蟲支援三種主要策略。廣度優先 會先抓同一層的所有連結。最佳優先 會根據關鍵字相關度排序，先抓重要頁面。深度優先 則先往下挖到最深再回來。選擇策略可依需求調整。

| 策略 | 特點 | 適用情境 | | --- | --- | --- | | 廣度優先 (BFS) | 同層連結先抓；較平衡 | 需要完整廣度索引時 | | 最佳優先 | 依關鍵字或分數排序；先抓重點 | 只要重點頁面或有限資源時 | | 深度優先 (DFS) | 一路往下再回頭；可能漏掉廣度 | 探索深層結構或特定路徑時 |

串流與進度回呼：即時更新 UI 與分塊回傳結果

爬蟲採用串流回呼 (streaming callback)，抓到一頁就會回傳一個分塊。這樣可以即時更新進度條與狀態文字，使用者不必等全部完成才看到結果。

輸出選項：單一 Markdown、分頁 Markdown 或 Zip 打包下載

輸出有三種常見選項：合併成一個長的 Markdown 檔；或把每頁存成獨立的 Markdown 檔；也可以把所有檔案壓成一個 Zip 檔下載。若想保留原網址路徑結構，也可以在輸出時做目錄對應。

為什麼選用它？優缺點與已知限制

想在幾分鐘內把整個網站抓下來並轉成 Markdown 嗎？Crawl for AI 是一個開源的 網路爬蟲 工具。它可以設定最大深度、最多頁數、是否包含外部連結，還能用關鍵字做加權排序。抓取時會用 串流回呼 回報進度，抓完後可下載單一 Markdown 或打包成 zip。

優點：開源、可匯出 Markdown、支援關鍵字加權的最佳優先策略

開源工具，程式碼可檢視與修改。
直接輸出 Markdown 轉換，方便後續整理。
支援用關鍵字計分的 最佳優先 策略，能先抓重要頁面。
有選項可包含外部連結，並提供 verbose 模式供除錯。
抓取過程使用 串流回呼 回報進度，UI 可即時更新。

| 策略 | 描述 | 優點 | 缺點 | 適用情境 | | --- | --- | --- | --- | --- | | 廣度優先 (Breadth-first) | 同層先抓完再往下 | 較快覆蓋整站 | 可能抓很多不重要頁面 | 網站結構扁平時 | | 最佳優先 (Best-first) | 用關鍵字分數決定抓哪頁 | 優先重要頁面 | 需提供關鍵字設定 | 想抓重點內容時 | | 深度優先 (Depth-first) | 一路往下抓完再回頭 | 能深入單一路徑 | 目前有已知問題，且不常用 | 特殊需要深層頁面時 |

缺點：深度優先目前有問題、頁面數 off-by-one 小錯誤

雖然工具功能齊全，但有兩個已知限制。第一，深度優先 策略目前在某些情況下不穩定。第二，設定的最大頁數會少抓一頁（off-by-one），這是小的 index 錯誤。這些問題能透過調整設定或稍微修改程式碼解決。

適用情境與不建議使用的狀況

適用：把文件網站一鍵轉成 Markdown，做資料備份，或準備給 AI 使用的文字資料。
適用：需要先抓重要頁面的情況，使用 最佳優先 與關鍵字加權。
不建議：要抓非常大量或需要複雜登入驗證的網站。
不建議：若需精確的深層遍歷，目前不推薦只靠 深度優先。

要開始很簡單：設定好網址、深度與頁數，選擇策略，開啟外部連結或 verbose，按下抓取。系統會用 串流回呼 回報進度，抓完後可下載單檔 Markdown 或 zip。想試試看就去使用或去下載 Crawl for AI，把網站快速轉成可用的 Markdown。

實作步驟：設定、啟動爬蟲並下載結果（去使用/下載）

想在幾分鐘內把網站抓下來，並把內容轉成 Markdown 嗎？用 Crawl for AI 這個開源工具，就能做到。下面用簡單步驟說明設定、啟動爬取，還有如何下載結果。

設定 URL、最大深度與最大頁數：操作建議（例如避免 off-by-one）

先填入要爬的網址。再設定「最大深度」和「最大頁數」。實務上常遇到一個小問題：結果比你設定的頁數少一頁（index 問題）。簡單做法是把最大頁數加 1 當作備援。標題檔名會用頁面裡的 H1 或 URL，並把不合用的字元換成底線，方便做檔案存取與 Markdown 轉換。

選擇策略與額外選項：外部連結、關鍵字與 verbose 模式

爬蟲有三種常見策略：廣度優先、最佳優先和深度優先。可選擇是否包含外部連結，是否用關鍵字來提升相關頁面的優先權，或開啟詳細模式（verbose）看更多訊息。若要依關鍵字排序，最佳優先會用關鍵字相關分數來決定下一個要抓的頁面。這個過程會使用串流回呼來即時回傳結果和進度。

| 策略 | 運作方式 | 適合使用情境 | | --- | --- | --- | | 廣度優先 (廣度優先) | 先抓同一層的所有連結，再往下走。 | 想快速覆蓋整個網站的表層內容。 | | 最佳優先 (最佳優先) | 根據關鍵字分數挑最相關的頁面先抓。 | 需要重點抓取與特定主題相關的頁面。 | | 深度優先 (深度優先) | 先沿著一條路徑一直往下抓，抓完再回頭。 | 少用。只在要深挖單一路徑時才用。 |

啟動爬取、查看預覽並下載 Markdown 或 Zip（立刻下來試試）

按下開始後，爬蟲會用非同步方式執行。資料會以一小段一小段的方式回傳，這就是 串流回呼。程式會把每個頁面加入清單，並更新進度條與狀態文字。抓完後，可直接下載合併成一份長 Markdown，或下載每頁為單檔後壓成 Zip。若想要更有結構的資料夾層次，還可以在程式上改用 URL 路徑來建立子目錄。現在就去使用或下載這個 開源工具，把你的網頁內容快速轉成 Markdown。