Hướng dẫn Crawl4AI: Tạo web scraper dùng LLM để trích xuất dữ liệu có cấu trúc

Bạn có thể dùng LLM để tự động trích xuất dữ liệu từ web?

Bạn có bao giờ tự hỏi máy tính có thể đọc trang web và lấy dữ liệu cho bạn không? Câu trả lời là có. Với Crawl4AI và một LLM, bạn có thể tự động thu thập dữ liệu có cấu trúc từ trang web. Việc này hữu ích khi bạn cần danh sách, bảng số liệu, hay thông tin cầu thủ như trên ESPN. Bài viết này chỉ dẫn từ cài đặt đến chạy ví dụ thực tế. Ngôn ngữ gọn. Dễ hiểu. Thích hợp cho người mới.

Một câu hỏi thú vị: LLM có thể thay bạn đọc và sắp xếp thông tin trên web không?

Có thể. LLM như một trợ lý đọc. Nó lấy HTML, hiểu nội dung và xuất ra dữ liệu có cấu trúc. Bạn không cần viết quá nhiều mã để parse từng thẻ. Thay vào đó, bạn mô tả cấu trúc bằng mô hình pydantic. Sau đó để LLM chuyển HTML thành dữ liệu đúng định dạng.

Quy trình chung gồm vài bước đơn giản. Cài công cụ. Cấu hình trình duyệt. Đặt schema (mô hình dữ liệu). Chạy với chiến lược LLM. Nhận kết quả và kiểm tra. Các bước này phù hợp cho mọi người, kể cả khi bạn mới biết về lập trình.

Tại sao LLM phù hợp cho việc trích xuất dữ liệu có cấu trúc?

LLM giỏi đọc ngôn ngữ tự nhiên. Trang web thường có văn bản không chuẩn. LLM có thể hiểu ý nghĩa hơn là chỉ nhìn cấu trúc HTML thô. Khi bạn cung cấp một schema (mô tả trường dữ liệu), LLM cố gắng lấp đầy schema đó bằng giá trị từ trang. Điều này giúp giảm lỗi so với parse thủ công trong nhiều trường hợp.

Nhưng LLM không hoàn hảo. Kết quả có thể khác nhau giữa lần chạy. Vì vậy, cần kiểm tra dữ liệu. Bạn có thể dùng LLM khác làm "thẩm định" để so sánh. Hoặc thêm bước xác thực bằng mã để lọc dữ liệu sai.

Mục tiêu bài viết: từ cài đặt đến chạy ví dụ thực tế

Mục tiêu của hướng dẫn này là giúp bạn chạy một web scraper dùng Crawl4AI và LLM. Bạn sẽ biết cách cài đặt, cấu hình nhà cung cấp LLM, tạo schema bằng pydantic, rồi chạy để lấy dữ liệu. Cuối cùng, mình sẽ nêu mẹo để giảm sai sót và cách dùng chunking khi cần.

Các bước cài đặt cơ bản: mở terminal, chạy lệnh cài đặt như pip install -U crawl4ai, sau đó chạy setup của công cụ. Khi được hỏi, nhập mật khẩu sudo nếu cần. Kiểm tra bằng lệnh kiểm tra có sẵn (ví dụ crawl4ai-do) để chắc cài thành công.

Sau cài đặt, bạn có thể chạy ví dụ lấy HTML của một trang. Kết quả sẽ trả về nội dung thô. Để có dữ liệu có cấu trúc, ta thêm cấu hình chạy dùng chiến lược LLM và truyền schema pydantic.

| Nhà cung cấp | Loại | Base URL mẫu | Ghi chú | | --- | --- | --- | --- | | OpenRouter | Cloud | https://openrouter.ai/api/... | Hỗ trợ nhiều model khác nhau. Cần token API. | | OLLAMA | Local | http://localhost:11434 | Chạy mô hình tại máy, phù hợp khi muốn offline. | | OpenAI / Gemini / Claude | Cloud | api tương ứng | Các lựa chọn phổ biến, đôi khi cần cấu hình thêm. |

Cấu hình quan trọng bạn cần biết: trong phần browser setting, bật verbose để thấy log và đặt headless=true nếu không cần cửa sổ trình duyệt. Trong run config, chọn extraction strategy là LLM, gán schema pydantic, và thêm phần hướng dẫn (instructions) để LLM biết phải lấy trường nào.

Ví dụ khi dùng OpenRouter: bạn đặt provider là OpenRouter, dùng model mong muốn (tên model), cung cấp base URL và token. Nếu dùng OLLAMA, đổi provider và đặt base URL về localhost:11434.

Luôn kiểm tra dữ liệu sau khi chạy vì LLM có thể sai.
Bạn có thể dùng LLM khác để so sánh và xác thực.
Nếu dùng mô hình nhỏ, bật chunking để chia nội dung lớn.
Ví dụ chunking: apply_chunking = true và token size = 1024.

Chunking rất hữu ích khi trang dài hoặc khi dùng mô hình nhỏ. Nó chia nội dung thành các phần nhỏ, mỗi phần xử lý giới hạn token. Sau đó kết hợp kết quả. Cách này giảm lỗi do bộ nhớ hay do model không bao quát hết nội dung.

Khi chạy trên trang như ESPN để lấy số liệu NFL, bạn sẽ tạo class pydantic với các trường như tên cầu thủ, số trận, yard,... Thêm mô tả ngắn cho mỗi trường để LLM hiểu. Sau khi chạy, so sánh vài hàng dữ liệu với trang thật để xác nhận.

Mẹo nhanh: dùng verbose trong cả browser và extraction để thấy log. Nếu gặp lỗi nhỏ, kiểm tra prompt và mô tả schema. Thử điều chỉnh model hoặc bật chunking. Luôn lưu kết quả raw để dễ kiểm tra sau này.

Bây giờ bạn có thể thử ngay với Crawl4AI. Cài đặt công cụ, cấu hình provider (OpenRouter hoặc OLLAMA), tạo schema bằng pydantic và chạy. Nếu cần lấy dữ liệu từ ESPN, xác định các trường bạn muốn và để LLM giúp trích xuất. Hãy bắt tay vào làm và thử ngay.

Chuẩn bị môi trường và cài đặt Crawl4AI

Bạn có muốn tạo một công cụ lấy dữ liệu từ web bằng trí tuệ nhân tạo? Nếu câu trả lời là có, Crawl4AI giúp bạn kết hợp web scraping với mô hình ngôn ngữ lớn (LLM) để trích xuất dữ liệu có cấu trúc từ trang như ESPN. Bài viết này hướng dẫn bạn từng bước, dễ hiểu và sẵn sàng để thử ngay.

Yêu cầu: Python, VS Code (hoặc terminal), Git và API token

Python đã cài (phiên bản 3.8+).
Môi trường phát triển như VS Code hoặc chỉ cần terminal.
Git để clone kho mã (nếu cần).
API token cho nhà cung cấp LLM bạn dùng (ví dụ OpenRouter hoặc model cục bộ OLLAMA).
Quen với mô hình dữ liệu bằng pydantic để định nghĩa schema.

Cài đặt: pip install -U crawl4ai (hoặc uvicorn + pip) và chạy setup

Mở terminal trong thư mục dự án. Chạy lệnh cài đặt: pip install -U crawl4ai. Nếu bạn dùng server ASGI, có thể cài thêm uvicorn trước bằng uvicorn cùng pip. Lệnh cài đặt chỉ mất khoảng 1 phút. Sau khi cài xong, chạy phần thiết lập của thư viện nếu có; lệnh này có thể yêu cầu nhập mật khẩu hệ thống. Hãy kiên nhẫn để quá trình hoàn tất.

Bạn cũng cần chuẩn bị token cho nhà cung cấp LLM. Ví dụ, với OpenRouter, bạn sẽ dùng một base URL dạng https://openrouter.ai/api/v1 và một API token. Nếu muốn chạy model cục bộ, hãy chuyển sang OLLAMA và dùng base URL như http://localhost:11434.

Kiểm tra cài đặt bằng lệnh crawl4ai-do để xác nhận thành công

Để chắc chắn mọi thứ hoạt động, chạy lệnh kiểm tra: crawl4ai-do. Lệnh này sẽ trả về thông báo thành công khi cài đặt đúng. Tiếp theo, bạn có thể chạy ví dụ mẫu: thay URL mặc định bằng trang bạn muốn quét. Lần chạy đầu sẽ tải HTML trang về và in nội dung ra để bạn kiểm tra.

Để trích xuất dữ liệu có cấu trúc, định nghĩa lớp schema bằng pydantic. Ví dụ, tạo model cho tên cầu thủ, số trận, số lần chuyền, yard, v.v. Khi cấu hình chạy, chọn chiến lược LLM để dùng mô hình ngôn ngữ hỗ trợ chuyển HTML thành JSON theo schema bạn đã định nghĩa.

Một số cấu hình quan trọng bạn nên để ý: bật verbose để xem log; đặt headless = true để không mở cửa sổ trình duyệt; chọn nhà cung cấp model (ví dụ OpenRouter hoặc OLLAMA); thêm phần hướng dẫn (prompt) và mẫu schema cho LLM để tăng độ chính xác.

| Nhà cung cấp | Base URL mẫu | Ưu điểm | Ghi chú | | --- | --- | --- | --- | | OpenRouter | https://openrouter.ai/api/v1 | Hỗ trợ nhiều model, dễ tích hợp cloud | Cần API token từ dịch vụ | | OLLAMA | http://localhost:11434 | Chạy cục bộ, không cần token internet | Phù hợp với mô hình nhỏ/nhạy cảm dữ liệu | | Local scraping + LLM | n/a | Toàn quyền kiểm soát dữ liệu | Cần cấu hình server và tài nguyên |

Khi cấu hình provider trong Crawl4AI, chỉ định model bạn muốn dùng. Ví dụ với OpenRouter, truyền base URL và token vào config. Với OLLAMA, đổi provider sang OLLAMA và dùng URL local. Thay model tên tương ứng trong cấu hình.

Một tính năng hữu ích là chunking. Nếu bạn dùng model nhỏ hơn, bật apply_chunking = true và đặt kích thước token (ví dụ 1024). Chunking sẽ chia nội dung thành phần nhỏ và chạy nhiều lượt, giúp model nhỏ xử lý tốt hơn các trang dài.

Sau khi chạy, bạn sẽ nhận dữ liệu theo schema pydantic đã định nghĩa. Luôn kiểm tra vài kết quả mẫu để chắc chắn dữ liệu đúng. Ví dụ: so sánh tên cầu thủ và số trận lấy từ ESPN với trang gốc. Nếu thấy sai sót, chỉnh prompt, sửa schema hoặc bật chunking.

Lưu ý về tính không xác định của LLM: LLM đôi khi trả giá trị không chính xác. Luôn xác minh dữ liệu hoặc dùng một LLM khác làm thẩm định (như judge). Việc kiểm tra thủ công vài mẫu giúp phát hiện lỗi sớm.

Nếu bạn muốn bắt đầu ngay bây giờ, làm theo các bước trên và thử chạy ví dụ lấy danh sách cầu thủ từ ESPN. Hãy chỉnh schema bằng pydantic, cấu hình provider là OpenRouter hoặc OLLAMA, bật chunking nếu cần, rồi chạy. Hãy thử dùng Crawl4AI ngay để trích xuất dữ liệu của bạn.

Chạy ví dụ cơ bản và trích xuất có cấu trúc bằng LLM

Bạn có muốn lấy dữ liệu từ trang web tự động mà không cần viết quá nhiều code? Bài viết này hướng dẫn cách dùng Crawl4AI để làm web scraping kết hợp LLM để trích xuất dữ liệu có cấu trúc. Hãy thử ngay và bắt đầu thu thập dữ liệu.

Chạy example lấy HTML từ repo: cách copy link và chạy command

Đầu tiên, cài gói bằng pip: chạy lệnh cài đặt rồi chạy setup. Sau khi cài xong, kiểm tra bằng lệnh kiểm tra của công cụ. Lệnh ví dụ sẽ tải HTML từ đường dẫn bạn cho. Bạn có thể thay link mặc định bằng trang mình cần. Kết quả là HTML thô của trang sẽ được in ra.

pip install -U crawl4ai
chạy script setup (theo hướng dẫn trong repo)
chạy lệnh kiểm tra để xác nhận cài đặt

Tạo pydantic base model để định nghĩa schema (ví dụ: tên cầu thủ, games, passes)

Để trích xuất có cấu trúc, bạn định nghĩa các model bằng pydantic. Ví dụ tạo lớp cho tên cầu thủ, số trận (games) và các thông số passing. Thêm mô tả cho từng trường để LLM hiểu rõ. Khi LLM trả về kết quả, nó sẽ cố gắng khớp theo schema này.

Cấu hình provider model: OpenRouter (Quena 3), OpenAI, Claude hoặc OLLAMA local

Bạn có thể dùng nhiều nhà cung cấp. Mẫu cấu hình gồm tên provider, model, base URL và token. Ví dụ: dùng OpenRouter với model Quena 3. Nếu muốn chạy local, đổi sang OLLAMA và dùng base URL của máy.

| Provider | Ví dụ model | Dùng thế nào | Ưu / Nhược | | --- | --- | --- | --- | | OpenRouter | Quena 3 | Cấu hình base URL và token | Hiệu năng tốt / cần token | | OpenAI | gpt-4...* | Dùng API key của OpenAI | Ổn định / tốn phí | | OLLAMA | Llama 3.x (local) | Chạy trên máy (localhost:11434) | Chạy offline / hạn chế tài nguyên |

Cấu hình browser và run: headless, verbose, extraction strategy = LLM/schema

Trong cấu hình trình duyệt, bật headless để không hiển thị cửa sổ. Bật verbose để xem log. Đặt extraction strategy là LLM với extraction type = schema. Kèm theo hướng dẫn (prompt) và mẫu schema để LLM hiểu. Đừng quên tính tới tính không xác định của LLM. Luôn xác minh dữ liệu, nhất là khi lấy từ trang như ESPN.

Khi dùng mô hình nhỏ, bật chunking để chia nội dung. Ví dụ set apply_chunking = true và token chunk = 1024. Cách này giúp LLM nhỏ hơn vẫn xử lý được nhiều nội dung trang.

Mẹo vận hành, xác thực dữ liệu và bắt tay vào làm ngay

Bạn muốn tự tạo bộ công cụ lấy dữ liệu từ web bằng Crawl4AI và một mô hình ngôn ngữ lớn (LLM)? Dưới đây là cách vận hành đơn giản. Cài đặt bằng pip: pip install -U crawl4ai. Chạy lệnh thiết lập một lần để hoàn tất. Sau đó kiểm tra bằng lệnh crawl4ai-do để chắc chắn mọi thứ hoạt động.

Ví dụ thực tế: trích xuất số liệu NFL từ ESPN và cách xác minh kết quả

Bạn có thể chạy một ví dụ sẵn có hoặc đổi URL sang trang mình muốn, ví dụ trang thống kê NFL trên ESPN. Hệ thống sẽ lấy HTML rồi dùng LLM để chuyển nội dung thành dữ liệu có cấu trúc. Dùng các lớp pydantic để định nghĩa schema: tên cầu thủ, số trận, số lần hoàn thành, số lần thử. Sau khi chạy, luôn mở trang gốc để kiểm tra vài mục ngẫu nhiên xem dữ liệu có khớp không.

Lưu ý LLM không ổn định (non-deterministic) — luôn kiểm tra và có thể dùng LLM làm judge

Mô hình ngôn ngữ đôi khi đưa ra kết quả khác nhau. Vì vậy, luôn xác thực dữ liệu. Một cách hay là dùng một mô hình khác hoặc cùng một LLM làm bộ kiểm tra (judge). Nếu phát hiện sai, ghi lại và chỉnh prompt hoặc schema.

Chunking cho model nhỏ: bật apply_chunking và đặt token (ví dụ 1024)

Nếu dùng mô hình nhỏ như một số bản OLLAMA hoặc Llama, hãy bật chunking. Trong cấu hình extraction, đặt apply_chunking = true và token size = 1024. Hệ thống sẽ chia nội dung thành phần nhỏ để mô hình xử lý dễ hơn.

Xử lý lỗi phổ biến và tối ưu: headless, logging, kiểm tra schema

Để chạy ổn định, bật headless = true để không thấy cửa sổ trình duyệt. Bật verbose/logging để xem nhật ký lỗi. Kiểm tra schema pydantic kỹ càng để tránh sai kiểu dữ liệu. Nếu cần model bên ngoài, dùng OpenRouter (ví dụ model quim3) với base URL và token. Hoặc đổi sang OLLAMA nếu chạy local (localhost:11434).

Bắt đầu ngay (CTA): thử chạy Crawl4AI với OpenRouter/OLLAMA và dữ liệu của bạn

Giờ bạn đã có hướng dẫn nhanh. Hãy thử chạy một ví dụ, đổi URL thành trang bạn cần, định nghĩa schema bằng pydantic, và chọn OpenRouter hoặc OLLAMA. Nếu gặp dữ liệu lớn, bật chunking. Thực hành nhiều lần và kiểm tra kết quả. Bắt tay vào làm và thu thập dữ liệu cho dự án của bạn ngay!