Hướng Dẫn Ngăn Chặn Bot AI Quét Dữ Liệu Website

Trong thời gian gần đây, nhiều hệ thống AI sử dụng bot tự động để thu thập dữ liệu từ các website nhằm phục vụ việc huấn luyện mô hình. Điều này có thể khiến nội dung, bài viết hoặc dữ liệu độc quyền trên website của bạn bị khai thác mà không có sự cho phép.

Vì vậy, việc chủ động triển khai các biện pháp ngăn chặn bot AI là rất cần thiết để bảo vệ tài nguyên số, giảm tải máy chủ và hạn chế tình trạng sao chép nội dung trái phép. Bài viết dưới đây sẽ hướng dẫn bạn các cách hiệu quả để chặn bot AI thu thập dữ liệu website, từ phương pháp cơ bản đến nâng cao, áp dụng được cho hầu hết hệ thống website hiện nay.

robots.txt là gì?

robots.txt là một tập tin nằm ở thư mục gốc website, dùng để hướng dẫn các công cụ thu thập dữ liệu (crawler/bot) biết phần nào của website được phép hoặc không được phép truy cập.

Hướng Dẫn Chặn Bot AI Bằng robots.txt

Bước 1: Tạo hoặc mở file robots.txt

Truy cập File Manager trong hosting (cPanel, DirectAdmin…)
Dùng FTP (FileZilla, WinSCP…)
Hoặc SSH vào VPS

File phải đặt tại thư mục gốc website:

Ws 03

Bước 2: Thêm lệnh chặn bot AI

Dán nội dung dưới đây vào file:

vNode Tutorial

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: PerplexityBot
Disallow: /

Ý nghĩa từng bot trong danh sách:

User-agent: Tên bot (trình thu thập dữ liệu) mà bạn muốn áp dụng quy tắc

Disallow: / Không cho bot truy cập bất kỳ trang nào trên website

GPTBot

Bot do OpenAI sử dụng để thu thập dữ liệu phục vụ huấn luyện AI.
→ Cấu hình này yêu cầu GPTBot không quét website của bạn.

ChatGPT-User

Bot dùng khi hệ thống AI truy cập web để lấy thông tin theo yêu cầu người dùng.
→ Bị chặn hoàn toàn.

Google-Extended

Bot liên quan đến việc Google sử dụng dữ liệu cho các sản phẩm AI (như Gemini).
→ Khác với Googlebot tìm kiếm thông thường. Dòng này chỉ từ chối việc dùng dữ liệu cho AI, không ảnh hưởng SEO.

CCBot

Bot của công ty Common Crawl — nguồn dữ liệu lớn thường được dùng huấn luyện AI.
→ Ngăn nội dung bạn xuất hiện trong các bộ dữ liệu crawl công khai.

anthropic-ai và ClaudeBot

Bot của Anthropic (hãng phát triển AI Claude).
→ Yêu cầu không thu thập dữ liệu từ website.

Bytespider

Bot liên quan đến ByteDance (công ty mẹ TikTok), có hoạt động thu thập dữ liệu web.
→ Bị chặn toàn bộ.

PerplexityBot

Bot của công cụ tìm kiếm AI Perplexity.
→ Ngăn họ dùng nội dung của bạn cho hệ thống trả lời AI.

Tác dụng của cấu hình này

Thể hiện rõ bạn không cho phép các bot AI thu thập dữ liệu
Các công ty AI uy tín thường tôn trọng robots.txt
Không ảnh hưởng đến Google Search nếu bạn không chặn Googlebot

Bước 3: Cho phép bot tìm kiếm bình thường

vNode Tutorial

User-agent: *
Allow: /

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: PerplexityBot
Disallow: /

Ý nghĩa từng bot trong danh sách:

User-agent: * (Áp dụng cho tất cả các bot)
Allow: / (Cho phép truy cập toàn bộ website)

→ Điều này đảm bảo các bot tìm kiếm như Googlebot, Bingbot… vẫn index website bình thường, không ảnh hưởng SEO.

Bot	Thuộc về	Mục đích chính
GPTBot	OpenAI	Thu thập dữ liệu huấn luyện AI
ChatGPT-User	OpenAI	Lấy dữ liệu khi AI truy cập web
Google-Extended	Google	Dùng dữ liệu web cho AI (Gemini, Bard…)
CCBot	Common Crawl	Tạo bộ dữ liệu crawl lớn cho AI
anthropic-ai	Anthropic	Thu thập dữ liệu cho AI Claude
ClaudeBot	Anthropic	Bot AI Claude
Bytespider	ByteDance	Thu thập dữ liệu cho hệ thống AI
PerplexityBot	Perplexity AI	Dùng nội dung cho công cụ trả lời AI

Kết luận

Việc sử dụng robots.txt để chặn các bot AI như GPTBot, ClaudeBot, Google-Extended… là bước quan trọng giúp bạn thể hiện rõ ràng rằng website không cho phép thu thập dữ liệu phục vụ huấn luyện AI. Cách này dễ triển khai, không tốn chi phí và không làm ảnh hưởng đến hoạt động index của các công cụ tìm kiếm thông thường nếu cấu hình đúng.

Tuy nhiên, robots.txt chỉ mang tính quy ước tự nguyện, nên để bảo vệ nội dung hiệu quả hơn, bạn nên kết hợp thêm các biện pháp kỹ thuật khác như chặn User-Agent tại máy chủ, dùng tường lửa, giới hạn tốc độ truy cập và các lớp xác thực khi cần thiết.

Hướng Dẫn Ngăn Chặn Bot AI Quét Dữ Liệu Website

robots.txt là gì?

Hướng Dẫn Chặn Bot AI Bằng robots.txt

Bước 1: Tạo hoặc mở file robots.txt

Bước 2: Thêm lệnh chặn bot AI

Bước 3: Cho phép bot tìm kiếm bình thường

Kết luận

Hướng Dẫn Cài Đặt Và Kích Hoạt WordFence Security Premium

Hướng Dẫn Thay Thế Core WordPress Khi Website Bị Nhiễm Malware

Cách Chặn Truy Cập Theo Quốc Gia Bằng File .htaccess

Hướng Dẫn Cấu Hình .htaccess Để Chạy Laravel Từ Thư Mục public

Cách Khắc Phục Lỗi 404 Not Found Khi Vào Các Trang Con Trên Website

Domain & Hosting

VPS - Cloud Server

Dịch vụ khác

robots.txt là gì?

Hướng Dẫn Chặn Bot AI Bằng robots.txt

Bước 1: Tạo hoặc mở file robots.txt

Bước 2: Thêm lệnh chặn bot AI

Bước 3: Cho phép bot tìm kiếm bình thường

Kết luận

Hướng Dẫn Cài Đặt Và Kích Hoạt WordFence Security Premium

Hướng Dẫn Thay Thế Core WordPress Khi Website Bị Nhiễm Malware

Cách Chặn Truy Cập Theo Quốc Gia Bằng File .htaccess

Hướng Dẫn Cấu Hình .htaccess Để Chạy Laravel Từ Thư Mục public

Cách Khắc Phục Lỗi 404 Not Found Khi Vào Các Trang Con Trên Website