robots.txt và cuộc chiến với AI crawler

Nếu bạn là content creator, blogger hay vlogger tại Việt Nam, khả năng cao nội dung tiếng Việt của bạn đang bị crawl mỗi ngày để huấn luyện các mô hình AI – từ chatbot, voice clone đến công cụ tìm kiếm AI.

Trong giới SEO, có lẽ khái niệm về tệp robots.txt không quá xa lạ: đó là một chỉ dẫn máy đọc được (machine readable instruction) để gửi đến các crawler về việc lấy dữ liệu từ website của bạn.

Câu hỏi đặt ra là: liệu tệp robots.txt đó có thực sự bảo vệ được tài sản trí tuệ của bạn không?

Có quan điểm cho rằng khi Luật Sở hữu trí tuệ 2022 bổ sung quy định về “biện pháp công nghệ bảo vệ quyền” (Technological Protection Measures – TPM), việc phớt lờ robots.txt có thể sẽ bị xử lý như hành vi “bẻ khóa” DRM. Tuy nhiên, đây là một hiểu lầm tai hại có thể khiến bạn đặt nhầm kỳ vọng vào công cụ này.

Tại sao robots.txt không phải “tường lửa pháp lý”?

Để hiểu rõ vấn đề, chúng ta cần phân tích khái niệm TPM theo luật Việt Nam. (xem thêm [17]) Theo Khoản 10b Điều 4 Luật SHTT bổ sung năm 2022,[1] một “biện pháp công nghệ bảo vệ” quyền phải tạo ra rào cản kỹ thuật thực sự – điều mà robots.txt hoàn toàn không làm được.

Hãy tưởng tượng sự khác biệt này: một hệ thống DRM giống như một chiếc két sắt – bạn phải “bẻ khóa” mới lấy được nội dung bên trong. robots.txt thì giống như một tấm biển “cấm vào” trước cửa nhà – bất kỳ ai cũng có thể bước qua mà không cần phá vỡ hay vô hiệu hóa gì cả. Tấm biển vẫn còn đó, chỉ là kẻ xâm nhập đã chọn phớt lờ.

Sự phân biệt này không chỉ mang tính lý thuyết. Điều 28 Luật SHTT quy định rõ ràng hành vi xâm phạm phải là “cố ý vô hiệu hóa biện pháp công nghệ hữu hiệu“. Một con bot AI đơn giản bỏ qua robots.txt không hề “vô hiệu hóa” gì cả – nó chỉ không tuân thủ một chỉ thị. Do đó, bạn không thể dựa vào các điều khoản về TPM để khởi kiện những ai phớt lờ robots.txt.

Cách hiểu này hoàn toàn tương thích với tiêu chuẩn quốc tế. Cả Chỉ thị InfoSoc của EU[2] và Đạo luật DMCA của Hoa Kỳ[3] đều định nghĩa TPM là công cụ kiểm soát truy cập thực sự. Thậm chí RFC 9309 – tiêu chuẩn kỹ thuật chính thức của IETF cho robots.txt[4] – cũng khẳng định rõ ràng rằng đây không phải là một cơ chế cấp quyền, mà chỉ là một tấm biển chỉ dẫn.

Vũ khí pháp lý nào cho content creator?

Mặc dù không phải TPM, robots.txt vẫn có thể đóng vai trò như bằng chứng quan trọng để bạn vận dụng những chiến thuật pháp lý khác.

Luật hợp đồng là con đường pháp lý đầu tiên bạn nên xem xét. Trong nhiều trường hợp, việc truy cập vào website đã hình thành một hợp đồng ngầm, và robots.txt có thể trở thành một phần của hợp đồng đó. Chiến lược thực tiễn là tích hợp robots.txt vào Terms of Service (ToS) của bạn với nội dung rõ ràng như: “Mọi hành vi truy cập tự động phải tuân thủ các quy tắc trong robots.txt. Vi phạm sẽ bị coi là vi phạm hợp đồng.”

Theo quy định của BLDS Việt Nam, sự im lặng không được mặc nhiên xem như là đồng ý giao kết hợp đồng. Tuy nhiên, bằng các biện pháp kỹ thuật để đính kèm ToS, bạn vẫn có thể chứng minh một cách rõ ràng rằng bên truy cập đã nhận được thông báo ToS một cách công khai. Theo Điều 34 Luật giao dịch điện tử 2023, hợp đồng điện tử giữa các hệ thống thông tin tự động với nhau "không bị phủ nhận giá trị pháp lý chỉ vì không có sự kiểm tra hay can thiệp của con người"

Để tăng cường hiệu quả, bạn có thể yêu cầu các truy cập khối lượng lớn phải được thực hiện qua API có đăng ký, kèm theo cơ chế “clickwrap” – buộc người dùng phải nhấn nút đồng ý với điều khoản. Khi đó, robots.txt có thể được viện dẫn như điều kiện sử dụng nếu bạn buộc truy cập qua API/clickwrap; khi đó, vi phạm có cơ sở để xử lý theo hợp đồng.

Quyền tác giả là vũ khí mạnh mẽ nhất trong kho vũ khí pháp lý của bạn. Khi một bot AI thu thập dữ liệu trên trang của bạn để huấn luyện mô hình, nó có thể xâm phạm quyền sao chép nếu ngoài phạm vi ngoại lệ/không được phép. Nếu việc này được thực hiện mà không có sự cho phép, đó chính là hành vi xâm phạm quyền tác giả.

Trong kịch bản này, robots.txt đóng vai trò như bằng chứng không thể chối cãi về ý chí “cấm” của bạn. Những lập luận kiểu “tôi không biết” hay “đây là dữ liệu công khai” của nhà phát triển AI sẽ trở nên vô nghĩa khi đối mặt với một chỉ thị Disallow: GPTBot rõ ràng trong tệp robots.txt của bạn. Cách tiếp cận này được củng cố thêm bởi vụ kiện Field v. Google[5] nơi tòa án xem xét vai trò của robots.txt trong việc xác định ý định cấp phép.

Ở một tình huống giả định được đặt ra (mặc dù hiếm có khả năng xảy ra thực tế), nếu crawler truy cập ồ ạt và gây quá tải máy chủ, làm tăng chi phí băng thông và ảnh hưởng trải nghiệm người dùng, bạn có thể khởi kiện đòi bồi thường thiệt hại ngoài hợp đồng theo con đường luật dân sự.[6] robots.txt trong trường hợp này trở thành bằng chứng cho thấy những tổn thất này xảy ra bất chấp cảnh báo rõ ràng của bạn.

Giải pháp thực tế:

Selective Disallow

Một trong những thách thức lớn nhất mà các content creator phải đối mặt trong kỷ nguyên AI là bài toán cân bằng: làm sao vừa được Google nhìn thấy để duy trì traffic, vừa khiến các AI tạo sinh trở nên “vô hình”?

Chúng ta có thể thiết kế robots.txt để phân biệt đối xử một cách có chủ đích thông qua chỉ thị User-agent.[7] Hãy hình dung User-agent như “chứng minh thư” của mỗi con bot – khi truy cập trang web, chúng sẽ giới thiệu danh tính như “Tôi là Googlebot” hay “Tôi là GPTBot”. Tệp robots.txt hoạt động như người gác cổng với danh sách khách mời và danh sách đen riêng biệt.

Thay vì sử dụng lệnh cấm tuyệt đối User-agent: *, bạn có thể xây dựng một tệp robots.txt có chọn lọc. Ví dụ, cho phép Googlebot và Bingbot tự do truy cập để duy trì khả năng hiển thị trên công cụ tìm kiếm, đồng thời cấm tuyệt đối các bot được biết đến với mục đích huấn luyện AI.

Mẫu robots.txt

<!-- wp:code -->
<pre class="wp-block-code"><code># (A) CHO PHÉP INDEX CHUẨN SEO
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow:
User-agent: Applebot
Disallow:

Sitemap: https://example.com/sitemap.xml

# (B) CHẶN SỬ DỤNG DỮ LIỆU CHO HUẤN LUYỆN/GROUNDING AI
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: CCBot
Disallow: /
</code></pre>
<!-- /wp:code -->

Danh sách trên bao gồm các bot AI chính được xác nhận bởi các nhà cung cấp: OpenAI’s GPTBot, Anthropic’s ClaudeBot,[8] Google-Extended cho Bard/Gemini, Common Crawl’s CCBot,[9] Apple’s Applebot-Extended,[10] và Perplexity’s PerplexityBot.[11]

Đây là giải pháp tức thì, dễ triển khai và giải quyết được phần lớn vấn đề. Tuy nhiên, bạn cần nhận thức rằng đây là một “cuộc chạy đua vũ trang” – các nhà phát triển AI có thể tạo ra bot mới với User-agent khác hoặc che giấu danh tính. Trường hợp điển hình là Perplexity AI bị Cloudflare loại khỏi chương trình Verified Bots vì “stealth crawling”[12] – sử dụng các phương thức che giấu để vượt qua robots.txt.

2. Thể hiện chính sách trong HTTP request

Hãy thêm một header chứa Link đến T&C/ToS của bạn vào các HTTP response, ví dụ

Link: <https://yourdomain/terms-and-conditions/>; rel="terms-of-service"
Link: </robots.txt>; rel="robots"

Một số cách thêm header vào HTTP response

Sửa .htaccess
Sử dụng một MU plugin cho wordpress

<IfModule mod_headers.c>
    Header add Link "<https://yourdomain/terms-and-conditions/>; rel=\"terms-of-service\""
    Header add Link "</robots.txt>; rel=\"robots\""
</IfModule>

Một số giải pháp kỹ thuật nâng cao

Để thực sự có tác dụng, giải pháp kỹ thuật cần được củng cố bằng các rào cản pháp lý và kỹ thuật cao hơn. Bạn có thể kết hợp robots.txt với các HTTP headers như X-Robots-Tag: noai, noimageai,[13] thiết lập cơ chế giới hạn tần suất truy cập (rate limiting) hoặc CAPTCHA ở tầng mạng biên.

Quan trọng hơn, hãy xem xét việc cung cấp nội dung giá trị cao thông qua API có kiểm soát. API hoạt động như cánh cổng có bảo vệ – bất kỳ ai muốn truy cập đều phải đăng ký, nhận “chìa khóa” API và đồng ý với điều khoản sử dụng. Bằng cách này, bạn có thể cấp phép cho các đối tác tin cậy trong khi từ chối những kẻ khai thác bất hợp pháp.

Đừng quên ghi nhận chi tiết các hoạt động truy cập để làm bằng chứng. Những thông tin về IP, timestamp, User-agent và hành vi vi phạm sẽ vô cùng hữu ích nếu bạn cần đi đến con đường pháp lý.

Action plan

Trong khi chờ đợi cải cách chính sách content creator Việt Nam hoàn toàn có thể củng cố vị thế pháp lý ngay từ hôm nay.

Về mặt pháp lý, hãy tích hợp robots.txt vào ToS, yêu cầu đăng ký API cho các truy cập dữ liệu lớn và thiết lập cơ chế “clickwrap”. Khi phát hiện vi phạm, thu thập bằng chứng về hành vi sao chép và sử dụng robots.txt như chứng cứ về ý chí cấm. Đồng thời, ghi lại nhật ký hệ thống để chứng minh tổn thất về tài nguyên máy chủ do crawler vi phạm gây ra.

Về mặt kỹ thuật, hãy kết hợp robots.txt với HTTP headers, thiết lập rate limiting hoặc CAPTCHA ở tầng mạng biên, và xây dựng kênh cấp phép rõ ràng qua API có điều khoản cụ thể.

Đọc thêm: Góc nhìn pháp lý quốc tế

Kinh nghiệm quốc tế cho thấy hai mô hình tiếp cận khác nhau đối với robots.txt. Mô hình EU thông qua Chỉ thị DSM[14] công nhận robots.txt như một “công tắc pháp lý” – nếu bạn đã tắt công tắt đối với khai thác dữ liệu thương mại, việc vi phạm có thể dẫn đến hậu quả pháp lý nghiêm trọng.

Ngược lại, mô hình Mỹ phức tạp hơn với học thuyết “giấy phép ngầm định”. Các tòa án có xu hướng coi việc không có robots.txt là bạn đang ngầm cho phép truy cập, trong khi việc sử dụng robots.txt để cấm giúp phủ định hàm ý cấp phép đó. Điều này được thể hiện rõ trong vụ kiện gần đây hiQ Labs v. LinkedIn,[15] nơi tòa án xem xét vai trò của các tín hiệu kỹ thuật trong việc xác định quyền truy cập.

Đối với Việt Nam, mô hình “opt-out bằng máy đọc” của EU có vẻ phù hợp hơn, thay vì dựa vào các học thuyết hợp đồng và hàm ý phức tạp cần thời gian để tòa án diễn giải.

Kết luận

Nghiên cứu của Chang và He tại Đại học Hong Kong đã chỉ ra rằng robots.txt tồn tại trong một “vùng xám” pháp lý[16] – không phải TPM theo nghĩa kỹ thuật, nhưng vẫn có thể được tòa án xem xét như một yếu tố quan trọng trong các vụ kiện bản quyền và hợp đồng.

robots.txt không phải “tường lửa pháp lý” tuyệt đối như nhiều người nhầm tưởng, nhưng nó vẫn đóng vai trò quan trọng trong chiến lược bảo vệ nội dung khỏi AI. Như đã phân tích, sự thành công không nằm thể chỉ dựa vào một công cụ duy nhất, mà kết hợp nhiều biện pháp: từ selective disallow để cân bằng SEO và bảo vệ AI, đến việc củng cố bằng ToS và API có kiểm soát, chuẩn bị bằng chứng pháp lý kỹ lưỡng và ủng hộ cải cách chính sách dài hạn.

Trong kỷ nguyên AI, việc bảo vệ nội dung không chỉ là cuộc chiến kỹ thuật mà còn là cuộc chiến pháp lý. robots.txt có thể là điểm khởi đầu, nhưng chiến thắng thực sự đòi hỏi một chiến lược toàn diện và sự hiểu biết sâu sắc về cả khía cạnh kỹ thuật lẫn pháp lý của vấn đề.

Phụ lục — Bàn thêm về DRM/RMI & Cơ chế bảo vệ pháp lý

1. Hai nhóm công nghệ quản lý quyền tác giả kỹ thuật số

TPM (Technical Protection Measures): “ổ khóa công nghệ” hạn chế truy cập/khai thác trái phép nội dung số (ví dụ: mã hóa tệp, kiểm soát truy cập).
RMI (Rights Management Information): thông tin quản lý quyền gắn vào file số để xác định tác phẩm/tác giả/chủ thể quyền và điều kiện sử dụng.
Hai nhóm này được dùng để giám sát, bảo vệ quyền trên Internet; nếu thiếu cơ chế bảo vệ pháp lý, việc “bẻ khóa” sẽ triệt tiêu hiệu lực của lớp công nghệ thuần túy.

Các hiệp ước Internet của WIPO yêu cầu quốc gia thành viên xây dựng hai cơ chế pháp lý “bổ trợ” cho lớp công nghệ:

Anti-circumvention (chống vô hiệu hóa TPM): xử lý hành vi “bẻ khóa” biện pháp công nghệ bảo vệ tác phẩm (Điều 11 WCT; Điều 18 WPPT).
Bảo vệ RMI: cấm xóa/sửa RMI và việc khai thác tác phẩm khi biết (hoặc có lý do để biết) RMI đã bị can thiệp nhằm che đậy/xúi giục xâm phạm (Điều 12 WCT; Điều 19 WPPT).

2. Một số đề xuất cải cách tại Việt Nam

Cuộc chạy đua vũ trang bằng kỹ thuật và hợp đồng tuy cần thiết nhưng không bền vững về lâu dài. Chỉ có pháp luật mới có thể giải quyết triệt để nghịch lý giữa việc bảo vệ sáng tạo và duy trì sự cởi mở của Internet.

Trong bối cảnh phát triển của GenAI, tác giả cho rằng chúng ta nên mặc định cho phép các công cụ tìm kiếm hợp pháp truy cập vì lợi ích chung, đồng thời công nhận quyền từ chối rõ ràng của chủ sở hữu nội dung đối với việc khai thác chuyên sâu như huấn luyện AI thương mại.

Cụ thể, cần bổ sung ngoại lệ TDM (Text and Data Mining) hai tầng: một cho mục đích nghiên cứu không thể bị hợp đồng vô hiệu hóa, và một cho mục đích thương mại có thể bị chủ sở hữu quyền từ chối thông qua các phương tiện máy đọc như robots.txt.

Khi đó, robots.txt không còn chỉ là lời đề nghị hay tấm biển chỉ dẫn nữa, mà trở thành công cụ thực thi quyền pháp định. Việc phớt lờ nó sẽ cấu thành hành vi vi phạm pháp luật rõ ràng, không cần diễn giải phức tạp qua luật hợp đồng hay quyền tác giả.

Tài liệu tham khảo

[1] Ghi chú: Luật SHTT 2022 bổ sung khoản 10b vào Điều 4 Luật SHTT 2005

[2] European Parliament and Council. (2001). Directive 2001/29/EC on the harmonisation of certain aspects of copyright and related rights in the information society (InfoSoc Directive). Official Journal L 167, 10–19.

[3] hiQ Labs, Inc. v. LinkedIn Corp., 31 F.4th 1180 (9th Cir. 2022)

[4] IETF (Koster, M., Illyes, G., Zeller, H., & Sassman, L.). (2022, September). Robots Exclusion Protocol (RFC 9309). IETF Standards Track.

[5] Field v. Google, Inc., 412 F. Supp. 2d 1106 (D. Nev. 2006)

[6] eBay v. Bidder’s Edge, 100 F. Supp. 2d 1058 (N.D. Cal. 2000)

[7] IETF

[8] Anthropic. (n.d.). Does Anthropic crawl data from the web, and how can site owners block the crawler?

[9] Common Crawl Foundation. (2025). CCBot

[10] Apple Inc. (2025, April 25). About Applebot

[11] Perplexity. (2025). Perplexity Crawlers (PerplexityBot & Perplexity-User) — robots.txt controls. Perplexity Docs

[12] Cloudflare. (2024, June 28). Updates to Verified Bots: Perplexity has been removed from the Verified Bots program for stealth crawling. Cloudflare Blog

[13] Google. (n.d.). Robots meta tag and X-Robots-Tag specifications. Google Search Central. Retrieved August 27, 2025

[14] European Parliament and Council. (2019). Directive (EU) 2019/790 on copyright and related rights in the Digital Single Market (CDSM Directive). Official Journal L 130, 92–125

[15] hiQ Labs, Inc. v. LinkedIn Corp., 31 F.4th 1180 (9th Cir. 2022)

[16] Chang, C.-Y., & He, X. (n.d.). The Liabilities of Robots.txt. The University of Hong Kong Faculty of Law. (Working paper)

[17] P. T. M. Khanh. (2018). Hậu TPP – Việt Nam có cần điều chỉnh các cơ chế bảo hộ quyền tác giả trong môi trường Internet? Tạp chí Phát triển Khoa học & Công nghệ: Chuyên san Kinh tế – Luật và Quản lý, 2(3).

Tại sao robots.txt không phải “tường lửa pháp lý”?

Vũ khí pháp lý nào cho content creator?

Giải pháp thực tế:

Một số giải pháp kỹ thuật nâng cao

Action plan

Kết luận

1. Hai nhóm công nghệ quản lý quyền tác giả kỹ thuật số

2. Một số đề xuất cải cách tại Việt Nam

Related Posts

Luật DLCN Part 4: Khi Luật quy định Code – Phân tích Dự thảo Nghị định

Rò rỉ dữ liệu tín dụng: Hệ quả và cách đối phó

Miễn trừ áp dụng Luật DLCN cho startup

Leave a ReplyCancel Reply