Cái bẫy “Yes Man” của LLM

Tại sao bạn nên dùng LLM để phản biện, chứ không phải kiểm chứng?

Chúng ta đang hiểu sai cách sử dụng các mô hình ngôn ngữ lớn (Large Language Models – LLM) trong những tình huống đòi hỏi suy luận nghiêm túc. Nhiều người coi chúng như những chuyên gia kỹ thuật số có thể thẩm định logic, giải thích hiện tượng phức tạp, hay xác nhận quyết định của ta. Nhưng cách tiếp cận này có một lỗ hổng chết người, bắt nguồn từ chính kiến trúc của hệ thống.

Lỗ hổng đó đơn giản là: Về mặt thống kê, LLM được thiết kế trên một kiến trúc để không bao giờ nói “tôi không biết”.

Dù có bao nhiêu lớp huấn luyện an toàn (safety training) hay tinh chỉnh (fine-tuning), cũng không thể ghi đè hoàn toàn mục tiêu cốt lõi của mô hình: dự đoán token hợp lý tiếp theo. Muốn dùng những công cụ này hiệu quả – và an toàn – ta cần đảo ngược cách làm việc. Đừng yêu cầu LLM chứng minh mình đúng. Hãy bắt chúng chứng minh mình sai.

Kẻ “Yes Man” ngẫu nhiên

Về bản chất, LLM là cái mà Luciano Floridi gọi là “động cơ suy diễn ngẫu nhiên” (engines of stochastic inference)[1]. Chúng không có khái niệm về chân, giả, hay sự khiêm tốn nhận thức (epistemic humility). Chúng vận hành dựa trên phân phối xác suất của văn bản. Khi bạn đặt một câu hỏi phức tạp, mô hình không tìm kiếm sự thật – nó tìm phần tiếp theo có khả năng xuất hiện cao nhất theo thống kê từ prompt của bạn.

Cơ chế này tạo ra thứ các nhà nghiên cứu gọi là “suy diễn thái quá” (over-abduction): xu hướng đưa ra giải thích ngay cả khi bằng chứng không đủ[2]. Một chuyên gia con người, khi đối mặt với dữ liệu mơ hồ, có thể nói “tôi không chắc, cần thêm thông tin”. Còn LLM, theo thiết kế, sẽ tạo ra một câu chuyện bất kể thực tế ra sao. Nó thể hiện cái mà chính nhóm nghiên cứu của OpenAI gọi là “sycophancy” – ưu tiên làm hài lòng kỳ vọng của người dùng hơn là độ chính xác thực tế[3].

Thử yêu cầu một LLM giải thích một học thuyết pháp lý tinh tế hay biện minh cho một quyết định kiến trúc phần mềm phức tạp xem. Nó sẽ đưa ra câu trả lời nghe đầy uy quyền. Nó cung cấp thứ ta có thể gọi là “hiện tượng học của sự hợp lý” (phenomenology of plausibility) – những phản hồi tạo cảm giác đúng đắn vì chúng bắt chước cấu trúc suy luận của con người, kèm theo đầy đủ các từ nối nhân quả (“bởi vì”, “do đó”, “với điều kiện”) và những khẳng định tự tin. Nhưng logic bên trong có thể hoàn toàn rỗng tuếch.

Mô hình đã học được rằng con người giải thích sự việc theo những khuôn mẫu ngôn ngữ nhất định. Nó tái tạo lại những khuôn mẫu đó mà không có sự hiểu biết nền tảng.

Hãy dùng hallucination một cách có ích

Với câu hỏi đơn giản, hạn chế này vô hình. Hỏi “tại sao xe không nổ máy?” và LLM sẽ gợi ý đúng là do ắc quy chết, bởi vì dữ liệu huấn luyện của nó chứa hàng ngàn ví dụ liên kết hai khái niệm này. Mô hình bắt chước hoàn hảo suy luận đúng đắn vì khuôn mẫu phổ biến và nhất quán.

Nhưng trong những tình huống mới lạ – diễn giải tiền lệ pháp lý ở các vụ việc ngoại lệ, gỡ lỗi (debug) các lỗi phần mềm bất thường, đánh giá quyết định chiến lược với nhiều sự đánh đổi – ảo giác (hallucination) được tạo ra bởi LLM sẽ vỡ tan. Mô hình vẫn tạo ra thứ trông giống “suy diễn đến lời giải thích tốt nhất” (inference to the best explanation – IBE), nhưng nó chỉ đơn thuần lắp ghép lời giải thích có xác suất cao nhất từ kho dữ liệu. Nó thiếu cái mà các nhà triết học khoa học gọi là “bối cảnh kiểm chứng” (context of justification): khả năng kiểm tra giả thuyết với thực tế[4].

Phân biệt này quan trọng cực kỳ trong các lĩnh vực rủi ro cao. Một lập luận pháp lý nghe có vẻ nhưng sai lệch có thể làm thua vụ kiện. Một đề xuất kiến trúc tự tin nhưng thiếu sót có thể làm tê liệt cả hệ thống. Câu hỏi càng phức tạp, xu hướng bịa đặt (confabulation) của mô hình càng nguy hiểm.

Quy trình đúng: Coi LLM như đối thủ

Vậy làm sao dùng một hệ thống giỏi tạo văn bản hợp lý nhưng kém cỏi trong việc xác minh?

Ta tận dụng thế mạnh của nó: suy diễn giả định yếu (weak abduction) – tạo ra các giả thuyết ứng viên mà không cam kết về tính đúng sai[5].

LLM là những cỗ máy tạo giả thuyết phi thường. Chúng chứa đựng tri thức nhân loại khổng lồ và có thể khơi gợi những liên kết mà chuyên gia riêng lẻ có thể bỏ sót. Mặc dù chúng không thể cho bạn biết điều gì đúng một cách đáng tin, chúng lại cực kỳ hiệu quả trong việc brainstorm xem điều gì có thể đúng – hoặc điều gì có thể sai.

Thay vì yêu cầu LLM xác nhận lập luận của bạn, hãy bắt nó phá hủy lập luận đó.

Chiến lược Prompt Phản bác

Đây là lập luận của tôi cho [quyết định/phân tích/giải pháp].

Hãy liệt kê 10 lý do hợp lý tại sao cách tiếp cận này có thể:
- Không chính xác hoặc mâu thuẫn logic
- Nguy hiểm hoặc dễ thất bại
- Bỏ sót các trường hợp biên (edge cases) hoặc ràng buộc quan trọng

Căn cứ phản biện dựa trên [nguyên tắc chuyên ngành/tiền lệ pháp lý liên quan].
Ưu tiên các phản đối không hiển nhiên mà tôi có thể đã bỏ qua.

Khi bạn triển khai LLM như nhà phê bình thay vì cộng sự, bạn khai thác khả năng khớp mẫu (pattern-matching) của nó để thực hiện tìm kiếm rộng khắp không gian vấn đề. Nó sẽ tạo ra các phản đối đa dạng – một số không liên quan, một số sâu sắc, một số tiết lộ điểm mù bạn chưa nghĩ tới.

Đây là mô hình làm việc nó giỏi nhất: truy xuất và tái tổ hợp các mẫu từ quá trình huấn luyện. Nhưng giờ những mẫu đó làm việc cho bạn thay vì tiềm ẩn nguy cơ chống lại bạn.

Tại sao phản bác phù hợp với kiến trúc LLM

Cách tiếp cận này khớp rõ ràng với sự phân biệt khoa học giữa khám phá và kiểm chứng[^6]:

Bối cảnh Khám phá (Vai trò của LLM): Tạo ra các lập luận phản biện, trường hợp biên và phương thức thất bại tiềm năng dựa trên các mối liên kết đã học. Đưa ra giả thuyết về những gì có thể sai.

Bối cảnh Kiểm chứng (Vai trò của Bạn): Đánh giá phê bình nào hợp lệ. Việc này dễ hơn nhiều so với xác minh xem một lời giải thích tạo sinh phức tạp có đúng hay không.

Sự bất đối xứng này là then chốt. Nếu LLM “ảo giác” ra một tiền lệ pháp lý giả để phản biện, bạn có thể nhanh chóng bác bỏ. Nhưng nếu bạn yêu cầu LLM tự xây dựng lập luận, các ảo giác sẽ được dệt vào câu chuyện thuyết phục – khó phát hiện hơn nhiều vì chúng được nhúng trong lập luận nghe có vẻ hợp lý.

Bằng cách đặt LLM ở vị trí đối thủ, bạn chuyển đổi xu hướng bịa đặt của nó từ gánh nặng thành tài sản: một cơ chế để khám phá có hệ thống những gì có thể sai.

Sự đảo ngược nhận thức luận

Đây không chỉ là thủ thuật prompt. Đây là tái định hướng căn bản về trách nhiệm.

Cách dùng truyền thống: “LLM, cho tôi câu trả lời” → Bạn phải xác minh toàn bộ chuỗi suy luận được tạo ra

Cách dùng phản bác: “LLM, tấn công câu trả lời của tôi” → Bạn đánh giá từng phê bình riêng lẻ dựa trên chuyên môn của mình

Quy trình thứ hai giữ quyền nhận thức (epistemic authority) ở đúng chỗ: với chuyên gia con người – người có thể xác minh tuyên bố, đánh giá đánh đổi, và chịu trách nhiệm cho quyết định. LLM trở thành công cụ mở rộng phạm vi giám sát của bạn, không phải thay thế phán đoán.

Ứng dụng thực tiễn

Cách tiếp cận này có ứng dụng ngay lập tức:

Kiến trúc Phần mềm: Yêu cầu LLM phê bình quyết định thiết kế. “Tôi đang bỏ sót phương thức thất bại nào? Vấn đề mở rộng quy mô nào có thể xảy ra?”

Phân tích Pháp lý: Trình bày cách diễn giải điều luật hoặc tiền lệ. “Luật sư đối phương có thể lập luận theo hướng thay thế nào? Yếu tố phân biệt nào có thể làm suy yếu lập luận này?”

Hoạch định Chiến lược: Mô tả chiến lược. “Tôi đang đưa ra giả định nào có thể sai? Tác động tầng hai nào tôi có thể đang bỏ qua?”

Thiết kế Nghiên cứu: Phác thảo phương pháp luận. “Yếu tố gây nhiễu nào có thể làm vô hiệu kết quả? Giải thích thay thế nào có thể phù hợp với dữ liệu?”

Trong mỗi trường hợp, bạn khai thác bề rộng của mô hình trong khi duy trì chiều sâu của mình. Bạn được hưởng lợi từ khả năng khớp mẫu khổng lồ mà không đánh đổi phán đoán phê phán.

Những hạn chế tồn tại

Cách tiếp cận này không hoàn toàn loại bỏ hạn chế của LLM – nó chỉ làm việc trong giới hạn đó. Mô hình vẫn:

  • Thiếu hiểu biết thực sự hoặc nền tảng ngữ nghĩa
  • Không thể phân biệt đáng tin cậy giữa phê bình tốt và phê bình giả
  • Có thể bỏ sót phản đối mới lạ không có trong dữ liệu huấn luyện
  • Không thể thực hiện việc kiểm chứng để biện minh cho niềm tin

Nhưng bằng cách hạn chế vai trò của nó ở việc tạo giả thuyết thay vì xác minh, ta sắp xếp khả năng của công cụ với trường hợp sử dụng phù hợp. Ta ngừng yêu cầu nó làm điều không thể (xác nhận suy luận) và bắt đầu tận dụng điều nó có thể (tạo ra các phản đối ứng viên).

Kết luận

Chúng ta phải suy nghĩ lại căn bản cách triển khai những hệ thống này. LLM không phải là máy nói thật. Chúng là, như Floridi lập luận, những hệ thống với “lõi ngẫu nhiên và vẻ ngoài suy diễn” (stochastic cores and abductive appearances) – những bộ khớp mẫu tinh vi mô phỏng suy luận mà không thực hiện nó[1].

Mối nguy không nằm ở bản thân công nghệ mà ở ảo giác về năng lực mà nó tạo ra. Một hệ thống luôn nghe tự tin nguy hiểm hơn một hệ thống thừa nhận không chắc chắn, chính xác vì ta tin nó một cách không phù hợp.

Bằng cách coi LLM như đối thủ thay vì cố vấn – như nhà phê bình cần vượt qua thay vì chuyên gia để tin tưởng – ta chuyển đổi hạn chế cơ bản của chúng (không thể xác minh) thành thế mạnh (khả năng tạo ra các thách thức đa dạng). Ta giữ phán đoán con người ở trung tâm trong khi mở rộng tầm với.

Câu hỏi không phải là có nên dùng những công cụ này hay không. Chúng quá mạnh để phớt lờ. Câu hỏi là liệu ta sẽ dùng chúng một cách khôn ngoan – với con mắt sáng tỏ về chúng là gì và không là gì.

Hãy yêu cầu chúng chứng minh bạn sai. Đó mới là nhiệm vụ chúng được tạo ra để làm.


[1]: Floridi, L., Morley, J., Novelli, C., & Watson, D. (2025). What Kind of Reasoning (if any) is an LLM actually doing? On the Stochastic Nature and Abductive Appearance of Large Language Models.

[2]: Pareschi, R. (2023). Abductive Reasoning with the GPT-4 Language Model: Case Studies from Criminal Investigation, Medical Practice, Scientific Research. Sistemi Intelligenti, 35(2), 435-444.

[3]: Sharma, M., et al. (2024). Towards Understanding Sycophancy in Language Models. International Conference on Learning Representations (ICLR 2024).

[4]: Reichenbach, H. (1938). Experience and Prediction: An Analysis of the Foundations and the Structure of Knowledge. University of Chicago Press.

[5]: Calzavarini, F., & Cevolani, G. (2022). Abductive Reasoning in Cognitive Neuroscience: Weak and Strong Reverse Inference. Synthese, 200(2), Article 70.

[6]: Phân biệt này bắt nguồn từ Hans Reichenbach (1938) và vẫn là nền tảng trong triết học khoa học.


Leave a Reply

Your email address will not be published. Required fields are marked *