Agent giỏi ở giữa, ngã ở rìa — và ngã cũng tự tin y hệt

Ca hiếm thì ít gặp nhưng đắt, và agent không có cờ báo 'chỗ này tôi không chắc'

Đăng2026-05-31
Đọc2 phút đọc
LoạiGhi chép thực chiến
TL;DR

Agent xử đường thường rất ngon, rồi gặp ca rìa — trường rỗng, định dạng lạ, đầu vào cực đoan — và xử sai với đúng vẻ tự tin nó dùng cho ca thường. Ca rìa hiếm nên dễ lọt khi thử, nhưng đắt khi nổ. Cách né: chủ động thử nó bằng ca xấu, đừng chỉ thử ca đẹp.

Bạn nhờ agent viết đoạn xử lý một danh sách. Bạn thử với một danh sách mẫu, chạy ngon. Nó tự tin báo xong. Hai tuần sau, một danh sách rỗng đi qua — và đoạn đó nổ, hoặc tệ hơn, lặng lẽ trả về một kết quả vô nghĩa. Cái rìa "danh sách rỗng" chưa bao giờ xuất hiện trên bàn thử của bạn, nên cũng chưa bao giờ xuất hiện trong đầu nó.

Điều đáng sợ không phải nó ngã. Là nó ngã với cùng một giọng tự tin lúc nó đúng. Không có một cái nhíu mày "ờ ca này hơi lạ". Với agent, ca rìa và ca thường trông y hệt nhau — cho tới lúc kết quả lòi ra là sai.

01Hiếm không có nghĩa là rẻ

Ca thường (99% lượt) agent xử ngon
Ca rìa (1% lượt) hiếm gặp · nhưng nổ thì đắt

Cái 1% đó dễ bị gạt đi lúc thử — "ca hiếm mà, tính sau". Nhưng tỉ lệ hiếm không kéo theo hậu quả nhẹ. Một ca rìa lọt vào production thường là cái gây ra dòng dữ liệu hỏng, con số sai trên báo cáo, hay sự cố lúc hai giờ sáng. Bạn tiết kiệm năm phút lúc thử, để rồi trả bằng một buổi truy lỗi sau.

02Thử bằng ca xấu, không chỉ ca đẹp

Cách chữa không phải tìm agent thông minh hơn — mà đổi cái bạn ném cho nó để thử. Bản năng con người là thử bằng ví dụ đẹp, vì ví dụ đẹp dễ nghĩ ra và dễ thấy nó "đúng". Nhưng đúng trên ca đẹp gần như không nói gì về độ vững ngoài đời.

Nên trước khi tin một thứ agent làm, hãy chủ động hỏi: cái rìa ở đây là gì? Trường nào có thể rỗng, null, dài bất thường? Đầu vào cực đoan trông ra sao? Điều gì xảy ra khi hai thứ đến cùng lúc? Rồi ném đúng mấy ca đó cho nó — hoặc bắt nó tự liệt kê các ca rìa của chính việc nó vừa làm.

Một câu hỏi gọn để thành thói quen: "cái này gãy ở đâu nếu đầu vào không đẹp như tôi vừa thử?". Hỏi câu đó lúc còn trong chat thì rẻ. Để production hỏi hộ bạn thì đắt — và nó luôn hỏi vào lúc tệ nhất.

Hết bàiCụm 05 · 2/4
Người viết

craftagent là ghi chép của một người đang xây — kể bằng giọng cà phê, mỗi câu chuyện gói một bài học đã trả giá để học.