Trong chat thì chạy. Ra thực địa mới lòi.

Khoảng cách giữa 'chạy được trong demo' và 'sống được giữa đời thật' — và cách thu hẹp nó

Đăng2026-05-31
Đọc3 phút đọc
LoạiGhi chép thực chiến
TL;DR

Agent diễn rất tốt trên "đường sạch": dữ liệu đẹp, ca thường gặp, không ai phá ngang. Đời thật thì bẩn, lạ, đầy ca hiếm — và đó là chỗ công của agent hay gãy, gãy lặng lẽ. Cụm này gom những cú vấp ngoài thực địa, đã gỡ hết tên riêng và chi tiết đặc thù, chỉ giữ lại cái bẫy chung để bạn né trước.

Trong khung chat, mọi thứ đẹp. Bạn đưa một ví dụ gọn gàng, agent xử lý ngon, trả về đúng cái mong đợi, bạn gật đầu hài lòng. Rồi cái nó làm ra đi vào việc thật — gặp dữ liệu thiếu nửa trường, gặp người dùng nhập kiểu không ai ngờ, gặp một ca mỗi tháng xảy ra một lần. Và nó gãy. Không ồn ào — chỉ là một con số sai, một dòng rớt, một thứ đáng lẽ chặn lại mà lọt qua.

Đây không phải lỗi của một model yếu. Đây là khoảng cách cố hữu giữa diễn trên sân tậpđá trận thật — và phần lớn nỗi đau khi đưa agent vào production sống trong khoảng cách đó.

01Vì sao "demo đẹp" lừa được bạn

Cái demo lừa bạn vì nó được chơi trên đường bạn tự dọn. Bạn đưa ví dụ — và ví dụ của con người luôn là ca điển hình: dữ liệu đủ, định dạng chuẩn, không có cái rìa kỳ quặc. Agent xử lý ca điển hình rất giỏi, vì đó đúng là cái nó thấy nhiều nhất.

Nhưng production không gửi cho bạn ca điển hình. Nó gửi cái trường bị null mà "không bao giờ null", cái chuỗi dài gấp mười lần dự kiến, cái thao tác hai người làm cùng lúc. Những ca đó hiếm trên bàn demo nhưng chắc chắn xuất hiện ngoài đời — và agent gặp chúng với cùng một vẻ tự tin nó dùng cho ca thường. Tự tin, nhưng sai.

02Ba cái bẫy lặp lại

Gần như mọi cú vấp production em từng thấy rơi vào một trong ba khuôn, và cả ba đều chung một gốc — agent mạnh ở giữa, yếu ở rìa, mà lại không tự biết mình đang ở rìa:

  • Ngã ở rìa — nó xử ngon đường thường, rồi gặp ca hiếm và xử sai cũng tự tin như thế. Không có cờ báo "ca này tôi không chắc".
  • Mất cảnh giác — nó đúng hai mươi lần, bạn thôi kiểm. Lần thứ hai mươi mốt sai, và nó lọt thẳng vì bạn đã ngừng nhìn.
  • Im lặng tưởng là ổn — không có lỗi nổ ra không có nghĩa là đúng. Cái sai tệ nhất là cái không kêu, nằm im tới lúc tệ nhất mới lộ.

Ba bài sau đào sâu từng cái. Điều đáng nhớ ngay bây giờ: cả ba đều không sửa được bằng cách tìm agent thông minh hơn. Chúng sửa được bằng cách bạn đối xử với mọi cái "xong" như một giả thuyết cần kiểm ngoài đời, không phải một kết luận đã chứng minh trong chat.

03Thu hẹp khoảng cách, đừng xoá nó

Bạn sẽ không bao giờ xoá hẳn khoảng cách demo–thực địa; đời thật quá nhiều ngóc ngách để lường hết. Nhưng bạn thu hẹp được nó, bằng vài thói quen rẻ: thử agent bằng đúng những ca xấu chứ không chỉ ca đẹp; đặt cái cần đo ở ranh giới nơi công của nó chạm thế giới thật; và giữ thói quen kiểm ngay cả khi nó đã đúng nhiều lần.

Cụm này, hơn các cụm khác, là cụm của những bài học trả bằng học phí thật — kể lại đã gỡ hết chỗ riêng tư, để cái giá đó ít nhất cũng mua được cho bạn một lần né.

Hết bàiCụm 05 · 1/4
Người viết

craftagent là ghi chép của một người đang xây — kể bằng giọng cà phê, mỗi câu chuyện gói một bài học đã trả giá để học.