Trí tuệ nhân tạo có thể giải thích được là gì?

Trí tuệ nhân tạo có thể giải thích (Explainable AI) là một trong những cụm từ nghe có vẻ hay ho trong bữa tối và trở nên vô cùng quan trọng khi một thuật toán đưa ra chẩn đoán y tế, phê duyệt khoản vay hoặc gắn cờ một lô hàng. Nếu bạn từng tự hỏi, "Được rồi, nhưng tại sao mô hình lại làm như vậy...", thì bạn đã bước vào lãnh địa của Trí tuệ nhân tạo có thể giải thích rồi. Hãy cùng phân tích ý tưởng này bằng ngôn ngữ đơn giản - không có phép thuật, chỉ có phương pháp, sự đánh đổi và một vài sự thật khó chấp nhận.

Những bài viết bạn có thể muốn đọc sau bài này:

🔗 Sự thiên vị của AI là gì?
Hiểu về sự thiên vị của AI, nguồn gốc, tác động và chiến lược giảm thiểu.

🔗 AI dự đoán là gì?
Khám phá AI dự đoán, cách sử dụng phổ biến, lợi ích và hạn chế thực tế.

🔗 AI của robot hình người là gì?
Tìm hiểu cách AI hỗ trợ robot hình người, khả năng, ví dụ và thách thức.

🔗 Huấn luyện viên AI là gì?
Khám phá công việc của người đào tạo AI, các kỹ năng cần thiết và con đường sự nghiệp.

AI có thể giải thích thực sự có nghĩa là gì

Trí tuệ nhân tạo có thể giải thích được là thực hành thiết kế và sử dụng các hệ thống AI sao cho đầu ra của chúng có thể được con người hiểu được - những người cụ thể bị ảnh hưởng hoặc chịu trách nhiệm về các quyết định, chứ không chỉ là những chuyên gia toán học. NIST chắt lọc điều này thành bốn nguyên tắc: cung cấp lời giải thích, làm cho nó có ý nghĩa đối với người nghe, đảm bảo tính chính xác của lời giải thích (trung thực với mô hình) và tôn trọng giới hạn kiến thức (không phóng đại những gì hệ thống biết) [1].

Một vài lưu ý lịch sử ngắn gọn: các lĩnh vực an toàn quan trọng đã sớm thúc đẩy điều này, hướng đến các mô hình vẫn chính xác nhưng đủ dễ hiểu để người dùng tin tưởng "trong quá trình vận hành". Mục tiêu chính vẫn không thay đổi - đưa ra những giải thích hữu ích mà không làm giảm hiệu năng.

Tại sao AI có thể giải thích lại quan trọng hơn bạn nghĩ 💡

Niềm tin và sự chấp nhận - Mọi người chấp nhận các hệ thống mà họ có thể truy vấn, đặt câu hỏi và sửa chữa.
Rủi ro và an toàn - Giải thích các chế độ lỗi bề mặt trước khi chúng gây bất ngờ cho bạn ở quy mô lớn.
Kỳ vọng về quy định - Tại EU, Đạo luật AI đặt ra các nghĩa vụ minh bạch rõ ràng - ví dụ, thông báo cho mọi người khi họ tương tác với AI trong một số bối cảnh nhất định và gắn nhãn nội dung do AI tạo ra hoặc thao tác một cách thích hợp [2].

Thành thật mà nói, bảng điều khiển đẹp mắt không phải là lời giải thích. Một lời giải thích tốt sẽ giúp người dùng quyết định nên làm gì tiếp theo.

Điều gì làm cho Explainable AI hữu ích ✅

Khi bạn đánh giá bất kỳ phương pháp XAI nào, hãy yêu cầu:

Độ chính xác - Liệu lời giải thích có phản ánh hành vi của mô hình hay chỉ đơn thuần là kể một câu chuyện dễ nghe?
Tính hữu ích đối với đối tượng - Các nhà khoa học dữ liệu muốn có sự phân cấp; các bác sĩ lâm sàng muốn có các quy tắc hoặc phản chứng; khách hàng muốn có lý do rõ ràng cùng các bước tiếp theo.
Tính ổn định - Những thay đổi nhỏ về đầu vào không nên làm đảo lộn toàn bộ cốt truyện.
Khả năng thực hiện - Nếu kết quả đầu ra không như mong muốn, điều gì có thể thay đổi?
Trung thực về sự không chắc chắn - Giải thích phải nêu rõ giới hạn chứ không phải tô vẽ thêm.
Độ rõ ràng về phạm vi - Đây có phải là cục bộ cho một dự đoán hay là toàn cầu về hành vi của mô hình không?

Nếu bạn chỉ nhớ một điều: một lời giải thích hữu ích sẽ thay đổi quyết định của ai đó, chứ không chỉ tâm trạng của họ.

Những khái niệm chính bạn sẽ nghe rất nhiều 🧩

Khả năng diễn giải so với khả năng giải thích - Khả năng diễn giải: mô hình đủ đơn giản để đọc (ví dụ: một cái cây nhỏ). Khả năng giải thích: thêm một phương thức vào để làm cho mô hình phức tạp trở nên dễ đọc.
Cục bộ so với toàn cầu - Cục bộ giải thích một quyết định; toàn cầu tóm tắt hành vi tổng thể.
Hậu hoc so với nội tại - Hậu hoc giải thích một hộp đen được đào tạo; nội tại sử dụng các mô hình có thể diễn giải được.

Đúng, những ranh giới này mờ nhạt. Không sao cả; ngôn ngữ phát triển, nhưng sổ đăng ký rủi ro của bạn thì không.

Các phương pháp AI có thể giải thích phổ biến - chuyến tham quan 🎡

Đây là chuyến tham quan chớp nhoáng, mang lại cảm giác như đang tham quan bảo tàng bằng hướng dẫn âm thanh nhưng ngắn hơn.

1) Thuộc tính tính năng cộng thêm

SHAP - Gán cho mỗi đặc điểm một đóng góp vào một dự đoán cụ thể thông qua các ý tưởng lý thuyết trò chơi. Được ưa chuộng vì các giải thích bổ sung rõ ràng và quan điểm thống nhất trên các mô hình [3].

2) Mô hình thay thế cục bộ

LIME - Huấn luyện một mô hình cục bộ, đơn giản xung quanh trường hợp cần giải thích. Tóm tắt nhanh, dễ đọc với người dùng về các tính năng quan trọng gần đó. Tuyệt vời cho bản demo, hữu ích trong việc kiểm tra tính ổn định khi thực hành [4].

3) Phương pháp dựa trên độ dốc cho mạng sâu

Gradient tích hợp - Thuộc tính có tầm quan trọng bằng cách tích hợp gradient từ đường cơ sở đến đầu vào; thường được sử dụng cho thị giác và văn bản. Tiên đề hợp lý; cần cẩn thận với đường cơ sở và nhiễu [1].

4) Giải thích dựa trên ví dụ

Các giả định phản thực tế - “Thay đổi tối thiểu nào sẽ đảo ngược kết quả?” Hoàn hảo cho việc ra quyết định vì nó có thể thực hiện được một cách tự nhiên - làm X để có được Y [1].

5) Nguyên mẫu, quy tắc và sự phụ thuộc một phần

Các nguyên mẫu thể hiện các ví dụ tiêu biểu; các quy tắc nắm bắt các mẫu như nếu thu nhập > X và lịch sử = sạch thì chấp thuận; sự phụ thuộc một phần cho thấy hiệu quả trung bình của một tính năng trên một phạm vi. Những ý tưởng đơn giản, thường bị đánh giá thấp.

6) Đối với các mô hình ngôn ngữ

Thuộc tính token/spans, ví dụ được lấy và cơ sở lý luận có cấu trúc. Hữu ích, với lưu ý thông thường: bản đồ nhiệt gọn gàng không đảm bảo suy luận nhân quả [5].

Một trường hợp (tổng hợp) nhanh từ thực địa 🧪

Một công ty cho vay cỡ trung bình triển khai mô hình tăng cường độ dốc cho các quyết định tín dụng. SHAP cục bộ giúp các đại lý giải thích kết quả bất lợi (“Tỷ lệ nợ trên thu nhập và mức sử dụng tín dụng gần đây là những yếu tố chính.”) [3]. Một phản thực tế đề xuất biện pháp khắc phục khả thi (“Giảm mức sử dụng tín dụng quay vòng khoảng 10% hoặc thêm 1.500 bảng Anh tiền gửi đã được xác minh để thay đổi quyết định.”) [1]. Về nội bộ, nhóm thực hiện các bài kiểm tra ngẫu nhiên trên các hình ảnh kiểu nổi bật mà họ sử dụng trong QA để đảm bảo các điểm nổi bật không chỉ là bộ phát hiện cạnh được ngụy trang [5]. Cùng một mô hình, nhưng các giải thích khác nhau cho các đối tượng khác nhau - khách hàng, vận hành và kiểm toán viên.

Phần khó xử: lời giải thích có thể gây hiểu lầm 🙃

Một số phương pháp nổi bật trông có vẻ thuyết phục ngay cả khi chúng không liên quan đến mô hình đã được đào tạo hoặc dữ liệu. Kiểm tra tính hợp lý cho thấy một số kỹ thuật có thể không vượt qua được các bài kiểm tra cơ bản, dẫn đến hiểu lầm. Dịch: hình ảnh đẹp có thể chỉ là màn kịch. Hãy xây dựng các bài kiểm tra xác thực cho các phương pháp giải thích của bạn [5].

Ngoài ra, thưa thớt ≠ trung thực. Một lý do chỉ trong một câu có thể che giấu những tương tác lớn. Những mâu thuẫn nhỏ trong lời giải thích có thể báo hiệu sự không chắc chắn thực sự của mô hình - hoặc chỉ là nhiễu. Nhiệm vụ của bạn là phân biệt đâu là đâu.

Quản trị, chính sách và tiêu chuẩn ngày càng cao về tính minh bạch 🏛️

Các nhà hoạch định chính sách mong đợi sự minh bạch phù hợp với bối cảnh. Tại EU, Đạo luật AI nêu rõ các nghĩa vụ như thông báo cho mọi người khi họ tương tác với AI trong các trường hợp cụ thể và gắn nhãn nội dung do AI tạo ra hoặc bị thao túng bằng các thông báo và phương tiện kỹ thuật phù hợp, tùy thuộc vào các ngoại lệ (ví dụ: sử dụng hợp pháp hoặc biểu đạt được bảo vệ) [2]. Về mặt kỹ thuật, NIST cung cấp hướng dẫn theo nguyên tắc để giúp các nhóm thiết kế các giải thích mà mọi người thực sự có thể sử dụng [1].

Cách chọn phương pháp AI có thể giải thích - bản đồ nhanh 🗺️

Bắt đầu từ quyết định - Ai cần lời giải thích và để làm gì?
Phù hợp phương pháp với mô hình và phương tiện
- Phương pháp gradient cho mạng sâu trong tầm nhìn hoặc NLP [1].
- SHAP hoặc LIME cho các mô hình bảng khi bạn cần ghi nhận tính năng [3][4].
- Các phản biện cho việc khắc phục và kháng cáo đối với khách hàng [1].
Thiết lập các cổng chất lượng - Kiểm tra độ trung thực, thử nghiệm độ ổn định và đánh giá của con người [5].
Lập kế hoạch mở rộng - Các giải thích phải có thể ghi lại, kiểm tra và kiểm toán được.
Giới hạn tài liệu - Không có phương pháp nào là hoàn hảo; hãy ghi lại các chế độ lỗi đã biết.

Lưu ý nhỏ - nếu bạn không thể kiểm tra lời giải thích theo cách tương tự như kiểm tra mô hình, bạn có thể không có lời giải thích, chỉ có cảm giác.

Bảng so sánh - các tùy chọn AI có thể giải thích phổ biến 🧮

Có phần kỳ quặc một cách cố ý; cuộc sống thực tế thì lộn xộn.

Công cụ / Phương pháp	Khán giả tốt nhất	Giá	Tại sao nó hiệu quả với họ
SHAP	Nhà khoa học dữ liệu, kiểm toán viên	Miễn phí/mở	Các thuộc tính cộng gộp - nhất quán, có thể so sánh được [3].
CHANH XANH	Nhóm sản phẩm, nhà phân tích	Miễn phí/mở	Các đại diện địa phương nhanh chóng; dễ hiểu; đôi khi ồn ào [4].
Gradient tích hợp	Các kỹ sư ML trên mạng sâu	Miễn phí/mở	Các phép gán dựa trên độ dốc với các tiên đề hợp lý [1].
Những điều trái ngược	Người dùng cuối, tuân thủ, vận hành	Hỗn hợp	Trả lời trực tiếp những gì cần thay đổi; siêu thực tế [1].
Danh sách quy tắc / Cây	Chủ sở hữu rủi ro, người quản lý	Miễn phí/mở	Khả năng diễn giải nội tại; tóm tắt toàn cầu.
Sự phụ thuộc một phần	Phát triển mô hình, QA	Miễn phí/mở	Hiển thị hiệu ứng trung bình trên nhiều phạm vi.
Nguyên mẫu & ví dụ	Nhà thiết kế, người đánh giá	Miễn phí/mở	Ví dụ cụ thể, thân thiện với con người; dễ liên tưởng.
Nền tảng công cụ	Nhóm nền tảng, quản trị	Thuộc về thương mại	Giám sát + giải thích + kiểm toán tại một nơi.

Đúng vậy, các tế bào không đồng đều. Đó chính là sự sống.

Quy trình làm việc đơn giản cho Explainable AI trong sản xuất 🛠️

Bước 1 - Xác định câu hỏi.
Xác định nhu cầu của ai là quan trọng nhất. Khả năng giải thích đối với một nhà khoa học dữ liệu không giống như một lá thư kêu gọi đối với khách hàng.

Bước 2 - Chọn phương pháp theo ngữ cảnh.

Mô hình rủi ro dạng bảng cho các khoản vay - bắt đầu với SHAP cho địa phương và toàn cầu; thêm các phản thực tế để giải quyết [3][1].
Bộ phân loại tầm nhìn - sử dụng Gradient tích hợp hoặc tương tự; thêm kiểm tra tính hợp lý để tránh những cạm bẫy nổi bật [1][5].

Bước 3 - Xác thực các giải thích.
Thực hiện kiểm tra tính nhất quán của giải thích; nhiễu đầu vào; kiểm tra xem các đặc điểm quan trọng có khớp với kiến thức chuyên môn hay không. Nếu các đặc điểm hàng đầu của bạn bị lệch lạc trong mỗi lần đào tạo lại, hãy tạm dừng.

Bước 4 - Làm cho các giải thích trở nên hữu ích.
Lý do rõ ràng, dễ hiểu kèm theo biểu đồ. Bao gồm các hành động tốt nhất tiếp theo. Cung cấp liên kết đến các kết quả thách thức khi thích hợp - đây chính xác là những gì các quy tắc minh bạch hướng đến [2].

Bước 5 - Giám sát và ghi chép.
Theo dõi sự ổn định của giải thích theo thời gian. Giải thích sai lệch là một tín hiệu rủi ro, không phải là lỗi thẩm mỹ.

Phân tích sâu 1: Giải thích cục bộ và toàn cục trong thực tế 🔍

Thông tin địa phương giúp một người hiểu được lý do tại sao vụ việc của họ lại có quyết định quan trọng như vậy trong bối cảnh nhạy cảm.
Global giúp nhóm của bạn đảm bảo hành vi học được của mô hình phù hợp với chính sách và kiến thức chuyên môn.

Thực hiện cả hai. Bạn có thể bắt đầu tại địa phương cho các hoạt động dịch vụ, sau đó thêm giám sát toàn cầu để đánh giá sự trôi dạt và tính công bằng.

Phân tích sâu 2: Các trường hợp trái ngược để kháng cáo và giải quyết tranh chấp 🔄

Mọi người muốn biết sự thay đổi tối thiểu để có được kết quả tốt hơn. Giải thích phản thực tế làm chính xác điều đó -thay đổi các yếu tố cụ thể này và kết quả sẽ đảo ngược [1]. Cẩn thận: các giải thích phản thực tế phải tôn trọng tính khả thi và công bằng. Bảo ai đó thay đổi một thuộc tính không thể thay đổi không phải là một kế hoạch, mà là một dấu hiệu cảnh báo.

Phân tích sâu 3: Kiểm tra tính hợp lý của độ nổi bật 🧪

Nếu bạn sử dụng bản đồ nổi bật hoặc gradient, hãy chạy kiểm tra tính hợp lý. Một số kỹ thuật tạo ra các bản đồ gần như giống hệt nhau ngay cả khi bạn ngẫu nhiên hóa các tham số mô hình - nghĩa là chúng có thể làm nổi bật các cạnh và kết cấu, chứ không phải bằng chứng đã học. Bản đồ nhiệt tuyệt đẹp, câu chuyện gây hiểu lầm. Tích hợp kiểm tra tự động vào CI/CD [5].

Câu hỏi thường gặp xuất hiện trong mọi cuộc họp 🤓

H: AI Explainable có giống với công bằng không?
Đ: Không. Giải thích giúp bạn thấy được hành vi; công bằng là một đặc tính bạn phải kiểm tra và thực thi. Có liên quan, không giống hệt nhau.

H: Liệu các mô hình đơn giản hơn có luôn tốt hơn không?
Đ: Đôi khi. Nhưng đơn giản mà sai thì vẫn là sai. Hãy chọn mô hình đơn giản nhất đáp ứng được các yêu cầu về hiệu suất và quản trị.

H: Liệu giải thích có làm rò rỉ IP không?
Đ: Có thể. Hãy hiệu chỉnh chi tiết theo đối tượng và rủi ro; ghi lại những gì bạn tiết lộ và lý do.

H: Chúng ta có thể chỉ hiển thị mức độ quan trọng của tính năng và coi như xong không?
Đ: Không hẳn. Các thanh mức độ quan trọng mà không có ngữ cảnh hoặc giải thích chỉ mang tính trang trí.

Quá dài, Phiên bản chưa đọc và nhận xét cuối cùng 🌯

AI có thể giải thích là lĩnh vực giúp hành vi của mô hình trở nên dễ hiểu và hữu ích đối với những người sử dụng nó. Những lời giải thích tốt nhất phải có độ trung thực, ổn định và hướng đến đối tượng rõ ràng. Các phương pháp như SHAP, LIME, Integrated Gradients và phản thực tế đều có điểm mạnh - hãy sử dụng chúng một cách có chủ đích, kiểm tra chúng một cách nghiêm ngặt và trình bày chúng bằng ngôn ngữ mà mọi người có thể hiểu được. Và hãy nhớ rằng, hình ảnh bóng bẩy có thể chỉ là màn kịch; hãy yêu cầu bằng chứng cho thấy lời giải thích của bạn phản ánh hành vi thực sự của mô hình. Hãy đưa khả năng giải thích vào vòng đời mô hình của bạn - nó không phải là một phần bổ sung hào nhoáng, mà là một phần của cách bạn phân phối sản phẩm một cách có trách nhiệm.

Thành thật mà nói, nó giống như việc cho mô hình của bạn một giọng nói. Đôi khi nó lẩm bẩm; đôi khi nó giải thích quá mức; đôi khi nó nói chính xác những gì bạn cần nghe. Nhiệm vụ của bạn là giúp nó nói đúng điều, với đúng người, vào đúng thời điểm. Và thêm vào một hoặc hai cái nhãn hay ho nữa. 🎯

Tài liệu tham khảo

[1] NIST IR 8312 - Bốn nguyên tắc của trí tuệ nhân tạo có thể giải thích được. Viện Tiêu chuẩn và Công nghệ Quốc gia. đọc thêm

[2] Quy định (EU) 2024/1689 - Đạo luật trí tuệ nhân tạo (Công báo/EUR-Lex). đọc thêm

[3] Lundberg & Lee (2017) - “Một cách tiếp cận thống nhất để giải thích các dự đoán của mô hình.” arXiv. đọc thêm

[4] Ribeiro, Singh & Guestrin (2016) - “Tại sao tôi nên tin bạn?” Giải thích các dự đoán của bất kỳ bộ phân loại nào. arXiv. đọc thêm

[5] Adebayo et al. (2018) - “Kiểm tra tính hợp lý cho bản đồ nổi bật.” NeurIPS (bài báo PDF). đọc thêm

Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Quay lại blog