Làm thế nào để đo lường hiệu suất AI?

Nếu bạn từng tung ra một mô hình trông rất ấn tượng trên máy tính xách tay nhưng lại gặp trục trặc trong sản xuất, bạn đã biết bí quyết: cách đo lường hiệu suất AI không phải là một chỉ số thần kỳ duy nhất. Đó là một hệ thống các bước kiểm tra gắn liền với các mục tiêu thực tế. Độ chính xác thì tốt, nhưng độ tin cậy, tính an toàn và tác động đến kinh doanh thì quan trọng hơn.

Những bài viết bạn có thể muốn đọc sau bài này:

🔗 Cách nói chuyện với AI
Hướng dẫn giao tiếp hiệu quả với AI để đạt được kết quả tốt hơn một cách nhất quán.

🔗 AI đang nhắc nhở điều gì?
Giải thích cách lời nhắc định hình phản hồi của AI và chất lượng đầu ra.

🔗 Ghi nhãn dữ liệu AI là gì
Tổng quan về cách gán nhãn chính xác cho dữ liệu để đào tạo mô hình.

🔗 Đạo đức AI là gì
Giới thiệu các nguyên tắc đạo đức hướng dẫn phát triển và triển khai AI có trách nhiệm.

Điều gì tạo nên hiệu suất AI tốt? ✅

Phiên bản ngắn gọn: hiệu suất AI tốt có nghĩa là hệ thống của bạn hữu ích, đáng tin cậy và có thể lặp lại trong điều kiện hỗn loạn và thay đổi. Cụ thể:

Chất lượng nhiệm vụ - đưa ra câu trả lời đúng vì lý do chính đáng.
Hiệu chuẩn - điểm số tin cậy phù hợp với thực tế, để bạn có thể hành động thông minh.
Độ bền - có thể chịu được sự trôi dạt, các trường hợp ngoại lệ và nhiễu đối kháng.
An toàn và công bằng - điều này giúp tránh các hành vi gây hại, thiên vị hoặc không tuân thủ quy định.
Hiệu quả - nó đủ nhanh, đủ rẻ và đủ ổn định để hoạt động ở quy mô lớn.
Tác động đến doanh nghiệp - nó thực sự tác động đến KPI mà bạn quan tâm.

Nếu bạn muốn có một điểm tham chiếu chính thức để liên kết các số liệu và rủi ro, Khung quản lý rủi ro AI của NIST là ngôi sao chỉ đường vững chắc cho việc đánh giá hệ thống đáng tin cậy. [1]

Công thức cấp cao về cách đo lường hiệu suất AI 🍳

Hãy suy nghĩ theo ba lớp:

Số liệu nhiệm vụ - tính chính xác cho loại nhiệm vụ: phân loại, hồi quy, xếp hạng, tạo, kiểm soát, v.v.
Số liệu hệ thống - độ trễ, thông lượng, chi phí cho mỗi cuộc gọi, tỷ lệ lỗi, cảnh báo trôi dạt, SLA về thời gian hoạt động.
Số liệu kết quả - kết quả kinh doanh và người dùng mà bạn thực sự mong muốn: chuyển đổi, duy trì, sự cố an toàn, khối lượng đánh giá thủ công, khối lượng phiếu yêu cầu.

Một kế hoạch đo lường hiệu quả sẽ cố tình kết hợp cả ba yếu tố này. Nếu không, bạn sẽ có một tên lửa không bao giờ rời bệ phóng.

Các số liệu cốt lõi theo loại vấn đề - và khi nào nên sử dụng 🎯

1) Phân loại

Độ chính xác, Thu hồi, F1 - bộ ba ngày đầu tiên. F1 là giá trị trung bình hài hòa của độ chính xác và thu hồi; hữu ích khi các lớp mất cân bằng hoặc chi phí không đối xứng. [2]
ROC-AUC - xếp hạng ngưỡng không phụ thuộc của các bộ phân loại; khi kết quả dương tính hiếm, hãy kiểm tra cả PR-AUC. [2]
Độ chính xác cân bằng - mức trung bình của việc thu hồi trên các lớp; tiện dụng cho các nhãn bị lệch. [2]

Lưu ý: Chỉ riêng độ chính xác cũng có thể gây hiểu lầm nghiêm trọng do mất cân bằng. Nếu 99% người dùng là hợp lệ, một mô hình luôn hợp lệ sẽ đạt 99% và khiến nhóm chống gian lận của bạn thất bại trước giờ nghỉ trưa.

2) Hồi quy

MAE cho lỗi dễ đọc đối với con người; RMSE khi bạn muốn trừng phạt những lỗi lớn; R² cho phương sai được giải thích. Sau đó kiểm tra tính hợp lệ của phân phối và biểu đồ phần dư. [2]
(Sử dụng các đơn vị thân thiện với lĩnh vực để các bên liên quan thực sự có thể cảm nhận được lỗi.)

3) Xếp hạng, truy xuất, đề xuất

nDCG - quan tâm đến vị trí và mức độ liên quan được phân loại; tiêu chuẩn cho chất lượng tìm kiếm.
MRR - tập trung vào tốc độ xuất hiện mục liên quan đầu tiên (rất tốt cho các nhiệm vụ “tìm một câu trả lời tốt”).
(Các tài liệu tham khảo về triển khai và ví dụ đã thực hiện có trong các thư viện đo lường chính thống.) [2]

4) Tạo và tóm tắt văn bản

BLEU và ROUGE - số liệu chồng chéo cổ điển; hữu ích làm cơ sở.
Các số liệu dựa trên nhúng (ví dụ: BERTScore) thường tương quan tốt hơn với đánh giá của con người; luôn kết hợp với xếp hạng của con người về phong cách, độ trung thực và độ an toàn. [4]

5) Trả lời câu hỏi

Phù hợp chính xác và F1 cấp mã thông báo là phổ biến đối với QA trích xuất; nếu câu trả lời phải trích dẫn nguồn, hãy đo cả cơ sở (kiểm tra hỗ trợ câu trả lời).

Hiệu chuẩn, sự tự tin và ống kính Brier 🎚️

Điểm tin cậy là nơi nhiều hệ thống âm thầm hoạt động. Bạn cần những xác suất phản ánh thực tế để bộ phận vận hành có thể thiết lập ngưỡng, định tuyến đến người dùng hoặc định giá rủi ro.

Đường cong hiệu chuẩn - trực quan hóa xác suất dự đoán so với tần suất thực nghiệm.
Điểm Brier - một quy tắc chấm điểm thích hợp cho độ chính xác xác suất; điểm càng thấp càng tốt. Nó đặc biệt hữu ích khi bạn quan tâm đến chất lượng của xác suất, chứ không chỉ là thứ hạng. [3]

Ghi chú thực địa: một F1 "kém hơn" một chút nhưng được hiệu chỉnh tốt hơn nhiều có thể đáng kể việc phân loại bệnh nhân - vì cuối cùng mọi người có thể tin tưởng vào điểm số.

An toàn, thiên vị và công bằng - hãy đo lường những gì quan trọng 🛡️⚖️

Một hệ thống có thể chính xác về tổng thể nhưng vẫn gây hại cho một số nhóm cụ thể. Theo dõi được nhóm lại và tiêu chí công bằng:

Sự cân bằng nhân khẩu học - tỷ lệ dương tính ngang nhau giữa các nhóm.
Tỷ lệ cược cân bằng / Cơ hội bình đẳng - tỷ lệ lỗi hoặc tỷ lệ dương tính thực sự bằng nhau giữa các nhóm; sử dụng những điều này để phát hiện và quản lý sự đánh đổi, chứ không phải như những dấu hiệu đạt/không đạt một lần duy nhất. [5]

Mẹo thực tế: hãy bắt đầu với bảng thông tin phân chia các số liệu cốt lõi theo các thuộc tính chính, sau đó thêm các số liệu công bằng cụ thể theo yêu cầu của chính sách. Nghe có vẻ cầu kỳ, nhưng lại tiết kiệm hơn so với việc phải xử lý một sự cố.

LLM và RAG - một cẩm nang đo lường thực sự hiệu quả 📚🔍

Đo lường các hệ thống sinh sản thì… khá rắc rối. Hãy làm thế này:

Xác định kết quả cho mỗi trường hợp sử dụng: tính chính xác, tính hữu ích, tính vô hại, tuân thủ phong cách, giọng điệu phù hợp với thương hiệu, căn cứ trích dẫn, chất lượng từ chối.
Tự động hóa các đánh giá cơ sở bằng các khuôn khổ mạnh mẽ (ví dụ: công cụ đánh giá trong ngăn xếp của bạn) và duy trì phiên bản của chúng theo tập dữ liệu của bạn.
Thêm số liệu ngữ nghĩa (dựa trên nhúng) cộng với số liệu chồng chéo (BLEU/ROUGE) để đảm bảo tính hợp lý. [4]
Cơ sở công cụ trong RAG: tỷ lệ truy xuất thành công, độ chính xác/thu hồi ngữ cảnh, chồng chéo hỗ trợ trả lời.
Đánh giá thủ công có sự đồng thuận - đo lường tính nhất quán của người đánh giá (ví dụ: hệ số kappa của Cohen hoặc hệ số kappa của Fleiss) để đảm bảo nhãn mác không chỉ là cảm nhận chủ quan.

Phần thưởng: ghi lại phần trăm độ trễ và mã thông báo hoặc chi phí tính toán cho mỗi tác vụ. Không ai thích một câu trả lời đầy chất thơ đến vào thứ Ba tuần sau.

Bảng so sánh - các công cụ giúp bạn đo lường hiệu suất AI 🛠️📊

(Đúng là cố tình hơi lộn xộn - ghi chú thật thì lộn xộn.)

Dụng cụ	Khán giả tốt nhất	Giá	Tại sao nó hiệu quả - tóm tắt nhanh
số liệu scikit-learn	Các học viên ML	Miễn phí	Các triển khai chuẩn cho phân loại, hồi quy, xếp hạng; dễ dàng tích hợp vào các bài kiểm tra. [2]
Đánh giá MLflow / GenAI	Các nhà khoa học dữ liệu, MLOps	Miễn phí + trả phí	Chạy tập trung, số liệu tự động, giám khảo LLM, người chấm điểm tùy chỉnh; ghi nhật ký hiện vật một cách rõ ràng.
Rõ ràng	Các nhóm muốn có bảng thông tin nhanh	OSS + đám mây	Hơn 100 số liệu, báo cáo về độ trôi và chất lượng, móc giám sát - hình ảnh đẹp mắt khi cần thiết.
Trọng số và độ lệch	Các tổ chức thử nghiệm nặng	Gói miễn phí	So sánh song song, tập dữ liệu đánh giá, giám khảo; bảng biểu và dấu vết khá gọn gàng.
LangSmith	Người xây dựng ứng dụng LLM	Trả	Theo dõi từng bước, kết hợp đánh giá của con người với quy tắc hoặc người đánh giá LLM; tuyệt vời cho RAG.
TruLens	Những người yêu thích đánh giá LLM nguồn mở	OSS	Chức năng phản hồi để đánh giá mức độ độc hại, tính thực tế, tính liên quan; tích hợp ở mọi nơi.
Kỳ vọng lớn	Các tổ chức coi trọng chất lượng dữ liệu	OSS	Chính thức hóa kỳ vọng về dữ liệu - vì dữ liệu xấu sẽ phá hỏng mọi số liệu.
Kiểm tra sâu	Kiểm thử và CI/CD cho ML	OSS + đám mây	Kiểm tra bằng pin để phát hiện sự trôi dữ liệu, các vấn đề về mô hình và giám sát; các biện pháp bảo vệ tốt.

Giá cả có thể thay đổi - hãy kiểm tra tài liệu. Và vâng, bạn có thể trộn chúng mà không cần cảnh sát kiểm tra.

Ngưỡng, chi phí và đường cong quyết định - bí quyết thành công 🧪

Một điều kỳ lạ nhưng có thật: hai mô hình có cùng ROC-AUC có thể có giá trị kinh doanh rất khác nhau tùy thuộc vào ngưỡng và tỷ lệ chi phí.

Bảng tính nhanh để xây dựng:

Đặt chi phí cho kết quả dương tính giả so với kết quả âm tính giả bằng tiền hoặc thời gian.
Quét ngưỡng và tính toán chi phí dự kiến cho mỗi quyết định 1k.
Chọn chi phí dự kiến tối thiểu , sau đó khóa ngưỡng này bằng tính năng giám sát.

Sử dụng đường cong PR khi kết quả dương tính hiếm, đường cong ROC cho hình dạng chung và đường cong hiệu chuẩn khi quyết định dựa trên xác suất. [2][3]

Ví dụ nhỏ: một mô hình phân loại yêu cầu hỗ trợ với F1 khiêm tốn nhưng khả năng hiệu chỉnh tuyệt vời đã giảm thiểu việc chuyển hướng thủ công sau khi bộ phận vận hành chuyển từ ngưỡng cứng sang định tuyến theo cấp bậc (ví dụ: “tự động giải quyết”, “xem xét bởi con người”, “leo thang”) gắn liền với các dải điểm đã được hiệu chỉnh.

Giám sát trực tuyến, trôi dạt và cảnh báo 🚨

Đánh giá ngoại tuyến là sự khởi đầu, không phải là kết thúc. Trong quá trình sản xuất:

Theo dõi độ lệch đầu vào, độ lệch đầu ravà sự suy giảm hiệu suất theo từng phân đoạn.
Thiết lập các biện pháp kiểm tra an toàn - tỷ lệ ảo giác tối đa, ngưỡng độc tính, chênh lệch công bằng.
Thêm bảng thông tin Canary để biết độ trễ p95, thời gian chờ và chi phí cho mỗi yêu cầu.
Sử dụng các thư viện được xây dựng riêng để tăng tốc quá trình này; chúng cung cấp các nguyên mẫu về độ trôi, chất lượng và giám sát ngay khi cài đặt.

Một phép ẩn dụ nhỏ nhưng có phần thiếu sót: hãy nghĩ về mô hình của bạn như men làm bánh mì chua - bạn không chỉ nướng một lần rồi bỏ đi; bạn cần cho men ăn, quan sát, ngửi và đôi khi phải bắt đầu lại từ đầu.

Đánh giá của con người không bao giờ sụp đổ 🍪

Khi mọi người chấm điểm sản phẩm, quá trình này quan trọng hơn bạn nghĩ.

Viết các tiêu chí đánh giá chặt chẽ kèm theo ví dụ về đạt, gần đạt và trượt.
Chọn mẫu ngẫu nhiên và mù khi có thể.
Đo lường mức độ nhất trí giữa những người đánh giá (ví dụ: hệ số kappa của Cohen cho hai người đánh giá, hệ số kappa của Fleiss cho nhiều người đánh giá) và cập nhật tiêu chí đánh giá nếu mức độ nhất trí giảm sút.

Điều này giúp nhãn hiệu của bạn không bị thay đổi theo tâm trạng hoặc nguồn cung cấp cà phê.

Phân tích chuyên sâu: Cách đo lường hiệu suất AI cho LLM trong RAG 🧩

Chất lượng truy xuất - recall@k, precision@k, nDCG; phạm vi bao phủ của các sự kiện về vàng. [2]
Trả lời trung thực - trích dẫn và xác minh kiểm tra, điểm căn cứ, thăm dò đối nghịch.
Sự hài lòng của người dùng - ngón tay cái, hoàn thành nhiệm vụ, khoảng cách chỉnh sửa từ bản nháp được đề xuất.
An toàn - độc tính, rò rỉ PII, tuân thủ chính sách.
Chi phí & độ trễ - token, số lần truy cập bộ nhớ cache, độ trễ p95 và p99.

Liên kết những điều này với các hành động kinh doanh: nếu độ tin cậy giảm xuống dưới một mức nào đó, hãy tự động chuyển sang chế độ nghiêm ngặt hoặc xem xét của con người.

Một hướng dẫn đơn giản để bắt đầu ngay hôm nay 🪄

Xác định công việc - viết một câu: AI phải làm gì và làm cho ai.
Chọn 2–3 số liệu nhiệm vụ - cộng với hiệu chuẩn và ít nhất một phần công bằng. [2][3][5]
Xác định ngưỡng dựa trên chi phí - đừng đoán mò.
Tạo một bộ dữ liệu đánh giá nhỏ - 100-500 ví dụ được dán nhãn phản ánh cơ cấu sản xuất.
Tự động hóa việc đánh giá - đánh giá/giám sát vào CI để mọi thay đổi đều chạy cùng một lần kiểm tra.
Giám sát trong quá trình sản xuất - độ trôi, độ trễ, chi phí, cờ sự cố.
Xem xét hàng tháng - loại bỏ những số liệu không ai sử dụng; thêm những số liệu trả lời được những câu hỏi thực tế.
Ghi lại các quyết định - bảng điểm trực quan mà nhóm của bạn thực sự đọc.

Vâng, đúng là như vậy. Và nó hiệu quả.

Những lỗi thường gặp và cách tránh chúng 🕳️🐇

Quá phù hợp với một số liệu duy nhất - sử dụng một rổ số liệu phù hợp với bối cảnh quyết định. [1][2]
Bỏ qua hiệu chuẩn - sự tự tin mà không có hiệu chuẩn chỉ là sự vênh váo. [3]
Không phân đoạn - luôn phân chia theo nhóm người dùng, địa lý, thiết bị, ngôn ngữ. [5]
Chi phí không xác định - nếu bạn không tính toán chi phí cho các lỗi, bạn sẽ chọn ngưỡng sai.
Sự trôi dạt đánh giá của con người - đo lường sự đồng thuận, làm mới tiêu chí đánh giá, đào tạo lại người đánh giá.
Không có thiết bị an toàn - hãy thêm tính công bằng, độc tính và kiểm tra chính sách ngay bây giờ, không phải sau này. [1][5]

Cụm từ bạn tìm đến: cách đo lường hiệu suất AI - Quá dài, tôi không đọc hết 🧾

Bắt đầu với kết quả rõ ràng, sau đó xếp chồng các nhiệm vụ, hệ thốngvà kinh doanh . [1]
Sử dụng các số liệu phù hợp cho công việc - F1 và ROC-AUC để phân loại; nDCG/MRR để xếp hạng; chồng chéo + số liệu ngữ nghĩa để tạo ra (ghép nối với con người). [2][4]
Hiệu chỉnh xác suất của bạn và định giá lỗi của bạn để chọn ngưỡng. [2][3]
Thêm tính công bằng với các lát cắt nhóm và quản lý các sự đánh đổi một cách rõ ràng. [5]
Tự động đánh giá và giám sát để bạn có thể lặp lại mà không sợ hãi.

Bạn biết đấy - hãy đo lường những gì quan trọng, nếu không bạn sẽ chỉ cải thiện những gì không quan trọng.

Tài liệu tham khảo

[1] NIST. Khung quản lý rủi ro AI (AI RMF). đọc thêm
[2] scikit-learn. Đánh giá mô hình: định lượng chất lượng dự đoán (Hướng dẫn sử dụng). đọc thêm
[3] scikit-learn. Hiệu chuẩn xác suất (đường cong hiệu chuẩn, điểm Brier). đọc thêm
[4] Papineni et al. (2002). BLEU: Phương pháp đánh giá tự động dịch máy. ACL. đọc thêm
[5] Hardt, Price, Srebro (2016). Bình đẳng cơ hội trong học có giám sát. NeurIPS. đọc thêm

Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Quay lại blog