cách đo lường hiệu suất AI

Làm thế nào để đo lường hiệu suất AI?

Nếu bạn đã từng xuất xưởng một mô hình xuất sắc trên máy tính xách tay nhưng lại gặp trục trặc khi đưa vào sản xuất, bạn đã biết bí quyết: cách đo lường hiệu suất AI không phải là một thước đo kỳ diệu. Nó là một hệ thống kiểm tra gắn liền với các mục tiêu thực tế. Độ chính xác thì dễ thương. Độ tin cậy, an toàn và tác động kinh doanh thì tốt hơn.

Những bài viết bạn có thể muốn đọc sau bài này:

🔗 Cách nói chuyện với AI
Hướng dẫn giao tiếp hiệu quả với AI để đạt được kết quả tốt hơn một cách nhất quán.

🔗 AI đang nhắc nhở điều gì?
Giải thích cách lời nhắc định hình phản hồi của AI và chất lượng đầu ra.

🔗 Ghi nhãn dữ liệu AI là gì
Tổng quan về cách gán nhãn chính xác cho dữ liệu để đào tạo mô hình.

🔗 Đạo đức AI là gì
Giới thiệu các nguyên tắc đạo đức hướng dẫn phát triển và triển khai AI có trách nhiệm.


Điều gì tạo nên hiệu suất AI tốt? ✅

Phiên bản ngắn gọn: hiệu suất AI tốt có nghĩa là hệ thống của bạn hữu ích, đáng tin cậy và có thể lặp lại trong điều kiện hỗn loạn và thay đổi. Cụ thể:

  • Chất lượng nhiệm vụ - đưa ra câu trả lời đúng vì lý do chính đáng.

  • Hiệu chuẩn - điểm số tin cậy phù hợp với thực tế, để bạn có thể hành động thông minh.

  • Độ bền - có thể chịu được sự trôi dạt, các trường hợp ngoại lệ và nhiễu đối kháng.

  • An toàn và công bằng - tránh hành vi có hại, thiên vị hoặc không tuân thủ.

  • Hiệu quả - đủ nhanh, đủ rẻ và đủ ổn định để chạy ở quy mô lớn.

  • Tác động đến doanh nghiệp - nó thực sự tác động đến KPI mà bạn quan tâm.

Nếu bạn muốn có một điểm tham chiếu chính thức để liên kết các số liệu và rủi ro, Khung quản lý rủi ro AI của NIST là ngôi sao chỉ đường vững chắc cho việc đánh giá hệ thống đáng tin cậy. [1]

 

Đo lường hiệu suất AI

Công thức cấp cao về cách đo lường hiệu suất AI 🍳

Hãy suy nghĩ theo ba lớp :

  1. Số liệu nhiệm vụ - tính chính xác cho loại nhiệm vụ: phân loại, hồi quy, xếp hạng, tạo, kiểm soát, v.v.

  2. Số liệu hệ thống - độ trễ, thông lượng, chi phí cho mỗi cuộc gọi, tỷ lệ lỗi, cảnh báo trôi dạt, SLA về thời gian hoạt động.

  3. Số liệu kết quả - kết quả kinh doanh và người dùng mà bạn thực sự mong muốn: chuyển đổi, duy trì, sự cố an toàn, khối lượng đánh giá thủ công, khối lượng phiếu yêu cầu.

Một kế hoạch đo lường hiệu quả sẽ cố tình kết hợp cả ba yếu tố này. Nếu không, bạn sẽ có một tên lửa không bao giờ rời bệ phóng.


Các số liệu cốt lõi theo loại vấn đề - và khi nào nên sử dụng 🎯

1) Phân loại

  • Độ chính xác, Thu hồi, F1 - bộ ba ngày đầu tiên. F1 là giá trị trung bình hài hòa của độ chính xác và thu hồi; hữu ích khi các lớp mất cân bằng hoặc chi phí không đối xứng. [2]

  • ROC-AUC - xếp hạng ngưỡng không phụ thuộc của các bộ phân loại; khi kết quả dương tính hiếm, hãy kiểm tra cả PR-AUC . [2]

  • Độ chính xác cân bằng - mức trung bình của việc thu hồi trên các lớp; tiện dụng cho các nhãn bị lệch. [2]

Lưu ý: Chỉ riêng độ chính xác cũng có thể gây hiểu lầm nghiêm trọng do mất cân bằng. Nếu 99% người dùng là hợp lệ, một mô hình luôn hợp lệ sẽ đạt 99% và khiến nhóm chống gian lận của bạn thất bại trước giờ nghỉ trưa.

2) Hồi quy

  • MAE dùng để chỉ lỗi dễ hiểu; RMSE dùng để chỉ lỗi sai lớn; dùng để chỉ phương sai được giải thích. Sau đó, kiểm tra tính hợp lý của phân phối và biểu đồ dư. [2]
    (Sử dụng các đơn vị phù hợp với miền để các bên liên quan có thể thực sự cảm nhận được lỗi.)

3) Xếp hạng, truy xuất, đề xuất

  • nDCG - quan tâm đến vị trí và mức độ liên quan được phân loại; tiêu chuẩn cho chất lượng tìm kiếm.

  • MRR - tập trung vào tốc độ xuất hiện của mục liên quan đầu tiên (tuyệt vời cho các nhiệm vụ "tìm một câu trả lời hay").
    (Tài liệu tham khảo triển khai và ví dụ thực tế có trong các thư viện số liệu chính thống.) [2]

4) Tạo và tóm tắt văn bản

  • BLEUROUGE - số liệu chồng chéo cổ điển; hữu ích làm cơ sở.

  • Các số liệu dựa trên nhúng (ví dụ: BERTScore ) thường tương quan tốt hơn với đánh giá của con người; luôn kết hợp với xếp hạng của con người về phong cách, độ trung thực và độ an toàn. [4]

5) Trả lời câu hỏi

  • Phù hợp chính xácF1 cấp mã thông báo là phổ biến đối với QA trích xuất; nếu câu trả lời phải trích dẫn nguồn, hãy đo cả cơ sở (kiểm tra hỗ trợ câu trả lời).


Hiệu chuẩn, sự tự tin và ống kính Brier 🎚️

Điểm tin cậy là nơi nhiều hệ thống âm thầm hoạt động. Bạn cần những xác suất phản ánh thực tế để bộ phận vận hành có thể thiết lập ngưỡng, định tuyến đến người dùng hoặc định giá rủi ro.

  • Đường cong hiệu chuẩn - trực quan hóa xác suất dự đoán so với tần suất thực nghiệm.

  • Điểm Brier - một quy tắc chấm điểm chính xác cho độ chính xác xác suất; càng thấp càng tốt. Nó đặc biệt hữu ích khi bạn quan tâm đến chất lượng của xác suất, không chỉ là thứ hạng. [3]

Ghi chú thực tế: F1 “kém” hơn một chút nhưng hiệu chuẩn tốt hơn nhiều có thể đáng kể việc phân loại - vì cuối cùng mọi người có thể tin tưởng vào điểm số.


An toàn, thiên vị và công bằng - hãy đo lường những gì quan trọng 🛡️⚖️

Một hệ thống có thể chính xác về tổng thể nhưng vẫn gây hại cho một số nhóm cụ thể. Theo dõi được nhóm lại và tiêu chí công bằng:

  • Sự cân bằng nhân khẩu học - tỷ lệ dương tính ngang nhau giữa các nhóm.

  • Tỷ lệ cược cân bằng / Cơ hội cân bằng - tỷ lệ lỗi hoặc tỷ lệ dương tính thật bằng nhau giữa các nhóm; sử dụng những điều này để phát hiện và quản lý các sự đánh đổi, không phải là con dấu thành công-trượt một lần. [5]

Mẹo thực tế: hãy bắt đầu với bảng thông tin phân chia các số liệu cốt lõi theo các thuộc tính chính, sau đó thêm các số liệu công bằng cụ thể theo yêu cầu của chính sách. Nghe có vẻ cầu kỳ, nhưng lại tiết kiệm hơn so với việc phải xử lý một sự cố.


LLM và RAG - một cẩm nang đo lường thực sự hiệu quả 📚🔍

Đo lường các hệ thống sinh sản thì… khá rắc rối. Hãy làm thế này:

  1. Xác định kết quả cho mỗi trường hợp sử dụng: tính chính xác, tính hữu ích, tính vô hại, tuân thủ phong cách, giọng điệu phù hợp với thương hiệu, căn cứ trích dẫn, chất lượng từ chối.

  2. Tự động hóa các đánh giá cơ sở bằng các khuôn khổ mạnh mẽ (ví dụ: công cụ đánh giá trong ngăn xếp của bạn) và duy trì phiên bản của chúng theo tập dữ liệu của bạn.

  3. Thêm số liệu ngữ nghĩa (dựa trên nhúng) cộng với số liệu chồng chéo (BLEU/ROUGE) để đảm bảo tính hợp lý. [4]

  4. Cơ sở công cụ trong RAG: tỷ lệ truy xuất thành công, độ chính xác/thu hồi ngữ cảnh, chồng chéo hỗ trợ trả lời.

  5. Đánh giá của con người với sự đồng thuận - đo lường tính nhất quán của người đánh giá (ví dụ: κ của Cohen hoặc κ của Fleiss) để nhãn của bạn không phải là cảm xúc.

Phần thưởng: ghi lại phần trăm độ trễ và mã thông báo hoặc chi phí tính toán cho mỗi tác vụ. Không ai thích một câu trả lời đầy chất thơ đến vào thứ Ba tuần sau.


Bảng so sánh - các công cụ giúp bạn đo lường hiệu suất AI 🛠️📊

(Đúng là cố tình hơi lộn xộn - ghi chú thật thì lộn xộn.)

Dụng cụ Khán giả tốt nhất Giá Tại sao nó hiệu quả - tóm tắt nhanh
số liệu scikit-learn Các học viên ML Miễn phí Các triển khai chuẩn cho phân loại, hồi quy, xếp hạng; dễ dàng tích hợp vào các bài kiểm tra. [2]
Đánh giá MLflow / GenAI Các nhà khoa học dữ liệu, MLOps Miễn phí + trả phí Chạy tập trung, số liệu tự động, giám khảo LLM, người chấm điểm tùy chỉnh; ghi nhật ký hiện vật một cách rõ ràng.
Rõ ràng Các nhóm muốn có bảng thông tin nhanh OSS + đám mây Hơn 100 số liệu, báo cáo về độ trôi và chất lượng, móc giám sát - hình ảnh đẹp mắt khi cần thiết.
Trọng số và độ lệch Các tổ chức thử nghiệm nặng Gói miễn phí So sánh song song, tập dữ liệu đánh giá, giám khảo; bảng biểu và dấu vết khá gọn gàng.
LangSmith Người xây dựng ứng dụng LLM Trả Theo dõi từng bước, kết hợp đánh giá của con người với quy tắc hoặc người đánh giá LLM; tuyệt vời cho RAG.
TruLens Những người yêu thích đánh giá LLM nguồn mở OSS Chức năng phản hồi để đánh giá mức độ độc hại, tính thực tế, tính liên quan; tích hợp ở mọi nơi.
Kỳ vọng lớn Các tổ chức coi trọng chất lượng dữ liệu OSS Chính thức hóa kỳ vọng về dữ liệu - vì dữ liệu xấu sẽ phá hỏng mọi số liệu.
Kiểm tra sâu Kiểm thử và CI/CD cho ML OSS + đám mây Kiểm tra bằng pin để phát hiện sự trôi dữ liệu, các vấn đề về mô hình và giám sát; các biện pháp bảo vệ tốt.

Giá cả có thể thay đổi - hãy kiểm tra tài liệu. Và vâng, bạn có thể trộn chúng mà không cần cảnh sát kiểm tra.


Ngưỡng, chi phí và đường cong quyết định - bí quyết thành công 🧪

Một điều kỳ lạ nhưng có thật: hai mô hình có cùng ROC-AUC có thể có giá trị kinh doanh rất khác nhau tùy thuộc vào ngưỡngtỷ lệ chi phí .

Bảng tính nhanh để xây dựng:

  • Đặt chi phí cho kết quả dương tính giả so với kết quả âm tính giả bằng tiền hoặc thời gian.

  • Quét ngưỡng và tính toán chi phí dự kiến ​​cho mỗi quyết định 1k.

  • Chọn chi phí dự kiến ​​tối thiểu , sau đó khóa ngưỡng này bằng tính năng giám sát.

Sử dụng đường cong PR khi kết quả dương tính hiếm, đường cong ROC cho hình dạng chung và đường cong hiệu chuẩn khi quyết định dựa trên xác suất. [2][3]

Trường hợp nhỏ: mô hình phân loại phiếu hỗ trợ với F1 khiêm tốn nhưng hiệu chuẩn tuyệt vời, cắt bỏ các tuyến đường thủ công sau khi hoạt động chuyển từ ngưỡng cứng sang tuyến đường theo tầng (ví dụ: "tự động giải quyết", "đánh giá của con người", "leo thang") gắn với các dải điểm đã hiệu chuẩn.


Giám sát trực tuyến, trôi dạt và cảnh báo 🚨

Đánh giá ngoại tuyến là sự khởi đầu, không phải là kết thúc. Trong quá trình sản xuất:

  • Theo dõi độ lệch đầu vào , độ lệch đầu rasự suy giảm hiệu suất theo từng phân đoạn.

  • Thiết lập các biện pháp kiểm tra an toàn - tỷ lệ ảo giác tối đa, ngưỡng độc tính, chênh lệch công bằng.

  • Thêm bảng thông tin Canary để biết độ trễ p95, thời gian chờ và chi phí cho mỗi yêu cầu.

  • Sử dụng các thư viện được xây dựng riêng để tăng tốc quá trình này; chúng cung cấp các nguyên mẫu về độ trôi, chất lượng và giám sát ngay khi cài đặt.

Một ẩn dụ nhỏ có lỗi: hãy nghĩ về mô hình của bạn như một loại men chua - bạn không chỉ nướng một lần rồi bỏ đi; bạn cho ăn, quan sát, ngửi và đôi khi bắt đầu lại.


Đánh giá của con người không bao giờ sụp đổ 🍪

Khi mọi người chấm điểm sản phẩm, quá trình này quan trọng hơn bạn nghĩ.

  • Viết các tiêu chí đánh giá chặt chẽ kèm theo ví dụ về đạt, gần đạt và trượt.

  • Chọn mẫu ngẫu nhiên và mù khi có thể.

  • Đo lường sự đồng thuận giữa những người đánh giá (ví dụ, κ của Cohen đối với hai người đánh giá, κ của Fleiss đối với nhiều người) và làm mới tiêu chí đánh giá nếu có sự đồng thuận.

Điều này giúp nhãn hiệu của bạn không bị thay đổi theo tâm trạng hoặc nguồn cung cấp cà phê.


Tìm hiểu sâu: cách đo lường hiệu suất AI cho LLM trong RAG 🧩

  • Chất lượng truy xuất - recall@k, precision@k, nDCG; phạm vi bao phủ của các sự kiện về vàng. [2]

  • Trả lời trung thực - trích dẫn và xác minh kiểm tra, điểm căn cứ, thăm dò đối nghịch.

  • Sự hài lòng của người dùng - ngón tay cái, hoàn thành nhiệm vụ, khoảng cách chỉnh sửa từ bản nháp được đề xuất.

  • An toàn - độc tính, rò rỉ PII, tuân thủ chính sách.

  • Chi phí và độ trễ - mã thông báo, lượt truy cập bộ nhớ đệm, độ trễ p95 và p99.

Liên kết những điều này với các hành động kinh doanh: nếu độ tin cậy giảm xuống dưới một mức nào đó, hãy tự động chuyển sang chế độ nghiêm ngặt hoặc xem xét của con người.


Một hướng dẫn đơn giản để bắt đầu ngay hôm nay 🪄

  1. Xác định công việc - viết một câu: AI phải làm gì và làm cho ai.

  2. Chọn 2–3 số liệu nhiệm vụ - cộng với hiệu chuẩn và ít nhất một phần công bằng. [2][3][5]

  3. Quyết định ngưỡng bằng chi phí - đừng đoán mò.

  4. Tạo một tập hợp đánh giá nhỏ - 100–500 ví dụ được gắn nhãn phản ánh sự kết hợp sản xuất.

  5. Tự động hóa việc đánh giá - đánh giá/giám sát vào CI để mọi thay đổi đều chạy cùng một lần kiểm tra.

  6. Giám sát trong quá trình sản xuất - độ trôi, độ trễ, chi phí, cờ sự cố.

  7. Xem xét hàng tháng - loại bỏ những số liệu không ai sử dụng; thêm những số liệu trả lời được những câu hỏi thực tế.

  8. Ghi lại các quyết định - bảng điểm trực quan mà nhóm của bạn thực sự đọc.

Vâng, đúng là như vậy. Và nó hiệu quả.


Những lỗi thường gặp và cách tránh chúng 🕳️🐇

  • Quá phù hợp với một số liệu duy nhất - sử dụng một rổ số liệu phù hợp với bối cảnh quyết định. [1][2]

  • Bỏ qua hiệu chuẩn - sự tự tin mà không có hiệu chuẩn chỉ là sự vênh váo. [3]

  • Không phân đoạn - luôn phân chia theo nhóm người dùng, địa lý, thiết bị, ngôn ngữ. [5]

  • Chi phí không xác định - nếu bạn không định giá lỗi, bạn sẽ chọn sai ngưỡng.

  • Sự trôi dạt đánh giá của con người - đo lường sự đồng thuận, làm mới tiêu chí đánh giá, đào tạo lại người đánh giá.

  • Không có thiết bị an toàn - hãy thêm tính công bằng, độc tính và kiểm tra chính sách ngay bây giờ, không phải sau này. [1][5]


Cụm từ bạn tìm đến: cách đo lường hiệu suất AI - Quá dài, tôi không đọc hết 🧾

  • Bắt đầu với kết quả rõ ràng , sau đó xếp chồng các nhiệm vụ , hệ thốngkinh doanh . [1]

  • Sử dụng các số liệu phù hợp cho công việc - F1 và ROC-AUC để phân loại; nDCG/MRR để xếp hạng; chồng chéo + số liệu ngữ nghĩa để tạo ra (ghép nối với con người). [2][4]

  • Hiệu chỉnh xác suất của bạn và định giá lỗi của bạn để chọn ngưỡng. [2][3]

  • Thêm tính công bằng với các lát cắt nhóm và quản lý các sự đánh đổi một cách rõ ràng. [5]

  • Tự động đánh giá và giám sát để bạn có thể lặp lại mà không sợ hãi.

Bạn biết đấy - hãy đo lường những gì quan trọng, nếu không bạn sẽ chỉ cải thiện những gì không quan trọng.


Tài liệu tham khảo

[1] NIST. Khung Quản lý Rủi ro AI (AI RMF). Đọc thêm
[2] scikit-learn. Đánh giá mô hình: định lượng chất lượng dự đoán (Hướng dẫn sử dụng). Đọc thêm
[3] scikit-learn. Hiệu chuẩn xác suất (đường cong hiệu chuẩn, điểm Brier). Đọc thêm
[4] Papineni và cộng sự (2002). BLEU: Phương pháp Đánh giá Tự động Dịch máy. ACL. Đọc thêm
[5] Hardt, Price, Srebro (2016). Bình đẳng Cơ hội trong Học có Giám sát. NeurIPS. Đọc thêm

Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Quay lại blog