Nhãn dữ liệu AI là gì?

Nếu bạn đang xây dựng hoặc đánh giá các hệ thống học máy, sớm muộn gì bạn cũng sẽ gặp phải cùng một rào cản: dữ liệu được gắn nhãn. Các mô hình không tự nhiên mà biết được cái gì là cái gì. Con người, chính sách, và đôi khi là các chương trình, phải tự dạy chúng. Vậy, Gắn nhãn Dữ liệu AI là gì? Tóm lại, đó là việc thêm ý nghĩa vào dữ liệu thô để các thuật toán có thể học hỏi từ đó…😊

🔗 Đạo đức AI là gì
Tổng quan về các nguyên tắc đạo đức hướng dẫn phát triển và triển khai AI có trách nhiệm.

🔗 MCP trong AI là gì?
Giải thích giao thức điều khiển mô hình và vai trò của nó trong việc quản lý hành vi AI.

🔗 AI biên là gì
Bao gồm cách AI xử lý dữ liệu trực tiếp trên các thiết bị ở biên.

🔗 AI tác nhân là gì
Giới thiệu các tác nhân AI tự động có khả năng lập kế hoạch, suy luận và hành động độc lập.

Nhãn dữ liệu AI thực sự là gì? 🎯

Gắn nhãn dữ liệu AI là quá trình gắn các thẻ, khoảng, hộp, danh mục hoặc xếp hạng dễ hiểu với con người vào các dữ liệu đầu vào thô như văn bản, hình ảnh, âm thanh, video hoặc chuỗi thời gian để các mô hình có thể phát hiện các mẫu và đưa ra dự đoán. Hãy nghĩ đến các hộp giới hạn xung quanh ô tô, thẻ thực thể trên người và địa điểm trong văn bản, hoặc phiếu bầu ưu tiên cho câu trả lời của chatbot nào hữu ích hơn. Nếu không có những nhãn này, học có giám sát cổ điển sẽ không bao giờ khởi động được.

Bạn cũng sẽ nghe thấy các thuật ngữ như " dữ liệu chuẩn" hoặc "dữ liệu vàng": những câu trả lời được thống nhất theo hướng dẫn rõ ràng, được sử dụng để huấn luyện, xác thực và kiểm tra hành vi của mô hình. Ngay cả trong thời đại của các mô hình nền tảng và dữ liệu tổng hợp, các tập dữ liệu được gắn nhãn vẫn rất quan trọng đối với việc đánh giá, tinh chỉnh, kiểm tra an toàn và các trường hợp ngoại lệ hiếm gặp - tức là cách mô hình của bạn hoạt động trên những hành vi kỳ lạ mà người dùng thực sự thực hiện. Không có bữa trưa miễn phí, chỉ có những công cụ tốt hơn mà thôi.

Điều gì tạo nên Nhãn dữ liệu AI tốt ✅

Nói một cách đơn giản: việc dán nhãn tốt thường nhàm chán theo cách tốt nhất. Nó mang lại cảm giác dễ đoán, dễ lặp lại và hơi bị ghi chép quá mức. Việc này trông như thế này:

Một ontology chặt chẽ: tập hợp các lớp, thuộc tính và mối quan hệ được đặt tên mà bạn quan tâm.
Hướng dẫn về pha lê: ví dụ thực tế, phản ví dụ, trường hợp đặc biệt và quy tắc phá vỡ thế bế tắc.
Vòng lặp của người đánh giá: một góc nhìn khác về một phần nhiệm vụ.
Các chỉ số về sự đồng thuận: sự đồng thuận giữa những người chú thích (ví dụ: Cohen's κ, Krippendorff's α) để bạn đo lường tính nhất quán chứ không phải cảm nhận. α đặc biệt hữu ích khi nhãn bị thiếu hoặc nhiều người chú thích phụ trách các mục khác nhau [1].
Làm vườn theo trường hợp ngoại lệ: thường xuyên thu thập những trường hợp kỳ lạ, đối nghịch hoặc hiếm gặp.
Kiểm tra độ lệch: kiểm tra nguồn dữ liệu, nhân khẩu học, khu vực, phương ngữ, điều kiện ánh sáng, v.v.
Nguồn gốc và quyền riêng tư: theo dõi nguồn gốc dữ liệu, quyền sử dụng và cách xử lý PII (những gì được coi là PII, cách phân loại và các biện pháp bảo vệ) [5].
Phản hồi vào quá trình đào tạo: các nhãn không chỉ nằm im trong kho lưu trữ của bảng tính mà còn được sử dụng để thúc đẩy quá trình học tập tích cực, tinh chỉnh và đánh giá.

Thú nhận nhỏ: bạn sẽ phải viết lại hướng dẫn của mình vài lần. Điều đó là bình thường. Giống như nêm nếm món hầm, một chút thay đổi nhỏ cũng có thể tạo nên thành công lớn.

Một câu chuyện thực tế nhanh: một nhóm đã thêm một tùy chọn duy nhất "không thể quyết định - cần chính sách" vào giao diện người dùng của họ. Tỷ lệ đồng thuận tăng lên vì người ghi chú không còn phải đoán mò nữa, và nhật ký quyết định trở nên rõ ràng hơn chỉ sau một đêm. Những chiến thắng nhỏ nhưng hiệu quả.

Bảng so sánh: các công cụ gắn nhãn dữ liệu AI 🔧

Không đầy đủ, và đúng là cách diễn đạt có phần lộn xộn. Giá cả thay đổi - hãy luôn kiểm tra trên trang web của nhà cung cấp trước khi lập ngân sách.

Dụng cụ	Tốt nhất cho	Phong cách giá (mang tính chỉ dẫn)	Lý do nó hiệu quả
Hộp nhãn	Doanh nghiệp, CV + NLP kết hợp	Dựa trên mức sử dụng, cấp miễn phí	Quy trình làm việc, thuật ngữ và số liệu QA tốt; xử lý quy mô khá tốt.
Sự thật cơ bản về AWS SageMaker	Các tổ chức tập trung vào AWS, đường ống HITL	Mỗi tác vụ + mức sử dụng AWS	Kết hợp chặt chẽ với các dịch vụ AWS, tùy chọn tương tác trực tiếp với con người, cơ sở hạ tầng mạnh mẽ.
AI quy mô	Nhiệm vụ phức tạp, lực lượng lao động được quản lý	Báo giá tùy chỉnh, theo từng cấp độ	Dịch vụ chăm sóc khách hàng tận tình cùng với dụng cụ; hoạt động mạnh mẽ cho các trường hợp khó khăn.
SuperAnnotate	Các nhóm có tầm nhìn xa, các công ty khởi nghiệp	Các cấp độ, dùng thử miễn phí	Giao diện người dùng được trau chuốt, khả năng cộng tác, các công cụ hỗ trợ mô hình hữu ích.
Thần đồng	Các nhà phát triển muốn kiểm soát cục bộ	Giấy phép trọn đời, mỗi chỗ ngồi	Có thể lập trình, vòng lặp nhanh, công thức nấu ăn nhanh - chạy cục bộ; tuyệt vời cho NLP.
Doccano	Các dự án NLP nguồn mở	Miễn phí, mã nguồn mở	Được thúc đẩy bởi cộng đồng, dễ triển khai, tốt cho công việc phân loại và sắp xếp

Kiểm tra thực tế về mô hình định giá: nhà cung cấp kết hợp các đơn vị tiêu thụ, phí theo nhiệm vụ, mức phí, báo giá doanh nghiệp tùy chỉnh, giấy phép một lần và mã nguồn mở. Chính sách thay đổi; hãy xác nhận chi tiết trực tiếp với tài liệu của nhà cung cấp trước khi bộ phận mua sắm đưa số liệu vào bảng tính.

Các loại nhãn phổ biến, với hình ảnh tinh thần nhanh chóng 🧠

Phân loại hình ảnh: một hoặc nhiều thẻ nhãn cho toàn bộ hình ảnh.
Phát hiện đối tượng: hộp giới hạn hoặc hộp xoay quanh đối tượng.
Phân đoạn: mặt nạ cấp độ pixel-thể hiện hoặc ngữ nghĩa; kỳ lạ là thỏa mãn khi sạch sẽ.
Các điểm mấu chốt và tư thế: những điểm mốc như khớp hoặc các điểm trên khuôn mặt.
NLP: nhãn tài liệu, phạm vi cho các thực thể được đặt tên, mối quan hệ, liên kết tham chiếu chung, thuộc tính.
Âm thanh & lời nói: phiên âm, phân tích giọng nói người nói, thẻ ý định, sự kiện âm thanh.
Video: các hộp hoặc rãnh theo từng khung hình, sự kiện thời gian, nhãn hành động.
Chuỗi thời gian & cảm biến: các sự kiện trong khoảng thời gian nhất định, các bất thường, các chế độ xu hướng.
Quy trình làm việc tạo ra: xếp hạng ưu tiên, cờ đỏ an toàn, chấm điểm tính trung thực, đánh giá dựa trên tiêu chí.
Tìm kiếm & RAG: mức độ liên quan của truy vấn-tài liệu, khả năng trả lời, lỗi truy xuất.

Nếu hình ảnh là một chiếc bánh pizza, phân đoạn sẽ cắt từng lát bánh một cách hoàn hảo, trong khi phát hiện sẽ chỉ ra và nói rằng có một lát bánh pizza… ở đâu đó.

Giải phẫu quy trình làm việc: từ tóm tắt đến dữ liệu vàng 🧩

Một quy trình dán nhãn mạnh mẽ thường tuân theo hình dạng sau:

Định nghĩa thuật ngữ: lớp, thuộc tính, mối quan hệ và sự mơ hồ được phép.
Bản thảo hướng dẫn: ví dụ, trường hợp ngoại lệ và phản ví dụ khó.
Gắn nhãn cho một tập hợp thí điểm: lấy một vài trăm ví dụ có chú thích để tìm lỗ hổng.
Đo lường sự đồng thuận: tính toán κ/α; sửa đổi hướng dẫn cho đến khi người chú thích đạt được sự đồng thuận [1].
Thiết kế QA: bỏ phiếu đồng thuận, xét xử, đánh giá theo thứ bậc và kiểm tra đột xuất.
Quá trình sản xuất: theo dõi thông lượng, chất lượng và độ trôi.
Khép vòng lặp: đào tạo lại, lấy mẫu lại và cập nhật tiêu chí đánh giá khi mô hình và sản phẩm phát triển.

Một lời khuyên bạn sẽ tự cảm ơn mình sau này: hãy lập nhật ký ghi lại các quyết định của. Viết xuống từng quy tắc làm rõ mà bạn thêm vào và lý do tại sao. Bạn của tương lai sẽ quên mất bối cảnh. Bạn của tương lai sẽ khó chịu về điều đó.

Con người trong vòng lặp, giám sát yếu kém và tư duy "nhiều nhãn, ít nhấp chuột" 🧑💻🤝

Con người trong vòng lặp (HITL) nghĩa là mọi người cộng tác với các mô hình trong quá trình đào tạo, đánh giá hoặc vận hành thực tế - xác nhận, sửa chữa hoặc bỏ qua các đề xuất của mô hình. Sử dụng HITL để tăng tốc độ trong khi vẫn đảm bảo con người kiểm soát chất lượng và an toàn. HITL là một thực hành cốt lõi trong quản lý rủi ro AI đáng tin cậy (giám sát, ghi chép, theo dõi của con người) [2].

Giám sát yếu là một thủ thuật khác nhưng bổ sung cho nhau: các quy tắc lập trình, phương pháp tìm kiếm, giám sát từ xa hoặc các nguồn nhiễu khác tạo ra các nhãn tạm thời ở quy mô lớn, sau đó bạn khử nhiễu chúng. Lập trình dữ liệu đã phổ biến việc kết hợp nhiều nguồn nhãn nhiễu (hay còn gọi là hàm gán nhãn) và học độ chính xác của chúng để tạo ra một tập huấn luyện chất lượng cao hơn [3].

Trên thực tế, các nhóm làm việc tốc độ cao kết hợp cả ba: dán nhãn thủ công cho các bộ vàng, giám sát yếu để khởi động và HITL để tăng tốc công việc hàng ngày. Đó không phải là gian lận. Đó là thủ công.

Học tập chủ động: chọn điều tốt nhất tiếp theo để dán nhãn 🎯📈

Học tập chủ động đảo ngược dòng chảy thông thường. Thay vì lấy mẫu dữ liệu ngẫu nhiên để dán nhãn, bạn để mô hình yêu cầu các ví dụ mang tính thông tin nhất: độ không chắc chắn cao, độ bất đồng cao, đại diện đa dạng hoặc các điểm gần ranh giới quyết định. Với việc lấy mẫu tốt, bạn cắt giảm lãng phí trong việc dán nhãn và tập trung vào tác động. Các khảo sát hiện đại về học tập chủ động sâu báo cáo hiệu suất mạnh mẽ với ít nhãn hơn khi vòng lặp oracle được thiết kế tốt [4].

Một công thức cơ bản mà bạn có thể bắt đầu, không có gì phức tạp:

Đào tạo trên một tập hợp hạt giống nhỏ.
Đánh giá hồ bơi không có nhãn.
Chọn K hàng đầu theo sự không chắc chắn hoặc bất đồng về mô hình.
Gắn nhãn. Đào tạo lại. Lặp lại theo từng đợt vừa phải.
Theo dõi các đường cong xác thực và số liệu thống kê thỏa thuận để bạn không chạy theo sự nhiễu loạn.

Bạn sẽ biết nó có hiệu quả khi mô hình của bạn được cải thiện mà không làm tăng gấp đôi hóa đơn dán nhãn hàng tháng.

Kiểm soát chất lượng thực sự hiệu quả 🧪

Bạn không cần phải đun sôi cả đại dương. Hãy hướng đến những mục tiêu kiểm tra sau:

Câu hỏi vàng: đưa các mục đã biết vào và theo dõi độ chính xác của từng người dán nhãn.
Sự đồng thuận với việc xét xử: hai nhãn độc lập cộng với một người đánh giá về những bất đồng.
Sự đồng thuận giữa các người chú thích: sử dụng α khi bạn có nhiều người chú thích hoặc nhãn không đầy đủ, κ cho các cặp; đừng quá chú trọng vào một ngưỡng duy nhất - ngữ cảnh rất quan trọng [1].
Sửa đổi hướng dẫn: lỗi thường gặp thường có nghĩa là hướng dẫn không rõ ràng chứ không phải do người chú thích tệ.
Kiểm tra độ trôi: so sánh sự phân bố nhãn theo thời gian, địa lý, kênh đầu vào.

Nếu bạn chỉ chọn một thước đo, hãy chọn sự đồng thuận. Đó là một tín hiệu sức khỏe nhanh chóng. Một phép ẩn dụ hơi sai: nếu những người dán nhãn của bạn không đồng bộ, mô hình của bạn sẽ chạy trên bánh xe lắc lư.

Mô hình lực lượng lao động: nội bộ, BPO, đám đông hoặc kết hợp 👥

Nội bộ: phù hợp nhất với dữ liệu nhạy cảm, miền phức tạp và học tập đa chức năng nhanh chóng.
Nhà cung cấp chuyên biệt: thông lượng ổn định, đội ngũ QA được đào tạo và phạm vi phủ sóng trên nhiều múi giờ.
Phương pháp huy động cộng đồng: chi phí mỗi nhiệm vụ thấp, nhưng bạn cần có nguồn lực mạnh và khả năng kiểm soát thư rác tốt.
Kết hợp: duy trì một đội ngũ chuyên gia cốt lõi và tăng cường năng lực bên ngoài.

Dù bạn chọn gì, hãy đầu tư vào các buổi khởi động, đào tạo hướng dẫn, các vòng hiệu chuẩn và phản hồi thường xuyên. Nhãn mác giá rẻ đòi hỏi phải dán lại ba lần không hề rẻ.

Chi phí, thời gian và ROI: kiểm tra thực tế nhanh chóng 💸⏱️

Chi phí được chia thành nhân lực, nền tảng và QA. Để lập kế hoạch sơ bộ, hãy lập sơ đồ quy trình của bạn như sau:

Mục tiêu năng suất: số sản phẩm mỗi ngày trên mỗi máy dán nhãn × số máy dán nhãn.
Chi phí QA: % được dán nhãn kép hoặc được xem xét.
Tỷ lệ làm lại: ngân sách cho việc chú thích lại sau khi cập nhật hướng dẫn.
Nâng cao tự động hóa: các nhãn trước được hỗ trợ bởi mô hình hoặc các quy tắc theo chương trình có thể cắt giảm đáng kể công sức thủ công (không phải phép thuật, nhưng có ý nghĩa).

Nếu bộ phận mua sắm yêu cầu một con số, hãy đưa cho họ một mô hình - không phải là một phỏng đoán - và cập nhật nó khi các hướng dẫn của bạn ổn định.

Những cạm bẫy bạn sẽ gặp ít nhất một lần và cách né tránh chúng 🪤

Hướng dẫn lan man: các hướng dẫn dài dòng thành một tiểu thuyết. Khắc phục bằng cây quyết định + ví dụ đơn giản.
Hiện tượng phình to lớp: quá nhiều lớp với ranh giới không rõ ràng. Cần hợp nhất hoặc định nghĩa một lớp "khác" nghiêm ngặt kèm theo chính sách.
Chỉ số hóa quá mức về tốc độ: việc dán nhãn vội vàng âm thầm đầu độc dữ liệu đào tạo. Chèn vàng; giới hạn tốc độ ở những độ dốc tệ nhất.
Khóa công cụ: định dạng xuất khẩu quan trọng. Quyết định sớm về lược đồ JSONL và ID mục bất biến.
Bỏ qua bước đánh giá: nếu bạn không gắn nhãn cho tập dữ liệu đánh giá trước, bạn sẽ không bao giờ chắc chắn điều gì đã được cải thiện.

Thành thật mà nói, thỉnh thoảng bạn sẽ phải quay lại. Không sao cả. Bí quyết là hãy ghi lại việc quay lại để lần sau có thể chủ động hơn.

Mini-FAQ: câu trả lời nhanh chóng và trung thực 🙋♀️

H: Ghi nhãn và chú thích - chúng có khác nhau không?
Đ: Trên thực tế, mọi người sử dụng chúng thay thế cho nhau. Chú thích là hành động đánh dấu hoặc gắn thẻ. Ghi nhãn thường ngụ ý một tư duy thực tế với QA và hướng dẫn. Khoai tây, khoai tây.

Q: Tôi có thể bỏ qua việc gắn nhãn nhờ dữ liệu tổng hợp hoặc tự giám sát không?
A: Bạn có thể giảm bớt chứ không thể bỏ qua. Bạn vẫn cần dữ liệu được gắn nhãn để đánh giá, kiểm soát, tinh chỉnh và các hành vi cụ thể của sản phẩm. Giám sát yếu có thể giúp bạn mở rộng quy mô khi chỉ gắn nhãn thủ công không đủ [3].

Q: Tôi có còn cần số liệu chất lượng nếu người đánh giá của tôi là chuyên gia không?
A: Có. Các chuyên gia cũng có ý kiến khác nhau. Sử dụng số liệu thống nhất (κ/α) để xác định các định nghĩa mơ hồ và các lớp không rõ ràng, sau đó siết chặt hệ thống phân loại hoặc các quy tắc [1].

Q: Việc có sự tham gia của con người chỉ là chiêu trò tiếp thị?
A: Không. Đó là một mô hình thực tế trong đó con người hướng dẫn, sửa chữa và đánh giá hành vi của mô hình. Nó được khuyến nghị trong các hoạt động quản lý rủi ro AI đáng tin cậy [2].

H: Làm thế nào để tôi ưu tiên những gì cần dán nhãn tiếp theo?
Đ: Bắt đầu bằng việc học tập chủ động: lấy các mẫu không chắc chắn hoặc đa dạng nhất để mỗi nhãn mới mang lại cho bạn sự cải thiện mô hình tối đa [4].

Ghi chú thực địa: những điều nhỏ nhặt tạo nên sự khác biệt lớn ✍️

Lưu trữ một phân loại trực tiếp trong kho lưu trữ của bạn. Xử lý nó như mã nguồn.
Lưu trước và sau bất cứ khi nào bạn cập nhật hướng dẫn.
Xây dựng một bộ vàng nhỏ hoàn hảo và bảo vệ nó khỏi bị ô nhiễm.
Xoay vòng các phiên hiệu chuẩn: hiển thị 10 mục, dán nhãn âm thầm, so sánh, thảo luận, cập nhật quy tắc.
Theo dõi phân tích nhãn mác một cách thân thiện - bảng điều khiển mạnh mẽ, không có gì phải xấu hổ. Bạn sẽ tìm thấy các cơ hội đào tạo, chứ không phải kẻ xấu.
Thêm các đề xuất hỗ trợ mô hình một cách chậm rãi. Nếu nhãn ban đầu sai, chúng sẽ làm chậm quá trình của con người. Nếu chúng thường xuyên đúng, đó là điều kỳ diệu.

Nhận xét cuối cùng: nhãn mác là bộ nhớ của sản phẩm của bạn 🧩💡

Gắn nhãn dữ liệu AI về bản chất là gì? Đó là cách bạn quyết định cách mô hình nhìn nhận thế giới, từng bước một. Làm tốt việc này và mọi thứ sau đó sẽ trở nên dễ dàng hơn: độ chính xác cao hơn, ít hồi quy hơn, các cuộc tranh luận rõ ràng hơn về an toàn và sai lệch, và việc vận chuyển suôn sẻ hơn. Làm cẩu thả, bạn sẽ cứ tự hỏi tại sao mô hình lại hoạt động sai - khi câu trả lời nằm trong tập dữ liệu của bạn với một cái tên sai. Không phải cái gì cũng cần một đội ngũ hùng hậu hay phần mềm cầu kỳ - nhưng mọi thứ đều cần được chăm chút.

lại là "Quá dài, tôi không đọc hết": hãy đầu tư vào một hệ thống thuật ngữ rõ ràng, viết ra các quy tắc mạch lạc, đo lường sự đồng thuận, kết hợp nhãn thủ công và nhãn tự động, và để quá trình học tập chủ động lựa chọn mục tốt nhất tiếp theo của bạn. Sau đó lặp lại. Lặp đi lặp lại… và lạ thay, bạn sẽ thấy thích thú. 😄

Tài liệu tham khảo

[1] Artstein, R., & Poesio, M. (2008). Thỏa thuận giữa các người mã hóa cho Ngôn ngữ học tính toán. Ngôn ngữ học tính toán, 34(4), 555–596. (Bao gồm κ/α và cách diễn giải thỏa thuận, bao gồm cả dữ liệu bị thiếu.)
PDF

[2] NIST (2023). Khung quản lý rủi ro trí tuệ nhân tạo (AI RMF 1.0). (Giám sát, lập tài liệu và kiểm soát rủi ro của con người đối với AI đáng tin cậy.)
PDF

[3] Ratner, AJ, De Sa, C., Wu, S., Selsam, D., & Ré, C. (2016). Lập trình dữ liệu: Tạo các tập huấn luyện lớn một cách nhanh chóng. NeurIPS. (Phương pháp cơ bản để giám sát yếu và khử nhiễu nhãn.)
PDF

[4] Li, D., Wang, Z., Chen, Y., et al. (2024). Khảo sát về Học tập chủ động sâu: Những tiến bộ gần đây và những lĩnh vực mới. (Bằng chứng và mô hình cho học tập chủ động hiệu quả về nhãn.)
PDF

[5] NIST (2010). SP 800-122: Hướng dẫn bảo vệ tính bảo mật của thông tin nhận dạng cá nhân (PII). (Những gì được coi là PII và cách bảo vệ thông tin này trong đường truyền dữ liệu của bạn.)
PDF

Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Quay lại blog