Bộ dữ liệu AI là gì?

Bộ dữ liệu AI là gì?

Nếu bạn đang xây dựng, mua sắm, hoặc thậm chí chỉ đánh giá các hệ thống AI, bạn sẽ gặp phải một câu hỏi tưởng chừng đơn giản: bộ dữ liệu AI là gì và tại sao nó lại quan trọng đến vậy? Nói ngắn gọn: nó là nhiên liệu, là cẩm nang, và đôi khi là la bàn cho mô hình của bạn. 

Những bài viết bạn có thể muốn đọc sau bài này:

🔗 AI dự đoán xu hướng như thế nào
Khám phá cách AI phân tích các mẫu để dự báo các sự kiện và hành vi trong tương lai.

🔗 Cách đo lường hiệu suất AI
Các số liệu và phương pháp đánh giá độ chính xác, hiệu quả và độ tin cậy của mô hình.

🔗 Cách nói chuyện với AI
Hướng dẫn xây dựng các tương tác tốt hơn để cải thiện phản hồi do AI tạo ra.

🔗 AI đang nhắc nhở điều gì?
Tổng quan về cách lời nhắc định hình đầu ra AI và chất lượng truyền thông tổng thể.


Bộ dữ liệu AI là gì? Định nghĩa nhanh 🧩

Bộ dữ liệu AI là gì? Đó là tập hợp các ví dụ mà mô hình của bạn học hỏi hoặc được đánh giá dựa trên đó. Mỗi ví dụ có:

  • Đầu vào - các tính năng mà mô hình nhìn thấy, như đoạn văn bản, hình ảnh, âm thanh, hàng bảng, số liệu cảm biến, đồ thị.

  • Mục tiêu - nhãn hoặc kết quả mà mô hình phải dự đoán, như danh mục, số, khoảng văn bản, hành động hoặc đôi khi không có gì cả.

  • Siêu dữ liệu - bối cảnh như nguồn, phương pháp thu thập, dấu thời gian, giấy phép, thông tin đồng ý và ghi chú về chất lượng.

Hãy nghĩ về nó như một hộp cơm trưa được đóng gói cẩn thận cho người mẫu của bạn: thành phần, nhãn mác, thông tin dinh dưỡng và cả ghi chú dán ghi "không được ăn phần này". 🍱

Đối với các tác vụ có giám sát, bạn sẽ thấy các đầu vào được ghép nối với nhãn rõ ràng. Đối với các tác vụ không có giám sát, bạn sẽ thấy các đầu vào không có nhãn. Đối với học tăng cường, dữ liệu thường trông giống như các tập phim hoặc quỹ đạo với các trạng thái, hành động, phần thưởng. Đối với công việc đa phương thức, các ví dụ có thể kết hợp văn bản + hình ảnh + âm thanh trong một bản ghi duy nhất. Nghe có vẻ cầu kỳ; nhưng thực chất là hệ thống ống nước.

Các hướng dẫn và thực hành hữu ích: về Bảng dữ liệu cho Bộ dữ liệu giúp các nhóm giải thích những gì bên trong và cách sử dụng chúng [1], và Thẻ mô hình bổ sung cho tài liệu dữ liệu về phía mô hình [2].

 

Bộ dữ liệu AI

Điều gì tạo nên một tập dữ liệu AI tốt ✅

Thành thật mà nói, rất nhiều mô hình thành công vì tập dữ liệu không quá tệ. Một tập dữ liệu "tốt" là:

  • Đại diện cho các trường hợp sử dụng thực tế, không chỉ là điều kiện phòng thí nghiệm.

  • Được dán nhãn chính xác , có hướng dẫn rõ ràng và đánh giá định kỳ. Các chỉ số thống nhất (ví dụ: thước đo kiểu kappa) giúp kiểm tra tính nhất quán của nhận thức.

  • hoàn chỉnh và cân bằng để tránh thất bại âm thầm trên những chiếc đuôi dài. Mất cân bằng là bình thường; sự cẩu thả thì không.

  • Nguồn gốc rõ ràng , có sự đồng ý, giấy phép và giấy phép được ghi chép đầy đủ. Thủ tục giấy tờ rườm rà ngăn cản những vụ kiện tụng căng thẳng.

  • Được ghi chép đầy đủ bằng cách sử dụng thẻ dữ liệu hoặc bảng dữ liệu nêu rõ mục đích sử dụng, giới hạn và chế độ lỗi đã biết [1]

  • Được quản lý bằng quản lý phiên bản, nhật ký thay đổi và phê duyệt. Nếu bạn không thể tái tạo tập dữ liệu, bạn cũng không thể tái tạo mô hình. Hướng dẫn từ Khung Quản lý Rủi ro AI của NIST coi chất lượng dữ liệu và tài liệu là mối quan tâm hàng đầu [3].


Các loại Bộ dữ liệu AI, theo những gì bạn đang làm 🧰

Theo nhiệm vụ

  • Phân loại - ví dụ: thư rác và không phải thư rác, danh mục hình ảnh.

  • Hồi quy - dự đoán giá trị liên tục như giá hoặc nhiệt độ.

  • Ghi nhãn trình tự - các thực thể được đặt tên, các loại từ.

  • Tạo - tóm tắt, dịch thuật, chú thích hình ảnh.

  • Đề xuất - người dùng, mục, tương tác, bối cảnh.

  • Phát hiện dị thường - các sự kiện hiếm gặp trong chuỗi thời gian hoặc nhật ký.

  • Học tăng cường - trạng thái, hành động, phần thưởng, chuỗi trạng thái tiếp theo.

  • Truy xuất - tài liệu, truy vấn, đánh giá mức độ liên quan.

Theo phương thức

  • Dạng bảng - các cột như độ tuổi, thu nhập, tỷ lệ khách hàng rời bỏ. Bị đánh giá thấp, nhưng lại cực kỳ hiệu quả.

  • Văn bản - tài liệu, trò chuyện, mã, bài đăng trên diễn đàn, mô tả sản phẩm.

  • Hình ảnh - ảnh chụp, ảnh quét y tế, ảnh vệ tinh; có hoặc không có mặt nạ, hộp, điểm chính.

  • Âm thanh - dạng sóng, bản ghi, thẻ người nói.

  • Video - khung hình, chú thích thời gian, nhãn hành động.

  • Đồ thị - nút, cạnh, thuộc tính.

  • Chuỗi thời gian - cảm biến, tài chính, đo từ xa.

Bằng sự giám sát

  • Có nhãn (vàng, bạc, dán nhãn tự động), dán nhãn mờ , không dán nhãn , tổng hợp . Bột làm bánh mua ở cửa hàng có thể khá tốt - nếu bạn đọc kỹ hướng dẫn trên hộp.


Bên trong hộp: cấu trúc, phân tách và siêu dữ liệu 📦

Một tập dữ liệu mạnh mẽ thường bao gồm:

  • Sơ đồ - các trường được gõ, đơn vị, giá trị được phép, xử lý null.

  • Phân tách - đào tạo, xác thực, kiểm tra. Giữ kín dữ liệu kiểm tra - xử lý nó như miếng sô cô la cuối cùng.

  • Kế hoạch lấy mẫu - cách bạn lấy ví dụ từ quần thể; tránh lấy mẫu tiện lợi từ một khu vực hoặc thiết bị.

  • Tăng cường - lật ngược, cắt xén, nhiễu, diễn giải, mặt nạ. Tốt khi chân thực; có hại khi tạo ra những khuôn mẫu chưa từng xuất hiện trong tự nhiên.

  • Quản lý phiên bản - tập dữ liệu v0.1, v0.2… với nhật ký thay đổi mô tả delta.

  • Giấy phép và sự đồng ý - quyền sử dụng, phân phối lại và xóa bỏ. Các cơ quan quản lý bảo vệ dữ liệu quốc gia (ví dụ: ICO của Vương quốc Anh) cung cấp danh sách kiểm tra xử lý hợp pháp và thiết thực [4].


Vòng đời của tập dữ liệu, từng bước một 🔁

  1. Xác định quyết định - mô hình sẽ quyết định điều gì và điều gì sẽ xảy ra nếu quyết định sai.

  2. Các tính năng và nhãn phạm vi - có thể đo lường, quan sát được, có đạo đức để thu thập.

  3. Dữ liệu nguồn - công cụ, nhật ký, khảo sát, tập đoàn công cộng, đối tác.

  4. Sự đồng ý và pháp lý - thông báo về quyền riêng tư, lựa chọn không tham gia, giảm thiểu dữ liệu. Xem hướng dẫn của cơ quan quản lý để biết “lý do” và “cách thức” [4].

  5. Thu thập và lưu trữ - lưu trữ an toàn, truy cập theo vai trò, xử lý PII.

  6. Nhãn - người chú thích nội bộ, huy động cộng đồng, chuyên gia; quản lý chất lượng với các nhiệm vụ vàng, kiểm toán và số liệu thỏa thuận.

  7. Dọn dẹp và chuẩn hóa - loại bỏ trùng lặp, xử lý thiếu sót, chuẩn hóa đơn vị, sửa lỗi mã hóa. Công việc nhàm chán nhưng hào hùng.

  8. Chia tách và xác thực - ngăn ngừa rò rỉ; phân tầng khi cần thiết; ưu tiên chia tách theo thời gian cho dữ liệu tạm thời; và sử dụng xác thực chéo một cách thận trọng để có ước tính chắc chắn [5].

  9. Tài liệu - bảng dữ liệu hoặc thẻ dữ liệu; mục đích sử dụng, lưu ý, hạn chế [1].

  10. Giám sát và cập nhật - phát hiện trôi dạt, làm mới nhịp độ, kế hoạch ngừng hoạt động. AI RMF của NIST đóng khung vòng lặp quản trị đang diễn ra này [3].

Mẹo nhanh, thực tế: các nhóm thường "thắng bản demo" nhưng lại vấp ngã trong quá trình sản xuất vì tập dữ liệu của họ bị lệch lạc một cách âm thầm - dòng sản phẩm mới, đổi tên trường, hoặc chính sách thay đổi. Một nhật ký thay đổi đơn giản + việc chú thích lại định kỳ sẽ giúp tránh được phần lớn những rắc rối đó.


Chất lượng và đánh giá dữ liệu - không nhàm chán như bạn nghĩ 🧪

Chất lượng là đa chiều:

  • Độ chính xác - nhãn có đúng không? Sử dụng số liệu thống kê thỏa thuận và đánh giá định kỳ.

  • Tính đầy đủ - bao gồm các lĩnh vực và lớp học mà bạn thực sự cần.

  • Tính nhất quán - tránh sử dụng nhãn mâu thuẫn cho các dữ liệu đầu vào tương tự.

  • Tính kịp thời - dữ liệu cũ làm mất đi các giả định.

  • Công bằng & thiên vị - bao phủ trên toàn bộ nhân khẩu học, ngôn ngữ, thiết bị và môi trường; bắt đầu bằng kiểm toán mô tả, sau đó là kiểm tra ứng suất. Các phương pháp ưu tiên tài liệu (bảng dữ liệu, thẻ mô hình) giúp các kiểm tra này dễ thấy [1], và các khuôn khổ quản trị nhấn mạnh chúng như các biện pháp kiểm soát rủi ro [3].

Để đánh giá mô hình, hãy sử dụng các phép chia tách phù hợp và theo dõi cả số liệu trung bình và số liệu nhóm tệ nhất. Một giá trị trung bình sáng bóng có thể che giấu một hố sâu. Những kiến ​​thức cơ bản về xác thực chéo được trình bày đầy đủ trong các tài liệu công cụ ML tiêu chuẩn [5].


Đạo đức, quyền riêng tư và cấp phép - những quy định nghiêm ngặt 🛡️

Dữ liệu đạo đức không phải là một cảm giác, mà là một quá trình:

  • Sự đồng ý và giới hạn mục đích - nêu rõ mục đích sử dụng và cơ sở pháp lý [4].

  • Xử lý PII - giảm thiểu, ẩn danh hoặc đặt tên giả khi cần thiết; cân nhắc sử dụng công nghệ tăng cường quyền riêng tư khi rủi ro cao.

  • Ghi rõ nguồn và giấy phép - tôn trọng các hạn chế về chia sẻ tương tự và sử dụng cho mục đích thương mại.

  • Sự thiên vị và tác hại - kiểm tra các mối tương quan không chính xác (“ban ngày = an toàn” sẽ rất khó hiểu vào ban đêm).

  • Khắc phục - biết cách xóa dữ liệu theo yêu cầu và cách khôi phục các mô hình được đào tạo trên dữ liệu đó (ghi lại điều này trong bảng dữ liệu của bạn) [1].


Bao nhiêu là đủ lớn? Kích thước và tỷ lệ tín hiệu trên nhiễu 📏

Nguyên tắc chung: nhiều ví dụ thường hữu ích nếu chúng có liên quan và không trùng lặp. Nhưng đôi khi bạn nên có ít mẫu hơn, sạch hơn và được dán nhãn tốt hơn là một núi mẫu lộn xộn.

Hãy chú ý:

  • Đường cong học tập - biểu đồ hiệu suất so với kích thước mẫu để xem bạn bị ràng buộc bởi dữ liệu hay mô hình.

  • Phạm vi bảo hiểm dài hạn - các lớp hiếm nhưng quan trọng thường cần thu thập có mục tiêu, không chỉ là số lượng lớn hơn.

  • Đánh dấu tiếng ồn - đo lường, sau đó giảm bớt; một chút thì có thể chấp nhận được, nhưng một đợt sóng lớn thì không.

  • Sự thay đổi phân phối - dữ liệu đào tạo từ một vùng hoặc kênh có thể không khái quát hóa sang vùng hoặc kênh khác; xác thực trên dữ liệu thử nghiệm giống mục tiêu [5].

Khi còn phân vân, hãy thử nghiệm từng bước nhỏ rồi mở rộng. Giống như nêm nếm gia vị - thêm, nếm, điều chỉnh, rồi lặp lại.


Nơi tìm và quản lý tập dữ liệu 🗂️

Các tài nguyên và công cụ phổ biến (không cần phải ghi nhớ URL ngay bây giờ):

  • Bộ dữ liệu Hugging Face - tải, xử lý, chia sẻ theo chương trình.

  • Tìm kiếm dữ liệu của Google - tìm kiếm siêu dữ liệu trên web.

  • Kho lưu trữ UCI ML - tuyển chọn các tác phẩm kinh điển để làm tài liệu cơ bản và giảng dạy.

  • OpenML - tác vụ + tập dữ liệu + lần chạy có nguồn gốc.

  • AWS Open Data / Google Cloud Public Datasets - tập đoàn dữ liệu quy mô lớn được lưu trữ.

Mẹo chuyên nghiệp: đừng chỉ tải xuống. Hãy đọc giấy phép và bảng dữ liệu , sau đó ghi lại bản sao của riêng bạn với số phiên bản và nguồn gốc [1].


Ghi nhãn và chú thích - nơi sự thật được thương lượng ✍️

Chú thích là nơi hướng dẫn nhãn lý thuyết của bạn đấu tranh với thực tế:

  • Thiết kế nhiệm vụ - viết hướng dẫn rõ ràng kèm theo ví dụ và phản ví dụ.

  • Đào tạo chú thích - câu trả lời vàng, chạy vòng hiệu chuẩn.

  • Kiểm soát chất lượng - sử dụng số liệu thống kê thỏa thuận, cơ chế đồng thuận và kiểm toán định kỳ.

  • Công cụ - chọn các công cụ thực thi xác thực lược đồ và hàng đợi xem xét; thậm chí bảng tính cũng có thể hoạt động với các quy tắc và kiểm tra.

  • Vòng phản hồi - ghi lại ghi chú của người chú thích và mô hình hóa lỗi để tinh chỉnh hướng dẫn.

Nếu bạn cảm thấy như đang biên tập một cuốn từ điển với ba người bạn không đồng tình về dấu phẩy… thì đó là điều bình thường. 🙃


Tài liệu dữ liệu - làm cho kiến ​​thức ngầm trở nên rõ ràng 📒

Một bảng dữ liệu hoặc thẻ dữ liệu phải bao gồm:

  • Ai đã thu thập nó, bằng cách nào và tại sao.

  • Mục đích sử dụng và mục đích sử dụng ngoài phạm vi.

  • Những khoảng trống, sai lệch và chế độ lỗi đã biết.

  • Giao thức dán nhãn, các bước đảm bảo chất lượng và số liệu thống kê thỏa thuận.

  • Giấy phép, sự đồng ý, liên hệ để giải quyết vấn đề, quy trình xóa bỏ.

Mẫu và ví dụ: Bảng dữ liệu cho Bộ dữ liệuThẻ mô hình là điểm khởi đầu được sử dụng rộng rãi [1].

Hãy viết trong khi xây dựng, chứ không phải sau đó. Bộ nhớ là một phương tiện lưu trữ không ổn định.


Bảng so sánh - nơi tìm hoặc lưu trữ bộ dữ liệu AI 📊

Vâng, bài viết này hơi chủ quan một chút. Và cách diễn đạt có phần hơi thiếu cân đối một cách cố ý. Không sao cả.

Công cụ / Kho lưu trữ Khán giả Giá Lý do tại sao nó hiệu quả trong thực tế
Bộ dữ liệu khuôn mặt ôm Các nhà nghiên cứu, kỹ sư Miễn phí Tải nhanh, phát trực tuyến, tập lệnh cộng đồng; tài liệu tuyệt vời; tập dữ liệu có phiên bản
Tìm kiếm tập dữ liệu của Google Mọi người Miễn phí Diện tích bề mặt rộng; tuyệt vời cho việc khám phá; đôi khi siêu dữ liệu không nhất quán
Kho lưu trữ ML của UCI Học sinh, nhà giáo dục Miễn phí Sách kinh điển được tuyển chọn; nhỏ nhưng gọn gàng; tốt cho việc học cơ bản và giảng dạy
OpenML Các nhà nghiên cứu sinh sản Miễn phí Nhiệm vụ + tập dữ liệu + chạy cùng nhau; những dấu vết nguồn gốc đẹp
Sổ đăng ký dữ liệu mở AWS Kỹ sư dữ liệu Hầu hết là miễn phí Lưu trữ quy mô Petabyte; truy cập đám mây gốc; theo dõi chi phí thoát
Bộ dữ liệu Kaggle Người hành nghề Miễn phí Chia sẻ dễ dàng, kịch bản, cuộc thi; tín hiệu cộng đồng giúp lọc tiếng ồn
Bộ dữ liệu công khai của Google Cloud Các nhà phân tích, nhóm Miễn phí + đám mây Được lưu trữ gần máy tính; tích hợp BigQuery; cẩn thận với việc thanh toán
Cổng thông tin học thuật, phòng thí nghiệm Chuyên gia thích hợp Tùy thuộc vào từng trường hợp Có tính chuyên môn hóa cao; đôi khi không được ghi chép đầy đủ - vẫn đáng để săn lùng

(Nếu một tế bào trông có vẻ như đang trò chuyện thì đó là cố ý.)


Xây dựng sản phẩm đầu tiên của bạn - bộ dụng cụ khởi động thực tế 🛠️

Bạn muốn chuyển từ "bộ dữ liệu AI là gì" sang "Tôi đã tạo ra một bộ dữ liệu, nó hoạt động". Hãy thử đường dẫn tối giản này:

  1. Viết quyết định và số liệu - ví dụ: giảm thiểu tình trạng chuyển nhầm đường hỗ trợ bằng cách dự đoán đúng nhóm. Số liệu: macro-F1.

  2. Liệt kê 5 ví dụ tích cực và 5 ví dụ tiêu cực - mẫu vé thật; đừng bịa đặt.

  3. Soạn thảo hướng dẫn dán nhãn - một trang; các quy tắc bao gồm/loại trừ rõ ràng.

  4. Thu thập một mẫu thực tế nhỏ - vài trăm vé ở nhiều danh mục; xóa PII mà bạn không cần.

  5. Chia tách với kiểm tra rò rỉ - giữ tất cả tin nhắn từ cùng một khách hàng trong một lần chia tách; sử dụng xác thực chéo để ước tính phương sai [5].

  6. Chú thích với QA - hai người chú thích trên một tập hợp con; giải quyết bất đồng; cập nhật hướng dẫn.

  7. Đào tạo một đường cơ sở đơn giản - trước tiên là về hậu cần (ví dụ: mô hình tuyến tính hoặc máy biến áp nhỏ gọn). Mục đích là để kiểm tra dữ liệu, chứ không phải để giành huy chương.

  8. Xem lại lỗi - lỗi ở đâu và tại sao; cập nhật toàn bộ tập dữ liệu, không chỉ mô hình.

  9. Tài liệu - bảng dữ liệu nhỏ: nguồn, liên kết hướng dẫn nhãn, phân tách, giới hạn đã biết, giấy phép [1].

  10. Làm mới kế hoạch - các danh mục mới, tiếng lóng mới, tên miền mới xuất hiện; lên lịch cập nhật nhỏ, thường xuyên [3].

Bạn sẽ học được nhiều điều từ vòng lặp này hơn là từ hàng ngàn lời khuyên nóng hổi. Ngoài ra, hãy sao lưu dữ liệu nhé.


Những cạm bẫy thường gặp của các đội 🪤

  • Rò rỉ dữ liệu - câu trả lời lọt vào các tính năng (ví dụ: sử dụng các trường sau khi giải quyết để dự đoán kết quả). Cảm giác như gian lận vì đúng là như vậy.

  • Sự đa dạng nông cạn - một địa lý hoặc thiết bị ngụy trang thành toàn cầu. Các thử nghiệm sẽ tiết lộ nút thắt cốt truyện.

  • Sự trôi nhãn - tiêu chí thay đổi theo thời gian nhưng hướng dẫn nhãn thì không. Ghi lại tài liệu và phiên bản thuật ngữ của bạn.

  • Mục tiêu không xác định rõ ràng - nếu bạn không thể xác định được dự đoán sai thì dữ liệu của bạn cũng vậy.

  • Giấy phép lộn xộn - xóa ngay, xin lỗi sau không phải là chiến lược.

  • Tăng cường quá mức - dữ liệu tổng hợp dạy những hiện tượng không thực tế, như đào tạo đầu bếp về trái cây nhựa.


Câu hỏi thường gặp nhanh về cụm từ này ❓

  • Liệu "Bộ dữ liệu AI là gì?" chỉ là một định nghĩa? Chủ yếu là vậy, nhưng nó cũng là một dấu hiệu cho thấy bạn quan tâm đến những phần nhàm chán giúp mô hình trở nên đáng tin cậy.

  • Tôi có luôn cần nhãn không? Không. Các thiết lập không giám sát, tự giám sát và RL thường bỏ qua nhãn rõ ràng, nhưng việc quản lý vẫn quan trọng.

  • Tôi có thể sử dụng dữ liệu công khai cho bất kỳ mục đích gì không? Không. Hãy tôn trọng giấy phép, điều khoản nền tảng và nghĩa vụ bảo mật [4].

  • Lớn hơn hay tốt hơn? Lý tưởng nhất là cả hai. Nếu phải lựa chọn, hãy chọn tốt hơn trước.


Lời kết - Những gì bạn có thể chụp ảnh màn hình 📌

Nếu ai đó hỏi bạn bộ dữ liệu AI là gì , hãy trả lời: đó là một tập hợp các ví dụ được quản lý và ghi chép lại, dùng để dạy và kiểm tra một mô hình, được bao bọc trong hệ thống quản trị để mọi người có thể tin tưởng vào kết quả. Các bộ dữ liệu tốt nhất là những bộ dữ liệu mang tính đại diện, được dán nhãn rõ ràng, hợp pháp và được duy trì liên tục. Phần còn lại là các chi tiết - những chi tiết quan trọng - về cấu trúc, phân tách, và tất cả những rào cản nhỏ nhặt giúp mô hình không bị lạc vào dòng chảy. Đôi khi quá trình này giống như làm vườn với bảng tính; đôi khi giống như chăn dắt các pixel. Dù thế nào đi nữa, hãy đầu tư vào dữ liệu, và các mô hình của bạn sẽ hoạt động ít kỳ lạ hơn. 🌱🤖


Tài liệu tham khảo

[1] Bảng dữ liệu cho Bộ dữ liệu - Gebru và cộng sự, arXiv. Liên kết
[2] Thẻ mẫu để báo cáo mô hình - Mitchell và cộng sự, arXiv. Liên kết
[3] Khung quản lý rủi ro trí tuệ nhân tạo NIST (AI RMF 1.0) . Liên kết
[4] Hướng dẫn và tài nguyên GDPR của Vương quốc Anh - Văn phòng Ủy viên Thông tin (ICO). Liên kết
[5] Xác thực chéo: đánh giá hiệu suất ước lượng - Hướng dẫn sử dụng scikit-learn. Liên kết


Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Quay lại blog