Bộ dữ liệu AI là gì?

Nếu bạn đang xây dựng, mua sắm, hoặc thậm chí chỉ đánh giá các hệ thống AI, bạn sẽ gặp phải một câu hỏi tưởng chừng đơn giản: bộ dữ liệu AI là gì và tại sao nó lại quan trọng đến vậy? Nói ngắn gọn: nó là nhiên liệu, là cẩm nang, và đôi khi là la bàn cho mô hình của bạn.

Những bài viết bạn có thể muốn đọc sau bài này:

🔗 AI dự đoán xu hướng như thế nào
Khám phá cách AI phân tích các mẫu để dự báo các sự kiện và hành vi trong tương lai.

🔗 Cách đo lường hiệu suất AI
Các số liệu và phương pháp đánh giá độ chính xác, hiệu quả và độ tin cậy của mô hình.

🔗 Cách nói chuyện với AI
Hướng dẫn xây dựng các tương tác tốt hơn để cải thiện phản hồi do AI tạo ra.

🔗 AI đang nhắc nhở điều gì?
Tổng quan về cách lời nhắc định hình đầu ra AI và chất lượng truyền thông tổng thể.

Bộ dữ liệu AI là gì? Định nghĩa nhanh 🧩

Tập dữ liệu AI là gì? Đó là một tập hợp các ví dụ mà mô hình của bạn học hỏi hoặc được đánh giá dựa trên đó. Mỗi ví dụ bao gồm:

Đầu vào - các tính năng mà mô hình nhìn thấy, như đoạn văn bản, hình ảnh, âm thanh, hàng bảng, số liệu cảm biến, đồ thị.
Mục tiêu - nhãn hoặc kết quả mà mô hình phải dự đoán, như danh mục, số, khoảng văn bản, hành động hoặc đôi khi không có gì cả.
Siêu dữ liệu - bối cảnh như nguồn, phương pháp thu thập, dấu thời gian, giấy phép, thông tin đồng ý và ghi chú về chất lượng.

Hãy nghĩ về nó như một hộp cơm trưa được đóng gói cẩn thận cho người mẫu của bạn: thành phần, nhãn mác, thông tin dinh dưỡng và cả ghi chú dán ghi "không được ăn phần này". 🍱

Đối với các tác vụ có giám sát, bạn sẽ thấy các đầu vào được ghép nối với nhãn rõ ràng. Đối với các tác vụ không có giám sát, bạn sẽ thấy các đầu vào không có nhãn. Đối với học tăng cường, dữ liệu thường trông giống như các tập phim hoặc quỹ đạo với các trạng thái, hành động, phần thưởng. Đối với công việc đa phương thức, các ví dụ có thể kết hợp văn bản + hình ảnh + âm thanh trong một bản ghi duy nhất. Nghe có vẻ cầu kỳ; nhưng thực chất là hệ thống ống nước.

Các hướng dẫn và thực hành hữu ích: Bảng dữ liệu cho Tập dữ liệu giúp các nhóm giải thích nội dung bên trong và cách sử dụng [1] và Thẻ mô hình bổ sung tài liệu dữ liệu ở phía mô hình [2].

Điều gì tạo nên một tập dữ liệu AI tốt ✅

Thành thật mà nói, rất nhiều mô hình thành công vì tập dữ liệu không quá tệ. Một tập dữ liệu "tốt" là:

Đại diện cho các trường hợp sử dụng thực tế, không chỉ là điều kiện phòng thí nghiệm.
Được dán nhãn chính xác, có hướng dẫn rõ ràng và đánh giá định kỳ. Các chỉ số thống nhất (ví dụ: thước đo kiểu kappa) giúp kiểm tra tính nhất quán của nhận thức.
hoàn chỉnh và cân bằng để tránh những thất bại âm thầm trong thời gian dài. Sự mất cân bằng là điều bình thường; sự cẩu thả thì không.
Nguồn gốc rõ ràng, có sự đồng ý, giấy phép và giấy phép được ghi chép đầy đủ. Thủ tục giấy tờ rườm rà ngăn cản những vụ kiện tụng căng thẳng.
Được ghi chép đầy đủ bằng cách sử dụng thẻ dữ liệu hoặc bảng dữ liệu nêu rõ mục đích sử dụng, giới hạn và chế độ lỗi đã biết [1]
Được quản lý bằng phiên bản, nhật ký thay đổi và phê duyệt. Nếu bạn không thể tái tạo tập dữ liệu, bạn không thể tái tạo mô hình. Hướng dẫn từ Khung quản lý rủi ro AI của NIST coi chất lượng dữ liệu và tài liệu là mối quan tâm hàng đầu [3].

Các loại Bộ dữ liệu AI, theo những gì bạn đang làm 🧰

Theo nhiệm vụ

Phân loại - ví dụ: thư rác và không phải thư rác, danh mục hình ảnh.
Hồi quy - dự đoán giá trị liên tục như giá hoặc nhiệt độ.
Ghi nhãn trình tự - các thực thể được đặt tên, các loại từ.
Tạo - tóm tắt, dịch thuật, chú thích hình ảnh.
Đề xuất - người dùng, mục, tương tác, bối cảnh.
Phát hiện dị thường - các sự kiện hiếm gặp trong chuỗi thời gian hoặc nhật ký.
Học tăng cường - trạng thái, hành động, phần thưởng, chuỗi trạng thái tiếp theo.
Truy xuất - tài liệu, truy vấn, đánh giá mức độ liên quan.

Theo phương thức

Dạng bảng - các cột như độ tuổi, thu nhập, tỷ lệ khách hàng rời bỏ. Bị đánh giá thấp, nhưng lại cực kỳ hiệu quả.
Văn bản - tài liệu, trò chuyện, mã, bài đăng trên diễn đàn, mô tả sản phẩm.
Hình ảnh - ảnh chụp, ảnh quét y tế, ảnh vệ tinh; có hoặc không có mặt nạ, hộp, điểm chính.
Âm thanh - dạng sóng, bản ghi, thẻ người nói.
Video - khung hình, chú thích thời gian, nhãn hành động.
Đồ thị - nút, cạnh, thuộc tính.
Chuỗi thời gian - cảm biến, tài chính, đo từ xa.

Bằng sự giám sát

Có nhãn (vàng, bạc, dán nhãn tự động), dán nhãn mờ, không dán nhãn, tổng hợp. Bột làm bánh mua ở cửa hàng có thể khá tốt - nếu bạn đọc kỹ hướng dẫn trên hộp.

Bên trong hộp: cấu trúc, phân tách và siêu dữ liệu 📦

Một tập dữ liệu mạnh mẽ thường bao gồm:

Sơ đồ - các trường được gõ, đơn vị, giá trị được phép, xử lý null.
Phân tách - đào tạo, xác thực, kiểm tra. Giữ kín dữ liệu kiểm tra - xử lý nó như miếng sô cô la cuối cùng.
Kế hoạch lấy mẫu - cách bạn lấy ví dụ từ quần thể; tránh lấy mẫu tiện lợi từ một khu vực hoặc thiết bị.
Tăng cường - lật ngược, cắt xén, nhiễu, diễn giải, mặt nạ. Tốt khi chân thực; có hại khi tạo ra những khuôn mẫu chưa từng xuất hiện trong tự nhiên.
Phiên bản hóa - tập dữ liệu v0.1, v0.2… kèm theo nhật ký thay đổi mô tả các điểm khác biệt.
Giấy phép và sự đồng ý - quyền sử dụng, phân phối lại và xóa bỏ. Các cơ quan quản lý bảo vệ dữ liệu quốc gia (ví dụ: ICO của Vương quốc Anh) cung cấp danh sách kiểm tra xử lý hợp pháp và thiết thực [4].

Vòng đời của tập dữ liệu, từng bước một 🔁

Xác định quyết định - mô hình sẽ đưa ra quyết định gì và điều gì sẽ xảy ra nếu nó sai.
Các tính năng và nhãn phạm vi - có thể đo lường, quan sát được, có đạo đức để thu thập.
Dữ liệu nguồn - công cụ, nhật ký, khảo sát, tập đoàn công cộng, đối tác.
Sự đồng ý và pháp lý - thông báo về quyền riêng tư, từ chối tham gia, giảm thiểu dữ liệu. Xem hướng dẫn của cơ quan quản lý để biết “lý do” và “cách thức” [4].
Thu thập và lưu trữ - lưu trữ an toàn, truy cập theo vai trò, xử lý PII.
Nhãn - người chú thích nội bộ, huy động cộng đồng, chuyên gia; quản lý chất lượng với các nhiệm vụ vàng, kiểm toán và số liệu thỏa thuận.
Dọn dẹp và chuẩn hóa - loại bỏ trùng lặp, xử lý thiếu sót, chuẩn hóa đơn vị, sửa lỗi mã hóa. Công việc nhàm chán nhưng hào hùng.
Chia tách và xác thực - ngăn ngừa rò rỉ; phân tầng khi cần thiết; ưu tiên chia tách theo thời gian cho dữ liệu tạm thời; và sử dụng xác thực chéo một cách thận trọng để có ước tính chắc chắn [5].
Tài liệu - bảng dữ liệu hoặc thẻ dữ liệu; mục đích sử dụng, lưu ý, hạn chế [1].
Theo dõi và cập nhật - phát hiện sự thay đổi, chu kỳ làm mới, kế hoạch ngừng hoạt động. Khung RMF AI của NIST tạo nên vòng lặp quản trị liên tục này [3].

Mẹo nhanh, thực tế: các nhóm thường "thắng bản demo" nhưng lại vấp ngã trong quá trình sản xuất vì tập dữ liệu của họ bị lệch lạc một cách âm thầm - dòng sản phẩm mới, đổi tên trường, hoặc chính sách thay đổi. Một nhật ký thay đổi đơn giản + việc chú thích lại định kỳ sẽ giúp tránh được phần lớn những rắc rối đó.

Chất lượng và đánh giá dữ liệu - không nhàm chán như bạn nghĩ 🧪

Chất lượng là đa chiều:

Độ chính xác - nhãn có đúng không? Sử dụng số liệu thống kê thỏa thuận và đánh giá định kỳ.
Tính đầy đủ - bao gồm các lĩnh vực và lớp học mà bạn thực sự cần.
Tính nhất quán - tránh sử dụng nhãn mâu thuẫn cho các dữ liệu đầu vào tương tự.
Tính kịp thời - dữ liệu cũ làm mất đi các giả định.
Công bằng & thiên vị - bao phủ trên các nhóm nhân khẩu học, ngôn ngữ, thiết bị, môi trường; bắt đầu bằng các cuộc kiểm toán mô tả, sau đó là các bài kiểm tra chịu tải. Các thực tiễn ưu tiên tài liệu (bảng dữ liệu, thẻ mô hình) làm cho các kiểm tra này trở nên rõ ràng [1] và các khuôn khổ quản trị nhấn mạnh chúng như các biện pháp kiểm soát rủi ro [3].

Để đánh giá mô hình, hãy sử dụng các phép chia tách phù hợp và theo dõi cả số liệu trung bình và số liệu nhóm tệ nhất. Một giá trị trung bình sáng bóng có thể che giấu một hố sâu. Những kiến thức cơ bản về xác thực chéo được trình bày đầy đủ trong các tài liệu công cụ ML tiêu chuẩn [5].

Đạo đức, quyền riêng tư và cấp phép - những quy định nghiêm ngặt 🛡️

Dữ liệu đạo đức không phải là một cảm giác, mà là một quá trình:

Sự đồng ý và giới hạn mục đích - phải nêu rõ về các mục đích sử dụng và cơ sở pháp lý [4].
Xử lý PII - giảm thiểu, ẩn danh hoặc đặt tên giả khi cần thiết; cân nhắc sử dụng công nghệ tăng cường quyền riêng tư khi rủi ro cao.
Ghi nguồn và giấy phép - tôn trọng các hạn chế về chia sẻ tương tự và sử dụng thương mại.
Thiên kiến & tác hại - kiểm tra các mối tương quan sai lệch ("ban ngày = an toàn" sẽ gây nhầm lẫn rất lớn vào ban đêm).
Khắc phục - biết cách xóa dữ liệu theo yêu cầu và cách khôi phục các mô hình được đào tạo trên dữ liệu đó (ghi lại điều này trong bảng dữ liệu của bạn) [1].

Bao nhiêu là đủ lớn? Kích thước và tỷ lệ tín hiệu trên nhiễu 📏

Nguyên tắc chung: càng nhiều ví dụ càng tốt nếu chúng có liên quan và không gần giống nhau. Nhưng đôi khi, bạn sẽ có lợi hơn nếu có ít ví dụ hơn, nhưng được chọn lọc kỹ lưỡng và dán nhãn rõ ràng hơn là cả một đống ví dụ lộn xộn.

Hãy chú ý:

Đường cong học tập - vẽ biểu đồ hiệu suất so với kích thước mẫu để xem bạn bị giới hạn bởi dữ liệu hay bởi mô hình.
Phạm vi bảo hiểm dài hạn - các lớp hiếm nhưng quan trọng thường cần thu thập có mục tiêu, không chỉ là số lượng lớn hơn.
Đánh dấu tiếng ồn - đo lường, sau đó giảm bớt; một chút thì có thể chấp nhận được, nhưng một đợt sóng lớn thì không.
Sự thay đổi phân phối - dữ liệu đào tạo từ một vùng hoặc kênh có thể không khái quát hóa sang vùng hoặc kênh khác; xác thực trên dữ liệu thử nghiệm giống mục tiêu [5].

Khi còn phân vân, hãy thử nghiệm từng bước nhỏ rồi mở rộng. Giống như nêm nếm gia vị - thêm, nếm, điều chỉnh, rồi lặp lại.

Nơi tìm và quản lý tập dữ liệu 🗂️

Các tài nguyên và công cụ phổ biến (không cần phải ghi nhớ URL ngay bây giờ):

Bộ dữ liệu Hugging Face - tải, xử lý, chia sẻ theo chương trình.
Tìm kiếm dữ liệu của Google - tìm kiếm siêu dữ liệu trên web.
Kho lưu trữ UCI ML - tuyển chọn các tác phẩm kinh điển để làm tài liệu cơ bản và giảng dạy.
OpenML - tác vụ + tập dữ liệu + lần chạy có nguồn gốc.
AWS Open Data / Google Cloud Public Datasets - tập đoàn dữ liệu quy mô lớn được lưu trữ.

Mẹo hay: đừng chỉ tải xuống. Hãy đọc giấy phép và bảng dữ liệu, sau đó ghi lại bản sao của bạn với số phiên bản và nguồn gốc [1].

Ghi nhãn và chú thích - nơi sự thật được thương lượng ✍️

Chú thích là nơi hướng dẫn nhãn lý thuyết của bạn đấu tranh với thực tế:

Thiết kế nhiệm vụ - viết hướng dẫn rõ ràng kèm theo ví dụ và phản ví dụ.
Đào tạo chú thích - câu trả lời vàng, chạy vòng hiệu chuẩn.
Kiểm soát chất lượng - sử dụng số liệu thống kê thỏa thuận, cơ chế đồng thuận và kiểm toán định kỳ.
Công cụ - chọn các công cụ thực thi xác thực lược đồ và hàng đợi xem xét; thậm chí bảng tính cũng có thể hoạt động với các quy tắc và kiểm tra.
Vòng phản hồi - ghi lại ghi chú của người chú thích và mô hình hóa lỗi để tinh chỉnh hướng dẫn.

Nếu bạn cảm thấy như đang biên tập một cuốn từ điển với ba người bạn không đồng tình về dấu phẩy… thì đó là điều bình thường. 🙃

Tài liệu dữ liệu - làm cho kiến thức ngầm trở nên rõ ràng 📒

Một bảng dữ liệu hoặc thẻ dữ liệu phải bao gồm:

Ai đã thu thập nó, bằng cách nào và tại sao.
Mục đích sử dụng và mục đích sử dụng ngoài phạm vi.
Những khoảng trống, sai lệch và chế độ lỗi đã biết.
Giao thức dán nhãn, các bước đảm bảo chất lượng và số liệu thống kê thỏa thuận.
Giấy phép, sự đồng ý, liên hệ để giải quyết vấn đề, quy trình xóa bỏ.

Mẫu và ví dụ: Bảng dữ liệu cho Bộ dữ liệu và Thẻ mô hình là điểm khởi đầu được sử dụng rộng rãi [1].

Hãy viết trong khi xây dựng, chứ không phải sau đó. Bộ nhớ là một phương tiện lưu trữ không ổn định.

Bảng so sánh - nơi tìm hoặc lưu trữ bộ dữ liệu AI 📊

Vâng, bài viết này hơi chủ quan một chút. Và cách diễn đạt có phần hơi thiếu cân đối một cách cố ý. Không sao cả.

Công cụ / Kho lưu trữ	Khán giả	Giá	Lý do tại sao nó hiệu quả trong thực tế
Bộ dữ liệu khuôn mặt ôm	Các nhà nghiên cứu, kỹ sư	Miễn phí	Tải nhanh, phát trực tuyến, tập lệnh cộng đồng; tài liệu tuyệt vời; tập dữ liệu có phiên bản
Tìm kiếm tập dữ liệu của Google	Mọi người	Miễn phí	Diện tích bề mặt rộng; tuyệt vời cho việc khám phá; đôi khi siêu dữ liệu không nhất quán
Kho lưu trữ ML của UCI	Học sinh, nhà giáo dục	Miễn phí	Sách kinh điển được tuyển chọn; nhỏ nhưng gọn gàng; tốt cho việc học cơ bản và giảng dạy
OpenML	Các nhà nghiên cứu sinh sản	Miễn phí	Nhiệm vụ + tập dữ liệu + chạy cùng nhau; những dấu vết nguồn gốc đẹp
Sổ đăng ký dữ liệu mở AWS	Kỹ sư dữ liệu	Hầu hết là miễn phí	Lưu trữ quy mô Petabyte; truy cập đám mây gốc; theo dõi chi phí thoát
Bộ dữ liệu Kaggle	Người hành nghề	Miễn phí	Chia sẻ dễ dàng, kịch bản, cuộc thi; tín hiệu cộng đồng giúp lọc tiếng ồn
Bộ dữ liệu công khai của Google Cloud	Các nhà phân tích, nhóm	Miễn phí + đám mây	Được lưu trữ gần máy tính; tích hợp BigQuery; cẩn thận với việc thanh toán
Cổng thông tin học thuật, phòng thí nghiệm	Chuyên gia thích hợp	Tùy thuộc vào từng trường hợp	Có tính chuyên môn hóa cao; đôi khi không được ghi chép đầy đủ - vẫn đáng để săn lùng

(Nếu một tế bào trông có vẻ như đang trò chuyện thì đó là cố ý.)

Xây dựng sản phẩm đầu tiên của bạn - bộ dụng cụ khởi động thực tế 🛠️

Bạn muốn chuyển từ "bộ dữ liệu AI là gì" sang "Tôi đã tạo ra một bộ dữ liệu, nó hoạt động". Hãy thử đường dẫn tối giản này:

Viết quyết định và số liệu - ví dụ: giảm thiểu tình trạng chuyển nhầm đường hỗ trợ bằng cách dự đoán đúng nhóm. Số liệu: macro-F1.
Hãy liệt kê 5 ví dụ tích cực và 5 ví dụ tiêu cực - sử dụng các vé thực tế; đừng bịa đặt.
Soạn thảo hướng dẫn dán nhãn - một trang; các quy tắc bao gồm/loại trừ rõ ràng.
Thu thập một mẫu nhỏ, thực tế - vài trăm vé thuộc nhiều hạng mục khác nhau; loại bỏ thông tin nhận dạng cá nhân (PII) mà bạn không cần.
Chia tách với kiểm tra rò rỉ - giữ tất cả tin nhắn từ cùng một khách hàng trong một lần chia tách; sử dụng xác thực chéo để ước tính phương sai [5].
Chú thích với QA - hai người chú thích trên một tập hợp con; giải quyết bất đồng; cập nhật hướng dẫn.
Đào tạo một đường cơ sở đơn giản - trước tiên là về hậu cần (ví dụ: mô hình tuyến tính hoặc máy biến áp nhỏ gọn). Mục đích là để kiểm tra dữ liệu, chứ không phải để giành huy chương.
Xem lại lỗi - lỗi ở đâu và tại sao; cập nhật toàn bộ tập dữ liệu, không chỉ mô hình.
Tài liệu - bảng dữ liệu nhỏ: nguồn, liên kết hướng dẫn nhãn, phân tách, giới hạn đã biết, giấy phép [1].
Làm mới kế hoạch - các danh mục mới, tiếng lóng mới, tên miền mới xuất hiện; lên lịch cập nhật nhỏ, thường xuyên [3].

Bạn sẽ học được nhiều điều từ vòng lặp này hơn là từ hàng ngàn lời khuyên nóng hổi. Ngoài ra, hãy sao lưu dữ liệu nhé.

Những cạm bẫy thường gặp của các đội 🪤

Rò rỉ dữ liệu - câu trả lời lọt vào các tính năng (ví dụ: sử dụng các trường sau khi giải quyết để dự đoán kết quả). Cảm giác như gian lận vì đúng là như vậy.
Sự đa dạng nông cạn - một địa lý hoặc thiết bị ngụy trang thành toàn cầu. Các thử nghiệm sẽ tiết lộ nút thắt cốt truyện.
Sự thay đổi nhãn - các tiêu chí thay đổi theo thời gian nhưng hướng dẫn đặt nhãn thì không. Hãy lập tài liệu và quản lý phiên bản cho hệ thống phân loại của bạn.
Mục tiêu không được xác định rõ ràng - nếu bạn không thể định nghĩa một dự đoán tồi, dữ liệu của bạn cũng sẽ không thể định nghĩa được.
Giấy phép lộn xộn - xóa ngay, xin lỗi sau không phải là chiến lược.
Tăng cường quá mức - dữ liệu tổng hợp dạy những hiện tượng không thực tế, như đào tạo đầu bếp về trái cây nhựa.

Câu hỏi thường gặp nhanh về cụm từ này ❓

Liệu câu hỏi “Bộ dữ liệu AI là gì?” chỉ đơn thuần là vấn đề định nghĩa? Phần lớn là vậy, nhưng nó cũng cho thấy bạn quan tâm đến những chi tiết nhỏ nhặt nhưng quan trọng để tạo nên độ tin cậy của các mô hình.
Tôi có luôn cần nhãn không? Không. Các thiết lập không giám sát, tự giám sát và RL thường bỏ qua nhãn rõ ràng, nhưng việc quản lý vẫn quan trọng.
Tôi có thể sử dụng dữ liệu công khai cho bất kỳ mục đích gì không? Không. Hãy tôn trọng giấy phép, điều khoản nền tảng và nghĩa vụ bảo mật [4].
Lớn hơn hay tốt hơn? Lý tưởng nhất là cả hai. Nếu phải lựa chọn, hãy chọn tốt hơn trước.

Lời kết - Những gì bạn có thể chụp ảnh màn hình 📌

Nếu ai đó hỏi bạn bộ dữ liệu AI là gì, hãy nói: đó là một tập hợp các ví dụ được chọn lọc và ghi chép lại, dùng để dạy và kiểm tra mô hình, được quản lý chặt chẽ để mọi người có thể tin tưởng vào kết quả. Các bộ dữ liệu tốt nhất là những bộ dữ liệu mang tính đại diện, được gắn nhãn rõ ràng, hợp pháp và được duy trì liên tục. Phần còn lại là các chi tiết – những chi tiết quan trọng – về cấu trúc, phân chia và tất cả những rào cản nhỏ giúp mô hình tránh đi lạc hướng. Đôi khi quá trình này giống như làm vườn bằng bảng tính; đôi khi giống như chăn dắt các điểm ảnh. Dù sao đi nữa, hãy đầu tư vào dữ liệu, và mô hình của bạn sẽ hoạt động ít kỳ lạ hơn. 🌱🤖

Tài liệu tham khảo

[1] Bảng dữ liệu cho các tập dữ liệu - Gebru et al., arXiv. Liên kết
[2] Thẻ mô hình để báo cáo mô hình - Mitchell et al., arXiv. Liên kết
[3] Khung quản lý rủi ro trí tuệ nhân tạo của NIST (AI RMF 1.0). Liên kết
[4] Hướng dẫn và tài nguyên GDPR của Vương quốc Anh - Văn phòng Ủy viên Thông tin (ICO). Liên kết
[5] Kiểm định chéo: đánh giá hiệu suất của bộ ước lượng - Hướng dẫn sử dụng scikit-learn. Liên kết

Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Quay lại blog