Lưu trữ đối tượng cho AI: Vô vàn lựa chọn!

Khi hầu hết mọi người nghe đến "trí tuệ nhân tạo", họ thường hình dung ra mạng nơ-ron, các thuật toán phức tạp, hoặc có thể là những con robot hình người hơi kỳ lạ. Điều hiếm khi được đề cập ngay từ đầu là: AI ngốn dung lượng lưu trữ gần như ngang bằng với mức độ xử lý. Và không chỉ là bất kỳ loại lưu trữ nào - lưu trữ đối tượng nằm im lặng ở phía sau, thực hiện công việc không hào nhoáng nhưng hoàn toàn cần thiết là cung cấp dữ liệu cần thiết cho các mô hình.

Hãy cùng phân tích điều gì khiến lưu trữ đối tượng trở nên quan trọng đối với AI, nó khác biệt như thế nào so với các hệ thống lưu trữ "truyền thống", và tại sao nó lại trở thành một trong những yếu tố then chốt cho khả năng mở rộng và hiệu suất.

Những bài viết bạn có thể muốn đọc sau bài này:

🔗 Những công nghệ nào cần thiết để sử dụng trí tuệ nhân tạo tạo sinh quy mô lớn cho doanh nghiệp?
Các công nghệ then chốt mà doanh nghiệp cần để mở rộng quy mô trí tuệ nhân tạo tạo sinh một cách hiệu quả.

🔗 Quản lý dữ liệu cho các công cụ AI mà bạn nên xem xét
Các phương pháp tốt nhất để xử lý dữ liệu nhằm tối ưu hóa hiệu suất AI.

🔗 Tác động của trí tuệ nhân tạo đối với chiến lược kinh doanh
Tác động của trí tuệ nhân tạo (AI) đến chiến lược kinh doanh và việc ra quyết định dài hạn.

Điều gì khiến lưu trữ đối tượng trở nên hiệu quả đối với AI? 🌟

Ý tưởng lớn: lưu trữ đối tượng không bận tâm đến thư mục hoặc bố cục khối cứng nhắc. Nó chia dữ liệu thành “đối tượng”, mỗi đối tượng được gắn thẻ siêu dữ liệu. Siêu dữ liệu đó có thể là thông tin cấp hệ thống (kích thước, dấu thời gian, lớp lưu trữ) và thẻ khóa:giá trị do người dùng định nghĩa [1]. Hãy nghĩ về nó như mỗi tệp mang theo một chồng ghi chú dán cho bạn biết chính xác nó là gì, nó được tạo ra như thế nào và nó phù hợp ở đâu trong quy trình của bạn.

Đối với các nhóm phát triển trí tuệ nhân tạo, sự linh hoạt đó là yếu tố thay đổi cuộc chơi:

Mở rộng quy mô mà không gặp khó khăn - Hồ dữ liệu có thể mở rộng đến petabyte và kho lưu trữ đối tượng xử lý điều đó một cách dễ dàng. Chúng được thiết kế để tăng trưởng gần như không giới hạn và độ bền đa vùng khả dụng (Amazon S3 tự hào về “11 số 9” và sao chép chéo vùng theo mặc định) [2].
Sự phong phú của siêu dữ liệu - Tìm kiếm nhanh hơn, bộ lọc sạch hơn và quy trình thông minh hơn vì ngữ cảnh đi kèm với mỗi đối tượng [1].
Kiến trúc đám mây gốc - Dữ liệu được truyền tải qua HTTP(S), điều này có nghĩa là bạn có thể song song hóa việc tải dữ liệu và duy trì hoạt động đào tạo phân tán một cách trơn tru.
Khả năng phục hồi được tích hợp sẵn - Khi bạn huấn luyện trong nhiều ngày, bạn không thể mạo hiểm để một phân mảnh bị hỏng giết chết kỷ nguyên 12. Lưu trữ đối tượng tránh điều đó theo thiết kế [2].

Về cơ bản, nó là một chiếc ba lô không đáy: bên trong có thể hơi lộn xộn, nhưng bạn vẫn có thể lấy mọi thứ ra khi cần.

Bảng so sánh nhanh các giải pháp lưu trữ đối tượng AI 🗂️

Công cụ / Dịch vụ	Phù hợp nhất cho (Đối tượng khán giả)	Khoảng giá	Lý do tại sao nó hiệu quả (Ghi chú ở lề)
Amazon S3	Các doanh nghiệp + Nhóm ưu tiên điện toán đám mây	Thanh toán theo từng lần sử dụng	Cực kỳ bền bỉ, có khả năng phục hồi theo khu vực [2]
Lưu trữ đám mây Google	Các nhà khoa học dữ liệu & nhà phát triển học máy	Các cấp độ linh hoạt	Tích hợp mạnh mẽ với học máy, hoàn toàn dựa trên nền tảng đám mây
Lưu trữ Blob Azure	Các cửa hàng sử dụng nhiều sản phẩm của Microsoft	Phân tầng (nóng/lạnh)	Tích hợp liền mạch với các công cụ dữ liệu và học máy của Azure
MiniIO	Các thiết lập mã nguồn mở / tự làm	Miễn phí/tự lưu trữ	Tương thích S3, trọng lượng nhẹ, có thể triển khai ở bất cứ đâu 🚀
Wasabi Hot Cloud	Các tổ chức nhạy cảm về chi phí	Mức phí cố định thấp $	Không có phí thoát ra hoặc yêu cầu API (theo chính sách) [3]
Lưu trữ đối tượng đám mây IBM	Các doanh nghiệp lớn	Tùy thuộc vào từng trường hợp	Nền tảng phần mềm hoàn thiện với các tùy chọn bảo mật cấp doanh nghiệp mạnh mẽ

Luôn kiểm tra kỹ giá cả dựa trên mức sử dụng thực tế của bạn - đặc biệt là lưu lượng truy xuất, khối lượng yêu cầu và sự kết hợp các loại thiết bị lưu trữ.

Vì sao việc huấn luyện AI lại ưa thích lưu trữ đối tượng 🧠

Việc huấn luyện không chỉ đơn giản là "một vài tập tin". Đó là hàng triệu triệu bản ghi được xử lý song song. Hệ thống tập tin phân cấp sẽ bị quá tải khi xử lý đồng thời khối lượng lớn. Lưu trữ đối tượng giải quyết vấn đề đó bằng cách sử dụng không gian tên phẳng và API rõ ràng. Mỗi đối tượng có một khóa duy nhất; các worker phân tán và thực hiện truy xuất song song. Tập dữ liệu phân mảnh + I/O song song = GPU luôn hoạt động thay vì phải chờ đợi.

Mẹo từ thực tiễn: giữ các phân vùng nóng gần cụm tính toán (cùng khu vực hoặc vùng) và lưu vào bộ nhớ đệm một cách mạnh mẽ trên SSD. Nếu bạn cần nguồn cấp gần như trực tiếp cho GPU, NVIDIA GPUDirect Storage đáng để xem xét - nó cắt giảm bộ đệm chuyển tiếp CPU, giảm độ trễ và tăng băng thông trực tiếp đến bộ tăng tốc [4].

Siêu dữ liệu: Siêu năng lực bị đánh giá thấp 🪄

Đây là nơi mà lưu trữ đối tượng tỏa sáng theo những cách ít rõ ràng hơn. Khi tải lên, bạn có thể đính kèm siêu dữ liệu tùy chỉnh (như x-amz-meta-… cho S3). Ví dụ, một tập dữ liệu hình ảnh có thể gắn thẻ hình ảnh với ánh sáng=thấp hoặc độ mờ=cao. Điều đó cho phép các quy trình lọc, cân bằng hoặc phân tầng mà không cần quét lại các tệp thô [1].

Và sau đó là việc quản lý phiên bản. Nhiều kho lưu trữ đối tượng giữ nhiều phiên bản của một đối tượng song song - hoàn hảo cho các thí nghiệm có thể tái tạo hoặc các chính sách quản trị cần hoàn tác [5].

Lưu trữ đối tượng so với lưu trữ khối so với lưu trữ tệp ⚔️

Lưu trữ khối: Tuyệt vời cho cơ sở dữ liệu giao dịch - nhanh và chính xác - nhưng quá đắt đối với dữ liệu phi cấu trúc quy mô petabyte.
Lưu trữ tập tin: Quen thuộc, thân thiện với POSIX, nhưng thư mục dễ bị quá tải khi xử lý lượng truy cập song song lớn.
Lưu trữ đối tượng: Được thiết kế từ đầu để mở rộng quy mô, song song và truy cập dựa trên siêu dữ liệu [1].

Nếu bạn muốn một phép so sánh vụng về: bộ nhớ khối là một tủ hồ sơ, bộ nhớ tệp là một thư mục trên máy tính để bàn, còn bộ nhớ đối tượng là… một cái hố không đáy với những mẩu giấy ghi chú dính bết mà bằng cách nào đó khiến nó trở nên hữu dụng.

Quy trình làm việc AI lai 🔀

Không phải lúc nào cũng chỉ có mây. Một sự kết hợp phổ biến trông như sau:

Lưu trữ đối tượng tại chỗ (MinIO, Dell ECS) dành cho dữ liệu nhạy cảm hoặc dữ liệu thuộc diện quản lý chặt chẽ.
Lưu trữ đối tượng trên đám mây dành cho các tác vụ đột biến, thử nghiệm hoặc cộng tác.

Sự cân bằng này ảnh hưởng đến chi phí, tuân thủ và tính linh hoạt. Tôi đã thấy các nhóm thực sự đổ hàng terabyte dữ liệu qua đêm vào một thùng S3 chỉ để khởi động một cụm GPU tạm thời - sau đó xóa sạch tất cả khi sprint kết thúc. Với ngân sách eo hẹp hơn, mô hình giá cố định/không truyền dữ liệu ra ngoài của Wasabi [3] giúp việc dự báo dễ dàng hơn.

Phần mà chẳng ai muốn khoe khoang cả 😅

Thực tế là: nó không hoàn hảo.

Độ trễ - Đặt máy tính và bộ nhớ quá xa nhau sẽ khiến GPU của bạn hoạt động chậm chạp. GDS giúp ích nhưng kiến trúc vẫn quan trọng [4].
Chi phí bất ngờ - Phí truy cập ra và yêu cầu API bất ngờ xuất hiện. Một số nhà cung cấp miễn phí (Wasabi miễn phí; những nhà cung cấp khác thì không) [3].
Sự hỗn loạn siêu dữ liệu ở quy mô lớn - Ai định nghĩa “sự thật” trong thẻ và phiên bản? Bạn sẽ cần hợp đồng, chính sách và một số quyền lực quản trị [5].

Lưu trữ đối tượng là hệ thống đường ống hạ tầng: rất quan trọng, nhưng không hào nhoáng.

Nó đang hướng đến đâu 🚀

Lưu trữ thông minh hơn, nhận biết AI, tự động gắn thẻ và hiển thị dữ liệu thông qua các lớp truy vấn giống SQL [1].
Tích hợp phần cứng chặt chẽ hơn (đường dẫn DMA, giảm tải NIC) để GPU không bị thiếu I/O [4].
Giá cả minh bạch, có thể dự đoán được (mô hình đơn giản hóa, miễn phí phí thoát) [3].

Mọi người thường nói về điện toán như là tương lai của trí tuệ nhân tạo. Nhưng trên thực tế? Điểm nghẽn nằm ở việc cung cấp dữ liệu cho các mô hình một cách nhanh chóng mà không vượt quá ngân sách. Đó là lý do tại sao vai trò của lưu trữ đối tượng ngày càng trở nên quan trọng.

Tóm tắt 📝

Lưu trữ đối tượng không hào nhoáng, nhưng nó là nền tảng. Nếu không có hệ thống lưu trữ có khả năng mở rộng, nhận biết siêu dữ liệu và bền vững, việc huấn luyện các mô hình lớn sẽ giống như chạy marathon bằng dép xăng đan.

Vậy nên, đúng là GPU rất quan trọng, framework cũng vậy. Nhưng nếu bạn thực sự nghiêm túc với AI, đừng bỏ qua nơi dữ liệu của bạn được lưu trữ. Rất có thể, lưu trữ đối tượng (object storage) đang âm thầm làm chậm toàn bộ hoạt động.

Tài liệu tham khảo

[1] AWS S3 – Siêu dữ liệu đối tượng - siêu dữ liệu hệ thống và tùy chỉnh
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html

[2] AWS S3 – Các lớp lưu trữ - độ bền (“11 số 9”) + khả năng phục hồi
https://aws.amazon.com/s3/storage-classes/

[3] Wasabi Hot Cloud – Giá cả - giá cố định, không có phí truyền tải/API
https://wasabi.com/pricing

[4] NVIDIA GPUDirect Storage – Tài liệu - Đường dẫn DMA đến GPU
https://docs.nvidia.com/gpudirect-storage/

[5] AWS S3 – Phiên bản - nhiều phiên bản để quản trị/khả năng tái tạo
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html

Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Quay lại blog