Thị giác máy tính trong trí tuệ nhân tạo là gì?

Nếu bạn từng mở khóa điện thoại bằng khuôn mặt, quét hóa đơn, hoặc nhìn chằm chằm vào camera máy thanh toán tự động và tự hỏi liệu nó có đang đánh giá quả bơ của bạn hay không, thì bạn đã tiếp xúc với thị giác máy tính. Nói một cách đơn giản, thị giác máy tính trong trí tuệ nhân tạo là cách máy móc học cách nhìn và hiểu hình ảnh và video đủ tốt để đưa ra quyết định. Hữu ích? Chắc chắn rồi. Đôi khi gây ngạc nhiên? Cũng đúng vậy. Và đôi khi hơi đáng sợ nếu chúng ta thành thật. Ở trạng thái tốt nhất, nó biến những điểm ảnh lộn xộn thành những hành động thực tế. Ở trạng thái tệ nhất, nó đoán mò và hoạt động không ổn định. Hãy cùng tìm hiểu kỹ hơn.

Những bài viết bạn có thể muốn đọc sau bài này:

🔗 Thiên kiến trong AI là gì?
Thiên kiến hình thành như thế nào trong các hệ thống AI và các cách để phát hiện và giảm thiểu nó.

🔗 Trí tuệ nhân tạo dự đoán là gì?
Trí tuệ nhân tạo dự đoán sử dụng dữ liệu như thế nào để dự đoán xu hướng và kết quả.

🔗 Người huấn luyện AI là gì?
Trách nhiệm, kỹ năng và công cụ được sử dụng bởi các chuyên gia huấn luyện AI.

🔗 Google Vertex AI là gì?
Tổng quan về nền tảng AI thống nhất của Google để xây dựng và triển khai các mô hình.

Thị giác máy tính trong trí tuệ nhân tạo chính xác là gì? 📸

Thị giác máy tính trong AI là nhánh của trí tuệ nhân tạo dạy máy tính diễn giải và suy luận về dữ liệu hình ảnh. Đó là quy trình từ các pixel thô đến ý nghĩa có cấu trúc: “đây là biển báo dừng”, “đó là người đi bộ”, “mối hàn bị lỗi”, “tổng hóa đơn ở đây”. Nó bao gồm các nhiệm vụ như phân loại, phát hiện, phân đoạn, theo dõi, ước tính độ sâu, OCR, và nhiều hơn nữa - được kết nối với nhau bằng các mô hình học mẫu. Lĩnh vực chính thức trải dài từ hình học cổ điển đến học sâu hiện đại, với các sách hướng dẫn thực tiễn mà bạn có thể sao chép và điều chỉnh. [1]

Một câu chuyện ngắn gọn: hãy tưởng tượng một dây chuyền đóng gói với một camera 720p đơn giản. Một bộ cảm biến nhỏ gọn sẽ phát hiện nắp chai, và một bộ theo dõi đơn giản sẽ xác nhận chúng được căn chỉnh đúng trong năm khung hình liên tiếp trước khi cho phép đóng gói chai. Không cầu kỳ - nhưng rẻ, nhanh và giảm thiểu việc làm lại.

Điều gì khiến Thị giác máy tính trở nên hữu ích trong Trí tuệ nhân tạo? ✅

Quy trình từ tín hiệu đến hành động : Thông tin trực quan trở thành kết quả có thể hành động. Ít bảng điều khiển hơn, nhiều quyết định hơn.
Khái quát : Với dữ liệu phù hợp, một mô hình có thể xử lý nhiều loại hình ảnh khác nhau. Không phải hoàn hảo, nhưng đôi khi lại tốt đến mức đáng kinh ngạc.
Tận dụng dữ liệu : Máy ảnh giá rẻ và có ở khắp mọi nơi. Công nghệ xử lý hình ảnh biến biển pixel đó thành thông tin hữu ích.
Tốc độ : Các mô hình có thể xử lý khung hình trong thời gian thực trên phần cứng tầm trung - hoặc gần thời gian thực, tùy thuộc vào tác vụ và độ phân giải.
Khả năng kết hợp : Chuỗi các bước đơn giản thành các hệ thống đáng tin cậy: phát hiện → theo dõi → kiểm soát chất lượng.
Hệ sinh thái : Công cụ, mô hình được huấn luyện trước, tiêu chuẩn đánh giá và hỗ trợ cộng đồng - một khu chợ mã nguồn rộng lớn.

Thành thật mà nói, bí quyết thành công chẳng phải là bí mật gì cả: dữ liệu tốt, đánh giá bài bản, triển khai cẩn thận. Phần còn lại là thực hành... và có lẽ là cà phê. ☕

Cách thức của Thị giác máy tính trong Trí tuệ nhân tạo, được thể hiện trong một quy trình mạch lạc 🧪

Thu thập hình ảnh:
Máy ảnh, máy quét, máy bay không người lái, điện thoại. Chọn loại cảm biến, độ phơi sáng, ống kính và tốc độ khung hình cẩn thận. Loại bỏ ảnh nhiễu, v.v.
Xử lý trước
Thay đổi kích thước, cắt xén, chuẩn hóa, làm mờ hoặc khử nhiễu nếu cần. Đôi khi chỉ cần điều chỉnh độ tương phản nhỏ cũng có thể tạo ra sự khác biệt lớn. [4]
Nhãn và tập dữ liệu:
Hộp giới hạn, đa giác, điểm đặc trưng, đoạn văn bản. Nhãn cân bằng, mang tính đại diện - nếu không mô hình của bạn sẽ học được những thói quen không cân đối.
Mô hình hóa
- Phân loại : “Thuộc loại nào?”
- Phát hiện : “Các vật thể ở đâu?”
- Phân đoạn : “Điểm ảnh nào thuộc về đối tượng nào?”
- Các điểm chính và tư thế : “Các khớp hoặc mốc giải phẫu nằm ở đâu?”
- OCR : “Văn bản nào có trong hình ảnh?”
- Độ sâu & 3D : “Mọi thứ ở xa đến mức nào?”
  Kiến trúc khác nhau, nhưng mạng tích chập và mô hình kiểu transformer chiếm ưu thế. [1]
Huấn luyện
chia dữ liệu, tinh chỉnh siêu tham số, chuẩn hóa, tăng cường. Dừng sớm trước khi ghi nhớ hình nền.
Đánh giá
Sử dụng các chỉ số phù hợp với nhiệm vụ như mAP, IoU, F1, CER/WER cho OCR. Không chọn lọc. So sánh một cách công bằng. [3]
triển khai
cho mục tiêu: các tác vụ xử lý hàng loạt trên đám mây, suy luận trên thiết bị, máy chủ biên. Giám sát sự thay đổi. Huấn luyện lại khi môi trường thay đổi.

Mạng nơ-ron sâu đã thúc đẩy một bước nhảy vọt về chất lượng khi các tập dữ liệu lớn và khả năng tính toán đạt đến mức độ quan trọng. Các tiêu chuẩn như thử thách ImageNet đã cho thấy sự tiến bộ đó rõ ràng và không ngừng nghỉ. [2]

Các nhiệm vụ chính mà bạn sẽ thực sự sử dụng (và khi nào) 🧩

Phân loại hình ảnh : Mỗi hình ảnh một nhãn. Sử dụng để lọc nhanh, phân loại ban đầu hoặc kiểm tra chất lượng.
Phát hiện vật thể : Khung bao quanh vật thể. Ngăn ngừa mất mát trong bán lẻ, phát hiện phương tiện, đếm số lượng động vật hoang dã.
Phân đoạn đối tượng : Hình bóng chính xác đến từng pixel cho mỗi đối tượng. Các lỗi sản xuất, dụng cụ phẫu thuật, công nghệ nông nghiệp.
Phân đoạn ngữ nghĩa : Phân loại theo từng pixel mà không cần tách rời các đối tượng. Cảnh đường phố đô thị, lớp phủ đất.
Phát hiện điểm mấu chốt & tư thế : Khớp, điểm mốc, đặc điểm khuôn mặt. Phân tích thể thao, công thái học, thực tế ảo tăng cường (AR).
Theo dõi : Giám sát các đối tượng theo thời gian. Ứng dụng trong hậu cần, giao thông, an ninh.
Nhận dạng ký tự quang học (OCR) và trí tuệ nhân tạo tài liệu : Trích xuất văn bản và phân tích bố cục. Hóa đơn, biên lai, biểu mẫu.
Chiều sâu & 3D : Tái tạo từ nhiều góc nhìn hoặc tín hiệu đơn sắc. Robot học, thực tế tăng cường, lập bản đồ.
Chú thích hình ảnh : Tóm tắt cảnh bằng ngôn ngữ tự nhiên. Khả năng truy cập, tìm kiếm.
Mô hình ngôn ngữ-hình ảnh : Suy luận đa phương thức, hình ảnh tăng cường truy xuất, hỏi đáp dựa trên ngữ cảnh.

Cảm nhận về một hệ thống nhỏ gọn: tại các cửa hàng, một thiết bị phát hiện sẽ báo hiệu những kệ hàng bị thiếu; một thiết bị theo dõi ngăn ngừa việc đếm trùng lặp khi nhân viên bổ sung hàng; một quy tắc đơn giản sẽ chuyển các khung hình có độ tin cậy thấp đến bộ phận kiểm tra thủ công. Đó là một dàn nhạc nhỏ hoạt động khá ăn ý.

Bảng so sánh: các công cụ giúp vận chuyển nhanh hơn 🧰

Hơi lập dị một chút là có chủ ý. Vâng, khoảng cách giữa các dòng hơi kỳ lạ - tôi biết.

Công cụ / Khung	Tốt nhất cho	Giấy phép/Giá	Lý do tại sao nó hiệu quả trong thực tế
OpenCV	Tiền xử lý, thị giác máy tính cổ điển, các thử nghiệm nhanh	Miễn phí - mã nguồn mở	Bộ công cụ khổng lồ, API ổn định, đã được thử nghiệm qua thực tế; đôi khi đó là tất cả những gì bạn cần. [4]
PyTorch	Đào tạo thân thiện với nghiên cứu	Miễn phí	Đồ thị động, hệ sinh thái khổng lồ, nhiều hướng dẫn.
TensorFlow/Keras	Sản xuất quy mô lớn	Miễn phí	Các tùy chọn hiển thị đa dạng, tốt cho cả thiết bị di động và thiết bị đầu cuối.
Ultralytics YOLO	Phát hiện đối tượng nhanh	Tiện ích bổ sung miễn phí + trả phí	Đường chạy luyện tập đơn giản, đòi hỏi tốc độ và độ chính xác cao, mang tính cá nhân nhưng thoải mái.
Detectron2 / MMDetection	Đường cơ sở vững chắc, phân khúc	Miễn phí	Các mô hình chuẩn mực với kết quả có thể tái lập.
OpenVINO / ONNX Runtime	Tối ưu hóa suy luận	Miễn phí	Giảm thiểu độ trễ, triển khai rộng rãi mà không cần viết lại mã.
Tesseract	Nhận dạng ký tự quang học (OCR) với ngân sách hạn chế	Miễn phí	Nó hoạt động khá tốt nếu bạn làm sạch hình ảnh… đôi khi bạn thực sự nên làm vậy.

Điều gì thúc đẩy chất lượng trong Thị giác máy tính trong Trí tuệ nhân tạo ? 🔧

Phạm vi dữ liệu : Thay đổi ánh sáng, góc độ, phông nền, các trường hợp ngoại lệ. Nếu có thể xảy ra, hãy bao gồm nó.
Chất lượng nhãn : Các ô không nhất quán hoặc các đa giác cẩu thả sẽ phá hỏng mAP. Một chút kiểm tra chất lượng sẽ tạo ra sự khác biệt lớn.
Các thao tác chỉnh sửa thông minh : Cắt xén, xoay, điều chỉnh độ sáng, thêm nhiễu nhân tạo. Hãy tạo sự chân thực, chứ không phải sự hỗn loạn ngẫu nhiên.
Lựa chọn mô hình phù hợp : Sử dụng phương pháp phát hiện khi cần thiết - đừng ép buộc bộ phân loại phải đoán vị trí.
Các chỉ số phù hợp với tác động : Nếu sai sót âm tính gây hại nhiều hơn, hãy tối ưu hóa độ thu hồi. Nếu sai sót dương tính gây hại nhiều hơn, hãy ưu tiên độ chính xác.
Vòng phản hồi chặt chẽ : Ghi lại lỗi, dán nhãn lại, đào tạo lại. Lặp đi lặp lại. Hơi nhàm chán nhưng cực kỳ hiệu quả.

Đối với việc phát hiện/phân đoạn, tiêu chuẩn cộng đồng là Độ chính xác trung bình trên các ngưỡng IoU - hay còn gọi là mAP kiểu COCO . Việc biết cách tính IoU và AP@{0.5:0.95} giúp tránh những tuyên bố về bảng xếp hạng làm bạn choáng ngợp với các số thập phân. [3]

Các trường hợp sử dụng thực tế, không phải giả thuyết 🌍

Bán lẻ : Phân tích kệ hàng, phòng ngừa thất thoát hàng hóa, giám sát xếp hàng, tuân thủ sơ đồ trưng bày sản phẩm.
Sản xuất : Phát hiện lỗi bề mặt, kiểm tra lắp ráp, điều khiển robot.
Chăm sóc sức khỏe : Phân loại bệnh nhân trong chụp X-quang, phát hiện thiết bị, phân đoạn tế bào.
Di chuyển : Hệ thống hỗ trợ lái xe tiên tiến (ADAS), camera giao thông, theo dõi chỗ đỗ xe, theo dõi phương tiện di chuyển siêu nhỏ.
Nông nghiệp : Đếm số lượng cây trồng, phát hiện bệnh, chuẩn bị thu hoạch.
Bảo hiểm & Tài chính : Đánh giá thiệt hại, kiểm tra thông tin khách hàng (KYC), cảnh báo gian lận.
Xây dựng & Năng lượng : Tuân thủ quy định an toàn, phát hiện rò rỉ, giám sát ăn mòn.
Nội dung & Khả năng truy cập : Phụ đề tự động, kiểm duyệt, tìm kiếm trực quan.

Bạn sẽ dễ nhận thấy một quy luật: thay thế việc quét thủ công bằng phân loại tự động, sau đó chuyển sang cho con người khi độ tin cậy giảm xuống. Không hào nhoáng - nhưng nó có thể mở rộng quy mô.

Dữ liệu, nhãn và các chỉ số quan trọng 📊

Phân loại : Độ chính xác, F1 cho sự mất cân bằng.
Phát hiện : mAP trên ngưỡng IoU; kiểm tra AP theo từng lớp và các nhóm kích thước. [3]
Phân đoạn : mIoU, Dice; kiểm tra cả các lỗi ở cấp độ phiên bản.
Theo dõi : MOTA, IDF1; chất lượng nhận dạng lại là yếu tố quan trọng thầm lặng.
OCR : Tỷ lệ lỗi ký tự (CER) và tỷ lệ lỗi từ (WER); lỗi bố cục thường chiếm ưu thế.
Các tác vụ hồi quy : Độ sâu hoặc tư thế sử dụng sai số tuyệt đối/tương đối (thường trên thang logarit).

Hãy ghi lại quy trình đánh giá của bạn để người khác có thể sao chép. Việc này có vẻ không hấp dẫn, nhưng nó giúp bạn trung thực hơn.

Xây dựng hay mua sẵn - và nên triển khai ở đâu? 🏗️

Điện toán đám mây : Dễ bắt đầu nhất, tuyệt vời cho các tác vụ xử lý theo lô. Cần lưu ý chi phí truyền dữ liệu ra khỏi hệ thống.
Thiết bị biên : Độ trễ thấp hơn và quyền riêng tư tốt hơn. Bạn sẽ quan tâm đến lượng tử hóa, cắt tỉa và bộ tăng tốc.
Ứng dụng di động trên thiết bị : Tuyệt vời khi phù hợp. Tối ưu hóa các mẫu và thời lượng pin.
Giải pháp lai : Lọc sơ bộ ở thiết bị đầu cuối, xử lý mạnh mẽ trên đám mây. Một sự thỏa hiệp tốt.

Một bộ công cụ đáng tin cậy đến mức nhàm chán: nguyên mẫu với PyTorch, huấn luyện một bộ dò tiêu chuẩn, xuất sang ONNX, tăng tốc với OpenVINO/ONNX Runtime và sử dụng OpenCV để xử lý trước và hình học (hiệu chuẩn, phép biến đổi đồng nhất, hình thái học). [4]

Rủi ro, đạo đức và những vấn đề khó nói ⚖️

Hệ thống thị giác có thể kế thừa những sai lệch trong tập dữ liệu hoặc những điểm mù trong hoạt động. Các đánh giá độc lập (ví dụ: NIST FRVT) đã đo lường sự khác biệt về nhân khẩu học trong tỷ lệ lỗi nhận dạng khuôn mặt giữa các thuật toán và điều kiện. Đó không phải là lý do để hoảng sợ, nhưng đó là lý do để kiểm tra cẩn thận, ghi lại những hạn chế và liên tục giám sát trong quá trình sản xuất. Nếu bạn triển khai các trường hợp sử dụng liên quan đến danh tính hoặc an toàn, hãy bao gồm cơ chế xem xét và kháng nghị của con người. Quyền riêng tư, sự đồng ý và tính minh bạch không phải là những thứ tùy chọn thêm. [5]

Một lộ trình khởi đầu nhanh chóng mà bạn thực sự có thể làm theo 🗺️

Xác định quyết định:
Hệ thống nên hành động như thế nào sau khi xem hình ảnh? Điều này giúp bạn tránh tối ưu hóa các chỉ số phù phiếm.
Thu thập một bộ dữ liệu sơ sài.
Bắt đầu với vài trăm hình ảnh phản ánh môi trường thực tế của bạn. Ghi chú cẩn thận - ngay cả khi đó chỉ là bạn và ba mẩu giấy ghi chú.
Chọn một mô hình cơ bản.
Chọn một kiến trúc cơ bản đơn giản với trọng số được huấn luyện trước. Đừng vội theo đuổi các kiến trúc lạ. [1]
Đào tạo, ghi nhật ký, đánh giá.
Theo dõi các chỉ số, điểm gây nhầm lẫn và các chế độ lỗi. Ghi chép lại những "trường hợp kỳ lạ" - tuyết, chói sáng, phản chiếu, phông chữ lạ.
Siết chặt vòng lặp
Thêm các giá trị âm tính cứng, sửa lỗi trôi nhãn, điều chỉnh các phép tăng cường và điều chỉnh lại ngưỡng. Những điều chỉnh nhỏ cộng lại sẽ tạo nên sự khác biệt. [3]
Triển khai một phiên bản thu gọn
, lượng tử hóa và xuất dữ liệu. Đo độ trễ/thông lượng trong môi trường thực tế, chứ không phải trên một bài kiểm tra thử nghiệm đơn giản.
Theo dõi và lặp lại
. Thu thập các lỗi, gắn nhãn lại, huấn luyện lại. Lên lịch đánh giá định kỳ để mô hình của bạn không bị "hóa thạch".

Mẹo hay: hãy chú thích một bộ chiến thuật nhỏ mà người đồng đội hay hoài nghi nhất của bạn đã sử dụng. Nếu họ không thể tìm ra điểm yếu của nó, có lẽ bạn đã sẵn sàng rồi.

Những lỗi thường gặp bạn nên tránh 🧨

Luyện tập với hình ảnh trong studio sạch sẽ, sau đó áp dụng vào thực tế với mưa trên ống kính.
Tối ưu hóa mAP tổng thể khi bạn thực sự quan tâm đến một lớp quan trọng. [3]
Phớt lờ sự bất bình đẳng giai cấp rồi tự hỏi tại sao những sự kiện hiếm hoi lại biến mất.
Tăng cường quá mức cho đến khi mô hình học được các thành phần nhân tạo.
Bỏ qua việc hiệu chỉnh máy ảnh và sau đó phải vật lộn với lỗi phối cảnh mãi mãi. [4]
Tin vào số liệu bảng xếp hạng mà không sao chép thiết lập đánh giá chính xác. [2][3]

Các nguồn đáng lưu lại 🔗

Nếu bạn thích tài liệu gốc và ghi chú khóa học, đây là những tài liệu quý giá về kiến thức cơ bản, thực hành và đánh giá. Xem Tài liệu tham khảo để biết các liên kết: ghi chú CS231n, bài báo về thử thách ImageNet, tài liệu về bộ dữ liệu/đánh giá COCO, tài liệu OpenCV và báo cáo NIST FRVT. [1][2][3][4][5]

Lời kết - hay "Quá dài, không đọc" 🍃

Thị giác máy tính trong Trí tuệ nhân tạo biến các điểm ảnh thành quyết định. Nó tỏa sáng khi bạn kết hợp đúng nhiệm vụ với đúng dữ liệu, đo lường đúng thứ cần đo và lặp lại với sự kỷ luật cao độ. Công cụ hỗ trợ rất phong phú, các tiêu chuẩn đánh giá được công khai, và con đường từ nguyên mẫu đến sản phẩm cuối cùng ngắn đến bất ngờ nếu bạn tập trung vào quyết định cuối cùng. Hãy xác định rõ nhãn dữ liệu, chọn các chỉ số phù hợp với tác động và để các mô hình làm phần việc khó khăn. Và nếu một phép ẩn dụ giúp ích – hãy nghĩ về nó như việc dạy một thực tập sinh nhanh nhẹn nhưng cứng nhắc cách nhận ra điều gì quan trọng. Bạn đưa ra ví dụ, sửa lỗi và dần dần tin tưởng giao cho họ công việc thực tế. Không hoàn hảo, nhưng đủ gần để tạo ra sự thay đổi. 🌟

Tài liệu tham khảo

CS231n: Học sâu cho thị giác máy tính (ghi chú bài giảng) - Đại học Stanford.
Đọc thêm
Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (bài báo) - Russakovsky et al.
đọc thêm
Bộ dữ liệu & Đánh giá COCO - Trang web chính thức (định nghĩa nhiệm vụ và quy ước mAP/IoU).
Đọc thêm
Tài liệu OpenCV (phiên bản 4.x) - Các mô-đun dành cho tiền xử lý, hiệu chuẩn, hình thái học, v.v.
đọc thêm
NIST FRVT Phần 3: Ảnh hưởng của yếu tố nhân khẩu học (NISTIR 8280) - Đánh giá độc lập về độ chính xác nhận diện khuôn mặt trên các nhóm nhân khẩu học.
Đọc thêm

Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Quay lại blog

Quốc gia/vùng