Tóm lại: Công nghệ nâng cấp hình ảnh bằng AI hoạt động bằng cách huấn luyện một mô hình trên các cặp ảnh có độ phân giải thấp và cao, sau đó sử dụng mô hình đó để dự đoán số lượng pixel bổ sung hợp lý trong quá trình nâng cấp. Nếu mô hình đã từng thấy các kết cấu hoặc khuôn mặt tương tự trong quá trình huấn luyện, nó có thể thêm các chi tiết thuyết phục; nếu không, nó có thể "tạo ra ảo giác" về các hiện tượng như quầng sáng, da bóng hoặc nhấp nháy trong video.
Những điểm chính cần ghi nhớ:
Dự đoán : Mô hình tạo ra các chi tiết hợp lý, chứ không phải là sự tái tạo chính xác hoàn toàn hiện thực.
Lựa chọn mô hình : Mạng CNN thường ổn định hơn; mạng GAN có thể cho hình ảnh sắc nét hơn nhưng có nguy cơ tạo ra các đặc điểm giả.
Kiểm tra hiện vật : Chú ý đến quầng sáng, họa tiết lặp lại, "các chữ cái gần giống" và các bề mặt trông như làm bằng nhựa.
Tính ổn định của video : Hãy sử dụng các phương pháp xử lý theo thời gian, nếu không bạn sẽ thấy hiện tượng nhấp nháy và trôi hình ảnh giữa các khung hình.
Sử dụng trong trường hợp rủi ro cao : Nếu độ chính xác là yếu tố quan trọng, hãy công khai quá trình xử lý và coi kết quả chỉ mang tính minh họa.

Chắc hẳn bạn đã từng thấy: một hình ảnh nhỏ xíu, mờ nhòe bỗng trở nên sắc nét đến mức có thể in, phát trực tuyến hoặc chèn vào bài thuyết trình mà không cần phải nhăn mặt. Cảm giác như đang gian lận vậy. Và - theo nghĩa tốt nhất - thì đúng là như vậy thật 😅
Vậy nên, cách thức hoạt động của AI Upscaling ( nâng cấp độ phân giải hình ảnh bằng AI) cụ thể hơn là chỉ đơn giản nói "máy tính tăng cường chi tiết" (một cách khái quát) và gần hơn với "một mô hình dự đoán cấu trúc độ phân giải cao khả thi dựa trên các mẫu mà nó đã học được từ rất nhiều ví dụ" ( Học sâu cho siêu phân giải hình ảnh: Một khảo sát ). Bước dự đoán đó là toàn bộ vấn đề - và đó là lý do tại sao AI upscaling có thể cho ra hình ảnh tuyệt đẹp… hoặc hơi giả tạo… hoặc giống như con mèo của bạn mọc thêm râu.
Những bài viết bạn có thể muốn đọc sau bài này:
🔗 Cách thức hoạt động của trí tuệ nhân tạo (AI)
Tìm hiểu những kiến thức cơ bản về mô hình, dữ liệu và suy luận trong trí tuệ nhân tạo.
🔗 Cách trí tuệ nhân tạo học hỏi
Hãy xem dữ liệu huấn luyện và phản hồi giúp cải thiện hiệu suất mô hình theo thời gian như thế nào.
🔗 Cách trí tuệ nhân tạo phát hiện các bất thường
Hiểu rõ các mẫu cơ bản và cách AI nhanh chóng phát hiện hành vi bất thường.
🔗 Trí tuệ nhân tạo dự đoán xu hướng như thế nào?
Khám phá các phương pháp dự báo giúp phát hiện tín hiệu và dự đoán nhu cầu trong tương lai.
Cách thức hoạt động của AI Upscaling: ý tưởng cốt lõi, được giải thích bằng ngôn ngữ dễ hiểu 🧩
Nâng cấp độ phân giải có nghĩa là tăng số pixel: nhiều pixel hơn, hình ảnh lớn hơn. Phương pháp nâng cấp độ phân giải truyền thống (như nội suy song lập phương) về cơ bản kéo giãn các pixel và làm mịn các vùng chuyển tiếp ( nội suy song lập phương ). Phương pháp này cũng tốt, nhưng nó không thể tạo ra mới - nó chỉ đơn thuần là nội suy.
Nâng cấp hình ảnh bằng AI đang thử nghiệm một phương pháp táo bạo hơn (hay còn gọi là "siêu phân giải" trong giới nghiên cứu) ( Học sâu cho siêu phân giải hình ảnh: Một khảo sát ):
-
Nó xem xét đầu vào độ phân giải thấp
-
Nhận diện các mẫu (đường viền, kết cấu, đặc điểm khuôn mặt, nét chữ, kiểu dệt vải…)
-
Dự đoán hình ảnh phiên bản độ phân giải cao hơn sẽ trông như
-
Tạo thêm dữ liệu pixel phù hợp với các mẫu đó
Không phải là "khôi phục hiện thực một cách hoàn hảo", mà giống như "đưa ra một phỏng đoán rất đáng tin cậy" ( Siêu phân giải hình ảnh bằng mạng nơ-ron tích chập sâu (SRCNN) ). Nếu điều đó nghe có vẻ hơi đáng ngờ, bạn không sai - nhưng đó cũng là lý do tại sao nó hoạt động hiệu quả đến vậy 😄
Và đúng vậy, điều này có nghĩa là việc nâng cấp hình ảnh bằng AI về cơ bản là một ảo giác có kiểm soát… nhưng theo một cách hiệu quả, tôn trọng từng pixel.
Điều gì tạo nên một phiên bản AI nâng cấp tốt? ✅🛠️
Nếu bạn đang đánh giá một bộ xử lý nâng cấp hình ảnh bằng AI (hoặc một thiết lập có sẵn), đây là những yếu tố thường quan trọng nhất:
-
Khôi phục chi tiết mà không làm quá tải. Quá
trình nâng cấp tốt giúp tăng độ sắc nét và cấu trúc, chứ không phải tạo ra tiếng ồn khó chịu hay lỗ chân lông giả. -
Độ chính xác của các cạnh:
Đường nét gọn gàng sẽ giữ được vẻ gọn gàng. Các mô hình kém chất lượng sẽ làm cho các cạnh bị rung lắc hoặc xuất hiện quầng sáng. -
Tính chân thực về kết cấu:
Tóc không nên trông như một nét cọ. Gạch không nên trông như một khuôn mẫu lặp đi lặp lại. -
Xử lý nhiễu và nén:
Rất nhiều hình ảnh hàng ngày bị nén JPEG đến mức hư hỏng. Một bộ nâng cấp hình ảnh tốt sẽ không làm trầm trọng thêm tình trạng đó ( Real-ESRGAN ). -
Nhận diện khuôn mặt và văn bản
Khuôn mặt và văn bản là những nơi dễ phát hiện lỗi nhất. Các mô hình tốt sẽ xử lý chúng một cách nhẹ nhàng (hoặc có các chế độ chuyên biệt). -
Tính nhất quán giữa các khung hình (đối với video):
Nếu chi tiết bị nhấp nháy giữa các khung hình, mắt bạn sẽ rất khó chịu. Việc nâng cấp video thành công hay thất bại phụ thuộc vào tính ổn định theo thời gian ( BasicVSR (CVPR 2021) ). -
Các nút điều khiển phải hợp lý.
Bạn muốn các thanh trượt tương ứng với các kết quả thực tế: khử nhiễu, làm mờ, loại bỏ hiện tượng nhiễu ảnh, giữ lại hạt ảnh, làm sắc nét… những chức năng thiết thực.
Một quy tắc bất thành văn nhưng luôn đúng: ảnh được nâng cấp "tốt nhất" thường là ảnh mà bạn hầu như không nhận ra. Trông nó đơn giản như thể bạn đã có một chiếc máy ảnh tốt hơn ngay từ đầu 📷✨
Bảng so sánh: Các tùy chọn nâng cấp hình ảnh bằng AI phổ biến (và công dụng của chúng) 📊🙂
Dưới đây là bảng so sánh thực tế. Giá cả được cố ý đưa ra không rõ ràng vì các công cụ khác nhau tùy thuộc vào giấy phép, gói sản phẩm, chi phí tính toán và nhiều yếu tố khác.
| Công cụ / Phương pháp | Tốt nhất cho | Giá cả | Lý do (khoảng) nó hiệu quả |
|---|---|---|---|
| Các bộ xử lý nâng cấp hình ảnh kiểu Topaz dành cho máy tính để bàn ( Topaz Photo , Topaz Video ) | Ảnh, video, quy trình làm việc dễ dàng | Đã trả tiền | Các mô hình tổng quát mạnh mẽ cộng với nhiều tinh chỉnh, thường thì chúng "hoạt động trơn tru"... phần lớn là vậy |
| Các tính năng kiểu “Siêu phân giải” của Adobe ( Adobe Enhance > Super Resolution ) | Các nhiếp ảnh gia đã có mặt trong hệ sinh thái đó | Đăng ký | Tái hiện chi tiết khá tốt, thường theo phong cách bảo thủ (ít kịch tính) |
| Các biến thể Real-ESRGAN / ESRGAN ( Real-ESRGAN , ESRGAN ) | Tự làm, nhà phát triển, công việc hàng loạt | Miễn phí (nhưng tốn thời gian) | Khả năng thể hiện chi tiết kết cấu tuyệt vời, nhưng có thể gây kích ứng da nếu không cẩn thận |
| Các chế độ mở rộng dựa trên khuếch tán ( SR3 ) | Tác phẩm sáng tạo, kết quả mang phong cách riêng | Hỗn hợp | Có thể tạo ra những chi tiết tuyệt đẹp - cũng có thể bịa đặt những điều vô nghĩa, nên… đúng vậy |
| Bộ nâng cấp độ phân giải trò chơi (kiểu DLSS/FSR) ( NVIDIA DLSS , AMD FSR 2 ) | Chơi game và dựng hình thời gian thực | Đóng gói | Sử dụng dữ liệu chuyển động và kiến thức tiền đề đã học - mang lại hiệu suất mượt mà vượt trội 🕹️ |
| Dịch vụ mở rộng quy mô đám mây | Tiện lợi, thành công nhanh chóng | Trả phí theo lượt sử dụng | Nhanh và có khả năng mở rộng, nhưng bạn phải đánh đổi khả năng kiểm soát và đôi khi là sự tinh tế |
| Các bộ xử lý nâng cấp hình ảnh AI tập trung vào video ( BasicVSR , Topaz Video ) | Phim cũ, phim hoạt hình, tư liệu lưu trữ | Đã trả tiền | Các thủ thuật về thời gian để giảm hiện tượng nhấp nháy + các mô hình video chuyên dụng |
| Nâng cấp ảnh/hình ảnh từ điện thoại thông minh | Sử dụng thông thường | Bao gồm | Các mẫu máy nhẹ được tinh chỉnh để cho âm thanh dễ chịu, chứ không phải hoàn hảo (nhưng vẫn tiện dụng) |
Thú thật về lỗi định dạng: Từ "Paid-ish" đang phải làm rất nhiều việc trong bảng đó. Nhưng bạn hiểu ý tôi rồi đấy 😅
Bí mật lớn: các mô hình học cách ánh xạ từ độ phân giải thấp sang độ phân giải cao 🧠➡️🖼️
Cốt lõi của hầu hết các thuật toán nâng cấp hình ảnh bằng AI là thiết lập học có giám sát ( Nâng cao độ phân giải hình ảnh bằng mạng nơ-ron tích chập sâu (SRCNN) ):
-
Hãy bắt đầu với những hình ảnh có độ phân giải cao (cái gọi là “sự thật”)
-
Giảm độ phân giải của chúng xuống các phiên bản có độ phân giải thấp hơn (gọi là “đầu vào”)
-
Huấn luyện một mô hình để tái tạo ảnh độ phân giải cao gốc từ ảnh độ phân giải thấp
Theo thời gian, mô hình sẽ học được các mối tương quan như:
-
“Vết mờ quanh mắt kiểu này thường là do lông mi gây ra.”
-
“Cụm điểm ảnh này thường biểu thị văn bản có chân chữ”
-
“Đường viền chuyển màu này trông giống như đường mái nhà, chứ không phải là nhiễu ngẫu nhiên.”
Đây không phải là việc ghi nhớ các hình ảnh cụ thể (theo nghĩa đơn giản), mà là học cấu trúc thống kê ( Học sâu cho siêu phân giải hình ảnh: Một khảo sát ). Hãy tưởng tượng nó giống như việc học ngữ pháp của các kết cấu và đường viền. Không phải ngữ pháp thơ ca, mà giống hơn… ngữ pháp hướng dẫn sử dụng của IKEA 🪑📦 (một phép ẩn dụ hơi vụng về, nhưng cũng khá gần).
Những điều cơ bản: điều gì xảy ra trong quá trình suy luận (khi bạn nâng cấp độ phân giải) ⚙️✨
Khi bạn đưa một hình ảnh vào bộ xử lý ảnh nâng cấp bằng AI, quy trình thường diễn ra như sau:
-
Tiền xử lý
-
Chuyển đổi không gian màu (đôi khi)
-
Chuẩn hóa giá trị pixel
-
Chia ảnh thành nhiều phần nếu ảnh quá lớn (kiểm tra thực tế về VRAM 😭) ( Kho lưu trữ Real-ESRGAN (tùy chọn chia ô) )
-
-
Trích xuất đặc trưng
-
Các lớp ban đầu phát hiện các cạnh, góc và độ dốc
-
Các lớp sâu hơn phát hiện các mẫu: kết cấu, hình dạng, thành phần khuôn mặt
-
-
Tái thiết
-
Mô hình tạo ra bản đồ đặc trưng có độ phân giải cao hơn
-
Sau đó chuyển đổi dữ liệu đó thành đầu ra pixel thực tế
-
-
Xử lý hậu kỳ
-
Tùy chọn mài
-
Khử nhiễu tùy chọn
-
Tùy chọn khử nhiễu ảnh (nhiễu vòng, quầng sáng, hiện tượng vỡ hạt)
-
Một chi tiết nhỏ tinh tế: nhiều công cụ phóng to hình ảnh theo từng ô, sau đó làm mờ các đường nối. Những công cụ tốt sẽ che giấu ranh giới giữa các ô. Những công cụ trung bình sẽ để lại những vệt lưới mờ nếu bạn nheo mắt. Và đúng vậy, bạn sẽ nheo mắt, bởi vì con người thích soi xét những khuyết điểm nhỏ nhặt ở độ phóng đại 300% như những con yêu tinh nhỏ bé 🧌
Các dòng mô hình chính được sử dụng để nâng cấp hình ảnh bằng AI (và lý do tại sao chúng mang lại cảm giác khác biệt) 🤖📚
1) Siêu phân giải dựa trên CNN (phương pháp kinh điển)
Mạng nơ-ron tích chập rất giỏi trong việc nhận diện các mẫu cục bộ: các cạnh, kết cấu, cấu trúc nhỏ ( Siêu phân giải hình ảnh bằng mạng tích chập sâu (SRCNN) ).
-
Ưu điểm: Tốc độ tương đối nhanh, ổn định, ít xảy ra sự cố bất ngờ
-
Nhược điểm: có thể trông hơi "đã qua xử lý" nếu chỉnh sửa quá mức
2) Nâng cấp độ phân giải dựa trên GAN (kiểu ESRGAN) 🎭
Mạng đối kháng tạo sinh (GAN) huấn luyện một bộ tạo để tạo ra các hình ảnh độ phân giải cao mà bộ phân loại không thể phân biệt được với hình ảnh thật ( Mạng đối kháng tạo sinh ).
-
Ưu điểm: chi tiết sắc nét, kết cấu ấn tượng
-
Nhược điểm: có thể bịa đặt những chi tiết không có thật - đôi khi sai, đôi khi kỳ lạ ( SRGAN , ESRGAN )
Mạng GAN có thể mang lại độ sắc nét đáng kinh ngạc. Nhưng nó cũng có thể thêm một cặp lông mày cho người trong ảnh chân dung. Vì vậy… hãy cân nhắc kỹ trước khi hành động 😬
3) Mở rộng quy mô dựa trên sự lan tỏa (yếu tố bất ngờ sáng tạo) 🌫️➡️🖼️
Các mô hình khuếch tán khử nhiễu từng bước và có thể được điều chỉnh để tạo ra chi tiết độ phân giải cao ( SR3 ).
-
Ưu điểm: Có khả năng nắm bắt chi tiết cực kỳ chính xác, đặc biệt là trong các tác phẩm sáng tạo
-
Nhược điểm: có thể bị lệch khỏi bản sắc/cấu trúc ban đầu nếu cài đặt quá khắt khe ( SR3 )
Đây là lúc khái niệm "nâng cấp" bắt đầu hòa quyện với "tái tưởng tượng". Đôi khi đó chính xác là điều bạn muốn. Đôi khi thì không.
4) Nâng cấp độ phân giải video với tính nhất quán về thời gian 🎞️
Nâng cấp độ phân giải video thường bổ sung thêm logic nhận biết chuyển động:
-
Sử dụng các khung hình lân cận để ổn định chi tiết ( BasicVSR (CVPR 2021) )
-
Cố gắng tránh hiện tượng nhấp nháy và nhiễu hình ảnh
-
Thường kết hợp siêu phân giải với khử nhiễu và khử xen kẽ ( Topaz Video )
Nếu như việc nâng cấp độ phân giải hình ảnh giống như việc phục hồi một bức tranh, thì việc nâng cấp độ phân giải video giống như việc phục hồi một cuốn sách lật hình mà không làm thay đổi hình dạng mũi của nhân vật ở mỗi trang. Điều này… khó hơn tưởng tượng đấy.
Vì sao việc nâng cấp hình ảnh bằng AI đôi khi trông giả tạo (và cách nhận biết) 👀🚩
Việc nâng cấp hình ảnh bằng AI thường gặp phải những lỗi dễ nhận biết. Một khi bạn đã quen với các quy luật này, bạn sẽ thấy chúng ở khắp mọi nơi, giống như việc mua một chiếc xe mới và đột nhiên nhận thấy mẫu xe đó xuất hiện trên mọi con phố 😵💫
Thông thường kể rằng:
-
Tẩy da chết trên khuôn mặt (quá nhiều khử nhiễu + làm mịn)
-
Quầng sáng xung quanh các cạnh bị làm sắc nét quá mức (hiện tượng "vượt quá giới hạn" điển hình) ( Nội suy Bicubic )
-
Các họa tiết lặp lại (tường gạch trở thành những họa tiết sao chép y nguyên)
-
Độ tương phản vi mô sắc nét, rõ ràng là do thuật toán tạo ra.
-
Lỗi biến dạng văn bản khiến các chữ cái trở nên gần giống chữ cái (loại tệ nhất)
-
Sự thay đổi chi tiết xảy ra khi các đặc điểm nhỏ thay đổi một cách tinh tế, đặc biệt là trong quy trình khuếch tán ( SR3 )
Điểm khó ở chỗ: đôi khi những hình ảnh này trông "đẹp hơn" thoạt nhìn. Não bộ của bạn thích sự sắc nét. Nhưng sau một lúc, nó lại có cảm giác... không ổn.
Một chiến thuật hay là thu nhỏ hình ảnh và kiểm tra xem nó có trông tự nhiên ở khoảng cách xem bình thường hay không. Nếu nó chỉ trông đẹp ở mức phóng to 400%, thì đó không phải là thành công, mà chỉ là sở thích thôi 😅
Cách thức hoạt động của AI Upscaling: khía cạnh huấn luyện, không kèm theo những bài toán phức tạp 📉🙂
Việc huấn luyện các mô hình siêu phân giải thường bao gồm:
-
Các bộ dữ liệu được ghép nối (đầu vào độ phân giải thấp, mục tiêu độ phân giải cao) ( Siêu phân giải hình ảnh bằng mạng tích chập sâu (SRCNN) )
-
Hàm mất mát trừng phạt các bản tái tạo sai ( SRGAN )
Các loại tổn thất điển hình:
-
Hiện tượng mất điểm ảnh (L1/L2)
làm tăng độ chính xác. Có thể tạo ra kết quả hơi mờ. -
Mất mát nhận thức
So sánh các đặc điểm sâu hơn (như “ trông giống nhau không”) thay vì các pixel chính xác ( Mất mát nhận thức (Johnson và cộng sự, 2016) ). -
Hàm mất mát đối kháng (GAN)
khuyến khích tính hiện thực, đôi khi phải trả giá bằng độ chính xác theo nghĩa đen ( SRGAN , Mạng đối kháng tạo sinh ).
Luôn có một cuộc giằng co không ngừng:
-
Hãy làm cho nó trung thực với bản gốc
. -
Hãy làm cho nó đẹp mắt
Các công cụ khác nhau nằm ở những vị trí khác nhau trên phạm vi đó. Và bạn có thể thích công cụ nào hơn tùy thuộc vào việc bạn đang phục chế ảnh gia đình hay chuẩn bị áp phích, nơi mà yếu tố "đẹp mắt" quan trọng hơn độ chính xác về mặt pháp y.
Quy trình làm việc thực tế: ảnh, bản scan cũ, phim hoạt hình và video 📸🧾🎥
Ảnh (chân dung, phong cảnh, ảnh sản phẩm)
Thông thường, cách làm tốt nhất là:
-
Trước tiên hãy khử nhiễu nhẹ (nếu cần)
-
Nâng tầm đẳng cấp với thiết kế trang nhã
-
Nếu thấy mọi thứ quá trơn tru (đúng vậy, thật đấy!), hãy thêm lại độ nhám cho sản phẩm
Ngũ cốc cũng giống như muối vậy. Cho quá nhiều sẽ làm hỏng bữa tối, nhưng thiếu hẳn thì món ăn sẽ nhạt nhẽo 🍟
Ảnh quét cũ và ảnh nén nhiều
Những bài toán này khó hơn vì mô hình có thể coi các khối nén là "kết cấu".
Hãy thử:
-
Loại bỏ hiện vật hoặc gỡ tắc nghẽn
-
Sau đó nâng cấp
-
Sau đó mài nhẹ (không mài quá nhiều… Tôi biết, ai cũng nói vậy, nhưng vẫn nên mài)
Anime và tranh vẽ đường nét
Vẽ đường nét có những ưu điểm sau:
-
Các mô hình giữ được các cạnh sắc nét
-
Giảm hiện tượng ảo giác về kết cấu.
Việc nâng cấp độ phân giải của anime thường trông rất tuyệt vì các hình dạng đơn giản và nhất quán hơn. (May mắn thay.)
Băng hình
Video bổ sung thêm các bước:
-
Khử nhiễu
-
Khử xen kẽ (đối với một số nguồn nhất định)
-
Nâng cấp
-
Làm mịn hoặc ổn định theo thời gian ( BasicVSR (CVPR 2021) )
-
Phương pháp bổ sung hạt tùy chọn để tăng độ kết dính
Nếu bạn bỏ qua tính nhất quán về thời gian, bạn sẽ thấy hiện tượng nhấp nháy chi tiết lung linh. Một khi đã nhận ra, bạn sẽ không thể nào quên được nó. Giống như tiếng ghế kêu cót két trong một căn phòng yên tĩnh vậy 😖
Cách chọn cài đặt mà không cần đoán mò (một vài mẹo nhỏ) 🎛️😵💫
Đây là một tư duy khởi đầu khá tốt:
-
Nếu khuôn mặt trông giả tạo,
hãy giảm khử nhiễu, giảm độ sắc nét, thử chế độ hoặc mô hình bảo toàn khuôn mặt. -
Nếu kết cấu trông quá sắc nét,
hãy giảm thanh trượt "tăng cường chi tiết" hoặc "khôi phục chi tiết", sau đó thêm hiệu ứng hạt mờ. -
Nếu các cạnh bị mờ,
hãy giảm độ sắc nét, kiểm tra các tùy chọn khử quầng sáng. -
Nếu hình ảnh trông quá "giống AI",
hãy chọn cách tiếp cận thận trọng hơn. Đôi khi, lựa chọn tốt nhất đơn giản chỉ là… đơn giản hóa.
Ngoài ra: đừng phóng to ảnh lên 8x chỉ vì bạn có thể. Phóng to ở mức 2x hoặc 4x thường là mức tối ưu. Vượt quá mức đó, bạn đang yêu cầu người mẫu viết truyện fanfiction về những pixel của bạn đấy 📖😂
Đạo đức, tính xác thực và câu hỏi khó xử về "sự thật" 🧭😬
Công nghệ nâng cấp hình ảnh bằng AI làm mờ ranh giới:
-
Phục hồi có nghĩa là lấy lại những gì đã từng có
-
Nâng cấp có nghĩa là bổ sung những gì vốn không có
Với ảnh cá nhân, thường thì không sao (và rất đẹp). Nhưng với báo chí, bằng chứng pháp lý, hình ảnh y tế, hoặc bất cứ thứ gì mà độ trung thực là quan trọng… bạn cần phải cẩn thận ( OSAC/NIST: Hướng dẫn tiêu chuẩn về quản lý hình ảnh kỹ thuật số pháp y , Hướng dẫn của SWGDE về phân tích hình ảnh pháp y ).
Một quy tắc đơn giản:
-
Nếu rủi ro cao, hãy coi việc mở rộng quy mô AI như một ví dụ minh họa , chứ không phải là giải pháp cuối cùng.
Ngoài ra, việc công khai thông tin rất quan trọng trong môi trường chuyên nghiệp. Không phải vì AI là xấu xa, mà vì công chúng xứng đáng được biết liệu các chi tiết đó được tái tạo hay ghi lại một cách chính xác. Đó là điều cần thiết… thể hiện sự tôn trọng.
Lời kết và tóm tắt nhanh 🧡✅
Vậy, cách thức hoạt động của AI Upscaling là như sau: các mô hình học cách các chi tiết độ phân giải cao liên quan đến các mẫu độ phân giải thấp, sau đó dự đoán số lượng pixel bổ sung hợp lý trong quá trình nâng cấp ( Học sâu cho siêu phân giải hình ảnh: Một khảo sát ). Tùy thuộc vào họ mô hình (CNN, GAN, khuếch tán, video-thời gian), dự đoán đó có thể thận trọng và chính xác… hoặc táo bạo và đôi khi không theo quy tắc nào cả 😅
Tóm tắt nhanh
-
Phương pháp phóng to truyền thống kéo giãn các pixel ( nội suy Bicubic )
-
Nâng cấp hình ảnh bằng AI dự đoán các chi tiết bị thiếu bằng cách sử dụng các mẫu đã học ( Nâng cấp độ phân giải hình ảnh bằng mạng nơ-ron tích chập sâu (SRCNN) )
-
Kết quả tuyệt vời đến từ mô hình phù hợp cộng với sự kiềm chế
-
Hãy chú ý đến các quầng sáng, bề mặt bóng như sáp, các họa tiết lặp lại và hiện tượng nhấp nháy trong video ( BasicVSR (CVPR 2021) )
-
Việc nâng cấp thường là "tái tạo khả thi", chứ không phải là sự thật hoàn hảo ( SRGAN , ESRGAN )
Nếu bạn muốn, hãy cho tôi biết bạn đang phóng to hình ảnh hoặc video gì (chân dung, ảnh cũ, video, anime, bản quét văn bản), và tôi sẽ đề xuất chiến lược thiết lập giúp tránh những lỗi thường gặp về "hình ảnh do AI tạo ra" 🎯🙂
Câu hỏi thường gặp
Nâng cấp hình ảnh bằng AI và cách thức hoạt động của nó
Nâng cấp hình ảnh bằng AI (thường được gọi là “siêu phân giải”) tăng độ phân giải của hình ảnh bằng cách dự đoán các chi tiết độ phân giải cao bị thiếu dựa trên các mẫu được học trong quá trình huấn luyện. Thay vì chỉ đơn giản là kéo giãn các pixel như phép nội suy song lập phương, mô hình nghiên cứu các cạnh, kết cấu, khuôn mặt và các nét vẽ giống như văn bản, sau đó tạo ra dữ liệu pixel mới phù hợp với các mẫu đã học đó. Nó không phải là “khôi phục hiện thực” mà là “đưa ra một phỏng đoán đáng tin cậy” trông tự nhiên hơn.
So sánh phóng to hình ảnh bằng AI với phương pháp lập phương bậc ba hoặc phương pháp thay đổi kích thước truyền thống
Các phương pháp nâng cấp độ phân giải truyền thống (như nội suy song lập phương) chủ yếu nội suy giữa các pixel hiện có, làm mịn các vùng chuyển tiếp mà không tạo ra chi tiết mới thực sự. Nâng cấp độ phân giải bằng AI nhằm mục đích tái tạo cấu trúc hợp lý bằng cách nhận diện các tín hiệu hình ảnh và dự đoán hình dạng của các tín hiệu đó ở độ phân giải cao. Đó là lý do tại sao kết quả của AI có thể sắc nét hơn đáng kể, và cũng là lý do tại sao chúng có thể tạo ra các hiện tượng nhiễu hoặc "tạo ra" các chi tiết không có trong ảnh gốc.
Vì sao da mặt có thể trông bóng nhờn hoặc quá mịn màng
Khuôn mặt bóng nhờn thường xuất hiện do khử nhiễu và làm mịn quá mức kết hợp với làm sắc nét, làm mất đi kết cấu da tự nhiên. Nhiều công cụ xử lý nhiễu và kết cấu mịn theo cách tương tự, vì vậy việc "làm sạch" hình ảnh có thể xóa đi lỗ chân lông và các chi tiết nhỏ. Một cách tiếp cận phổ biến là giảm khử nhiễu và làm sắc nét, sử dụng chế độ bảo toàn khuôn mặt nếu có, sau đó thêm một chút hạt nhiễu để kết quả trông tự nhiên hơn và giống ảnh chụp hơn.
Các lỗi thường gặp khi nâng cấp hình ảnh bằng AI cần lưu ý
Những dấu hiệu điển hình bao gồm quầng sáng quanh các cạnh, các mẫu họa tiết lặp lại (giống như những viên gạch được sao chép và dán), độ tương phản vi mô thô ráp và văn bản biến thành "gần như là chữ cái". Trong quy trình làm việc dựa trên khuếch tán, bạn cũng có thể thấy sự thay đổi chi tiết, nơi các đặc điểm nhỏ thay đổi một cách tinh tế. Đối với video, hiện tượng nhấp nháy và chi tiết bị nhòe giữa các khung hình là những dấu hiệu cảnh báo lớn. Nếu nó chỉ trông đẹp ở mức phóng to tối đa, thì các thiết lập có lẽ quá mạnh.
Sự khác biệt về kết quả giữa GAN, CNN và bộ tăng độ phân giải khuếch tán
Siêu phân giải dựa trên CNN thường ổn định và dễ dự đoán hơn, nhưng có thể trông "đã qua xử lý" nếu đẩy mạnh. Các tùy chọn dựa trên GAN (kiểu ESRGAN) thường tạo ra kết cấu sống động hơn và độ sắc nét cảm nhận tốt hơn, nhưng chúng có thể tạo ra ảo giác về chi tiết không chính xác, đặc biệt là trên khuôn mặt. Nâng cấp dựa trên khuếch tán có thể tạo ra chi tiết đẹp và hợp lý, nhưng có thể bị lệch khỏi cấu trúc ban đầu nếu cài đặt hướng dẫn hoặc cường độ quá mạnh.
Một chiến lược thiết lập thực tế để tránh vẻ ngoài "quá giống AI"
Hãy bắt đầu một cách thận trọng: phóng to ảnh lên 2x hoặc 4x trước khi sử dụng các mức độ cực đoan. Nếu khuôn mặt trông giả tạo, hãy giảm độ khử nhiễu và độ sắc nét, đồng thời thử chế độ nhận diện khuôn mặt. Nếu kết cấu trở nên quá sắc nét, hãy giảm độ tăng cường chi tiết và cân nhắc thêm hiệu ứng hạt mịn sau đó. Nếu các cạnh bị lóa, hãy giảm độ sắc nét và kiểm tra hiệu ứng quầng sáng hoặc khử nhiễu. Trong nhiều quy trình xử lý ảnh, "ít hơn" sẽ hiệu quả hơn vì nó giữ được tính chân thực đáng tin cậy.
Xử lý các bản quét cũ hoặc hình ảnh nén JPEG nặng trước khi phóng to
Ảnh nén rất khó xử lý vì các mô hình có thể coi các khối nhiễu là kết cấu thực và khuếch đại chúng. Quy trình làm việc phổ biến là loại bỏ nhiễu hoặc khử nhiễu trước, sau đó phóng to, rồi chỉ làm sắc nét nhẹ nếu cần. Đối với ảnh quét, việc làm sạch nhẹ nhàng có thể giúp mô hình tập trung vào cấu trúc thực tế hơn là các hư hại. Mục tiêu là giảm thiểu "các tín hiệu kết cấu giả" để bộ xử lý ảnh không bị buộc phải đưa ra những phỏng đoán thiếu chính xác từ các dữ liệu đầu vào nhiễu.
Vì sao việc nâng độ phân giải video khó hơn việc nâng độ phân giải ảnh?
Nâng cấp độ phân giải video phải nhất quán giữa các khung hình, chứ không chỉ tốt trên một hình ảnh tĩnh. Nếu chi tiết bị nhấp nháy giữa các khung hình, kết quả sẽ nhanh chóng gây khó chịu. Các phương pháp tập trung vào video sử dụng thông tin thời gian từ các khung hình lân cận để ổn định quá trình tái tạo và tránh các hiện tượng nhấp nháy. Nhiều quy trình làm việc cũng bao gồm khử nhiễu, khử xen kẽ đối với một số nguồn nhất định và tùy chọn thêm hạt nhiễu để toàn bộ chuỗi hình ảnh trông liền mạch hơn là sắc nét một cách giả tạo.
Khi việc mở rộng quy mô bằng AI không phù hợp hoặc việc dựa vào nó tiềm ẩn rủi ro
Việc nâng cấp hình ảnh bằng AI tốt nhất nên được xem như là sự cải thiện, chứ không phải là bằng chứng. Trong những bối cảnh quan trọng như báo chí, bằng chứng pháp lý, hình ảnh y tế hoặc công tác pháp y, việc tạo ra các pixel "đáng tin cậy" có thể gây hiểu lầm vì nó có thể thêm vào những chi tiết không được ghi lại. Cách tiếp cận an toàn hơn là sử dụng nó để minh họa và tiết lộ rằng quy trình AI đã tái tạo lại chi tiết. Nếu độ chính xác là tối quan trọng, hãy giữ lại bản gốc và ghi lại mọi bước xử lý và thiết lập.
Tài liệu tham khảo
-
arXiv - Học sâu cho siêu phân giải hình ảnh: Một khảo sát - arxiv.org
-
arXiv - Siêu phân giải hình ảnh bằng mạng nơ-ron tích chập sâu (SRCNN) - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
Nhà phát triển NVIDIA - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
Hội nghị Khoa học Máy tính về Thị giác (CVF) - Truy cập Mở - BasicVSR: Tìm kiếm các Thành phần Thiết yếu trong Siêu phân giải Video (CVPR 2021) - openaccess.thecvf.com
-
arXiv - Mạng đối kháng tạo sinh - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - Mất mát nhận thức (Johnson và cộng sự, 2016) - arxiv.org
-
GitHub - Kho lưu trữ Real-ESRGAN (tùy chọn ô) - github.com
-
Wikipedia - Nội suy bậc ba - wikipedia.org
-
Topaz Labs - Topaz Photo - topazlabs.com
-
Topaz Labs - Video Topaz - topazlabs.com
-
Trung tâm trợ giúp Adobe - Adobe Enhance > Độ phân giải siêu cao - helpx.adobe.com
-
NIST / OSAC - Hướng dẫn tiêu chuẩn về quản lý hình ảnh kỹ thuật số pháp y (Phiên bản 1.0) - nist.gov
-
SWGDE - Hướng dẫn phân tích hình ảnh pháp y - swgde.org