Công nghệ phóng to hình ảnh bằng AI khác với các phương pháp thay đổi kích thước truyền thống như thế nào?

Công nghệ nâng cấp hình ảnh bằng AI dự đoán các chi tiết độ phân giải cao bị thiếu từ các mẫu hiện có trong ảnh, thay vì chỉ đơn giản là kéo giãn các pixel như các phương pháp truyền thống như nội suy song lập phương. Điều này giúp tạo ra hình ảnh sắc nét và chi tiết hơn.

Tôi cần lưu ý những hiện tượng lỗi thường gặp nào khi sử dụng công nghệ nâng cấp hình ảnh bằng AI?

Các lỗi thường gặp bao gồm quầng sáng quanh các cạnh, các mẫu họa tiết lặp lại, bề mặt quá mịn hoặc bóng như sáp, và văn bản biến thành "gần như là chữ cái". Việc theo dõi những vấn đề này rất quan trọng để đảm bảo kết quả trông tự nhiên.

Tại sao khuôn mặt đôi khi trông quá mịn hoặc không tự nhiên sau khi phóng to?

Khuôn mặt có thể trông quá mịn màng do quá trình khử nhiễu và làm sắc nét quá mạnh, làm mất đi các chi tiết như lỗ chân lông. Để có được vẻ ngoài tự nhiên hơn, hãy cân nhắc giảm cài đặt khử nhiễu và làm sắc nét.

Tôi nên làm gì nếu ảnh của tôi bị nhiễu hoặc có quá nhiều tiếng ồn sau khi sử dụng công nghệ nâng độ phân giải bằng AI?

Nếu ảnh của bạn trông bị nhiễu hạt, hãy thử điều chỉnh thanh trượt khử nhiễu và tăng cường chi tiết. Thêm một chút hạt nhiễu nhẹ cũng có thể giúp khôi phục cảm giác chân thực hơn như ảnh chụp.

So sánh hiệu quả giữa mô hình GAN và CNN về khả năng nâng cấp hình ảnh bằng AI?

Các mô hình CNN thường ổn định và dễ dự đoán, trong khi các mô hình GAN thường cung cấp chi tiết sắc nét hơn nhưng lại có nguy cơ đưa vào các yếu tố không thực tế. Việc lựa chọn giữa chúng phụ thuộc vào nhu cầu của bạn về tính chân thực so với việc tăng cường kết cấu.

Liệu việc nâng cấp độ phân giải bằng AI có phù hợp với nội dung video hay không, và nó đặt ra những thách thức gì?

Đúng vậy, nâng cấp độ phân giải bằng AI rất phù hợp với video nhưng có thể gặp khó khăn vì tính nhất quán giữa các khung hình là rất quan trọng. Các chi tiết bị nhấp nháy hoặc lóa có thể làm người xem mất tập trung, vì vậy nên sử dụng các phương pháp chuyên biệt dành cho video.

Khi nào thì không nên dựa vào việc nâng cấp quy mô bằng AI?

Việc nâng cấp khả năng của AI cần được sử dụng thận trọng trong các tình huống quan trọng, chẳng hạn như báo chí hoặc phân tích pháp y, nơi độ chính xác là yếu tố then chốt. Tốt nhất nên coi đó là sự cải tiến chứ không phải là bằng chứng xác thực, và tính minh bạch về các quy trình AI là điều thiết yếu.

Tôi cần lưu ý những gì khi phóng to hình ảnh đã được nén mạnh?

Đối với những hình ảnh bị nén mạnh, hãy bắt đầu bằng việc loại bỏ nhiễu ảnh để giảm thiểu hiện tượng vỡ hạt không mong muốn. Sau đó, bạn có thể phóng to và áp dụng làm sắc nét nhẹ nếu cần thiết để duy trì chi tiết mà không làm tăng thêm hiện tượng nhiễu ảnh do nén.

Quá trình mở rộng quy mô bằng AI hoạt động như thế nào?

Nâng cấp quy mô bằng AI hoạt động như thế nào?

Tóm lại: Công nghệ nâng cấp hình ảnh bằng AI hoạt động bằng cách huấn luyện một mô hình trên các cặp ảnh có độ phân giải thấp và cao, sau đó sử dụng mô hình đó để dự đoán số lượng pixel bổ sung hợp lý trong quá trình nâng cấp. Nếu mô hình đã từng thấy các kết cấu hoặc khuôn mặt tương tự trong quá trình huấn luyện, nó có thể thêm các chi tiết thuyết phục; nếu không, nó có thể "tạo ra ảo giác" về các hiện tượng như quầng sáng, da bóng hoặc nhấp nháy trong video.

Những điểm chính cần ghi nhớ:

Dự đoán: Mô hình tạo ra các chi tiết hợp lý, chứ không phải là sự tái tạo chính xác hoàn toàn hiện thực.

Lựa chọn mô hình: Mạng CNN thường ổn định hơn; mạng GAN có thể cho hình ảnh sắc nét hơn nhưng có nguy cơ tạo ra các đặc điểm giả.

Kiểm tra hiện vật: Chú ý đến quầng sáng, họa tiết lặp lại, "các chữ cái gần giống" và các bề mặt trông như làm bằng nhựa.

Tính ổn định của video: Hãy sử dụng các phương pháp xử lý theo thời gian, nếu không bạn sẽ thấy hiện tượng nhấp nháy và trôi hình ảnh giữa các khung hình.

Sử dụng trong trường hợp rủi ro cao: Nếu độ chính xác là yếu tố quan trọng, hãy công khai quá trình xử lý và coi kết quả chỉ mang tính minh họa.

Nâng cấp quy mô bằng AI hoạt động như thế nào? (Infographic).

Chắc hẳn bạn đã từng thấy: một hình ảnh nhỏ xíu, mờ nhòe bỗng trở nên sắc nét đến mức có thể in, phát trực tuyến hoặc chèn vào bài thuyết trình mà không cần phải nhăn mặt. Cảm giác như đang gian lận vậy. Và - theo nghĩa tốt nhất - thì đúng là như vậy thật 😅

Vậy nên, cách thức hoạt động của AI Upscaling ( nâng cấp độ phân giải hình ảnh bằng AI) cụ thể hơn là chỉ đơn giản nói "máy tính tăng cường chi tiết" (một cách khái quát) và gần hơn với "một mô hình dự đoán cấu trúc độ phân giải cao khả thi dựa trên các mẫu mà nó đã học được từ rất nhiều ví dụ" (Học sâu cho siêu phân giải hình ảnh: Một khảo sát). Bước dự đoán đó là toàn bộ vấn đề - và đó là lý do tại sao AI upscaling có thể cho ra hình ảnh tuyệt đẹp… hoặc hơi giả tạo… hoặc giống như con mèo của bạn mọc thêm râu.

Những bài viết bạn có thể muốn đọc sau bài này:

🔗 Cách thức hoạt động của trí tuệ nhân tạo (AI)
Tìm hiểu những kiến thức cơ bản về mô hình, dữ liệu và suy luận trong trí tuệ nhân tạo.

🔗 Cách trí tuệ nhân tạo học hỏi
Hãy xem dữ liệu huấn luyện và phản hồi giúp cải thiện hiệu suất mô hình theo thời gian như thế nào.

🔗 Cách trí tuệ nhân tạo phát hiện các bất thường
Hiểu rõ các mẫu cơ bản và cách AI nhanh chóng phát hiện hành vi bất thường.

🔗 Trí tuệ nhân tạo dự đoán xu hướng như thế nào?
Khám phá các phương pháp dự báo giúp phát hiện tín hiệu và dự đoán nhu cầu trong tương lai.

Cách thức hoạt động của AI Upscaling: ý tưởng cốt lõi, được giải thích bằng ngôn ngữ dễ hiểu 🧩

Nâng cấp độ phân giải có nghĩa là tăng số pixel: nhiều pixel hơn, hình ảnh lớn hơn. Phương pháp nâng cấp độ phân giải truyền thống (như nội suy song lập phương) về cơ bản kéo giãn các pixel và làm mịn các vùng chuyển tiếp (nội suy song lập phương). Phương pháp này cũng tốt, nhưng nó không thể tạo ra mới - nó chỉ đơn thuần là nội suy.

Nâng cấp hình ảnh bằng AI đang thử nghiệm một phương pháp táo bạo hơn (hay còn gọi là "siêu phân giải" trong giới nghiên cứu) (Học sâu cho siêu phân giải hình ảnh: Một khảo sát):

Nó xem xét đầu vào độ phân giải thấp
Nhận diện các mẫu (đường viền, kết cấu, đặc điểm khuôn mặt, nét chữ, kiểu dệt vải…)
Dự đoán hình ảnh phiên bản độ phân giải cao hơn sẽ trông như
Tạo thêm dữ liệu pixel phù hợp với các mẫu đó

Không phải là "khôi phục hiện thực một cách hoàn hảo", mà giống như "đưa ra một phỏng đoán rất đáng tin cậy" (Siêu phân giải hình ảnh bằng mạng nơ-ron tích chập sâu (SRCNN)). Nếu điều đó nghe có vẻ hơi đáng ngờ, bạn không sai - nhưng đó cũng là lý do tại sao nó hoạt động hiệu quả đến vậy 😄

Và đúng vậy, điều này có nghĩa là việc nâng cấp hình ảnh bằng AI về cơ bản là một ảo giác có kiểm soát… nhưng theo một cách hiệu quả, tôn trọng từng pixel.

Điều gì tạo nên một phiên bản AI nâng cấp tốt? ✅🛠️

Nếu bạn đang đánh giá một bộ xử lý nâng cấp hình ảnh bằng AI (hoặc một thiết lập có sẵn), đây là những yếu tố thường quan trọng nhất:

Khôi phục chi tiết mà không làm quá tải. Quá
trình nâng cấp tốt giúp tăng độ sắc nét và cấu trúc, chứ không phải tạo ra tiếng ồn khó chịu hay lỗ chân lông giả.
Độ chính xác của các cạnh:
Đường nét gọn gàng sẽ giữ được vẻ gọn gàng. Các mô hình kém chất lượng sẽ làm cho các cạnh bị rung lắc hoặc xuất hiện quầng sáng.
Tính chân thực về kết cấu:
Tóc không nên trông như một nét cọ. Gạch không nên trông như một khuôn mẫu lặp đi lặp lại.
Xử lý nhiễu và nén:
Rất nhiều hình ảnh hàng ngày bị nén JPEG đến mức hư hỏng. Một bộ nâng cấp hình ảnh tốt sẽ không làm trầm trọng thêm tình trạng đó (Real-ESRGAN).
Nhận diện khuôn mặt và văn bản
Khuôn mặt và văn bản là những nơi dễ phát hiện lỗi nhất. Các mô hình tốt sẽ xử lý chúng một cách nhẹ nhàng (hoặc có các chế độ chuyên biệt).
Tính nhất quán giữa các khung hình (đối với video):
Nếu chi tiết bị nhấp nháy giữa các khung hình, mắt bạn sẽ rất khó chịu. Việc nâng cấp video thành công hay thất bại phụ thuộc vào tính ổn định theo thời gian (BasicVSR (CVPR 2021)).
Các nút điều khiển phải hợp lý.
Bạn muốn các thanh trượt tương ứng với các kết quả thực tế: khử nhiễu, làm mờ, loại bỏ hiện tượng nhiễu ảnh, giữ lại hạt ảnh, làm sắc nét… những chức năng thiết thực.

Một quy tắc bất thành văn nhưng luôn đúng: ảnh được nâng cấp "tốt nhất" thường là ảnh mà bạn hầu như không nhận ra. Trông nó đơn giản như thể bạn đã có một chiếc máy ảnh tốt hơn ngay từ đầu 📷✨

Bảng so sánh: Các tùy chọn nâng cấp hình ảnh bằng AI phổ biến (và công dụng của chúng) 📊🙂

Dưới đây là bảng so sánh thực tế. Giá cả được cố ý đưa ra không rõ ràng vì các công cụ khác nhau tùy thuộc vào giấy phép, gói sản phẩm, chi phí tính toán và nhiều yếu tố khác.

Công cụ / Phương pháp	Tốt nhất cho	Giá cả	Lý do (khoảng) nó hiệu quả
Các bộ xử lý nâng cấp hình ảnh kiểu Topaz dành cho máy tính để bàn (Topaz Photo, Topaz Video)	Ảnh, video, quy trình làm việc dễ dàng	Đã trả tiền	Các mô hình tổng quát mạnh mẽ cộng với nhiều tinh chỉnh, thường thì chúng "hoạt động trơn tru"... phần lớn là vậy
Các tính năng kiểu “Siêu phân giải” của Adobe (Adobe Enhance > Super Resolution)	Các nhiếp ảnh gia đã có mặt trong hệ sinh thái đó	Đăng ký	Tái hiện chi tiết khá tốt, thường theo phong cách bảo thủ (ít kịch tính)
Các biến thể Real-ESRGAN / ESRGAN (Real-ESRGAN, ESRGAN)	Tự làm, nhà phát triển, công việc hàng loạt	Miễn phí (nhưng tốn thời gian)	Khả năng thể hiện chi tiết kết cấu tuyệt vời, nhưng có thể gây kích ứng da nếu không cẩn thận
Các chế độ mở rộng dựa trên khuếch tán (SR3)	Tác phẩm sáng tạo, kết quả mang phong cách riêng	Hỗn hợp	Có thể tạo ra những chi tiết tuyệt đẹp - cũng có thể bịa đặt những điều vô nghĩa, nên… đúng vậy
Bộ nâng cấp độ phân giải trò chơi (kiểu DLSS/FSR) (NVIDIA DLSS, AMD FSR 2)	Chơi game và dựng hình thời gian thực	Đóng gói	Sử dụng dữ liệu chuyển động và kiến thức tiền đề đã học - mang lại hiệu suất mượt mà vượt trội 🕹️
Dịch vụ mở rộng quy mô đám mây	Tiện lợi, thành công nhanh chóng	Trả phí theo lượt sử dụng	Nhanh và có khả năng mở rộng, nhưng bạn phải đánh đổi khả năng kiểm soát và đôi khi là sự tinh tế
Các bộ xử lý nâng cấp hình ảnh AI tập trung vào video (BasicVSR, Topaz Video)	Phim cũ, phim hoạt hình, tư liệu lưu trữ	Đã trả tiền	Các thủ thuật về thời gian để giảm hiện tượng nhấp nháy + các mô hình video chuyên dụng
Nâng cấp ảnh/hình ảnh từ điện thoại thông minh	Sử dụng thông thường	Bao gồm	Các mẫu máy nhẹ được tinh chỉnh để cho âm thanh dễ chịu, chứ không phải hoàn hảo (nhưng vẫn tiện dụng)

Thú thật về lỗi định dạng: Từ "Paid-ish" đang phải làm rất nhiều việc trong bảng đó. Nhưng bạn hiểu ý tôi rồi đấy 😅

Bí mật lớn: các mô hình học cách ánh xạ từ độ phân giải thấp sang độ phân giải cao 🧠➡️🖼️

Cốt lõi của hầu hết các thuật toán nâng cấp hình ảnh bằng AI là thiết lập học có giám sát (Nâng cao độ phân giải hình ảnh bằng mạng nơ-ron tích chập sâu (SRCNN)):

Hãy bắt đầu với những hình ảnh có độ phân giải cao (cái gọi là “sự thật”)
Giảm độ phân giải của chúng xuống các phiên bản có độ phân giải thấp hơn (gọi là “đầu vào”)
Huấn luyện một mô hình để tái tạo ảnh độ phân giải cao gốc từ ảnh độ phân giải thấp

Theo thời gian, mô hình sẽ học được các mối tương quan như:

“Vết mờ quanh mắt kiểu này thường là do lông mi gây ra.”
“Cụm điểm ảnh này thường biểu thị văn bản có chân chữ”
“Đường viền chuyển màu này trông giống như đường mái nhà, chứ không phải là nhiễu ngẫu nhiên.”

Đây không phải là việc ghi nhớ các hình ảnh cụ thể (theo nghĩa đơn giản), mà là học cấu trúc thống kê (Học sâu cho siêu phân giải hình ảnh: Một khảo sát). Hãy tưởng tượng nó giống như việc học ngữ pháp của các kết cấu và đường viền. Không phải ngữ pháp thơ ca, mà giống hơn… ngữ pháp hướng dẫn sử dụng của IKEA 🪑📦 (một phép ẩn dụ hơi vụng về, nhưng cũng khá gần).

Những điều cơ bản: điều gì xảy ra trong quá trình suy luận (khi bạn nâng cấp độ phân giải) ⚙️✨

Khi bạn đưa một hình ảnh vào bộ xử lý ảnh nâng cấp bằng AI, quy trình thường diễn ra như sau:

Tiền xử lý
- Chuyển đổi không gian màu (đôi khi)
- Chuẩn hóa giá trị pixel
- Chia ảnh thành nhiều phần nếu ảnh quá lớn (kiểm tra thực tế về VRAM 😭) (Kho lưu trữ Real-ESRGAN (tùy chọn chia ô))
Trích xuất đặc trưng
- Các lớp ban đầu phát hiện các cạnh, góc và độ dốc
- Các lớp sâu hơn phát hiện các mẫu: kết cấu, hình dạng, thành phần khuôn mặt
Tái thiết
- Mô hình tạo ra bản đồ đặc trưng có độ phân giải cao hơn
- Sau đó chuyển đổi dữ liệu đó thành đầu ra pixel thực tế
Xử lý hậu kỳ
- Tùy chọn mài
- Khử nhiễu tùy chọn
- Tùy chọn khử nhiễu ảnh (nhiễu vòng, quầng sáng, hiện tượng vỡ hạt)

Một chi tiết nhỏ tinh tế: nhiều công cụ phóng to hình ảnh theo từng ô, sau đó làm mờ các đường nối. Những công cụ tốt sẽ che giấu ranh giới giữa các ô. Những công cụ trung bình sẽ để lại những vệt lưới mờ nếu bạn nheo mắt. Và đúng vậy, bạn sẽ nheo mắt, bởi vì con người thích soi xét những khuyết điểm nhỏ nhặt ở độ phóng đại 300% như những con yêu tinh nhỏ bé 🧌

Các dòng mô hình chính được sử dụng để nâng cấp hình ảnh bằng AI (và lý do tại sao chúng mang lại cảm giác khác biệt) 🤖📚

1) Siêu phân giải dựa trên CNN (phương pháp kinh điển)

Mạng nơ-ron tích chập rất giỏi trong việc nhận diện các mẫu cục bộ: các cạnh, kết cấu, cấu trúc nhỏ (Siêu phân giải hình ảnh bằng mạng tích chập sâu (SRCNN)).

Ưu điểm: Tốc độ tương đối nhanh, ổn định, ít xảy ra sự cố bất ngờ
Nhược điểm: có thể trông hơi "đã qua xử lý" nếu chỉnh sửa quá mức

2) Nâng cấp độ phân giải dựa trên GAN (kiểu ESRGAN) 🎭

Mạng đối kháng tạo sinh (GAN) huấn luyện một bộ tạo để tạo ra các hình ảnh độ phân giải cao mà bộ phân loại không thể phân biệt được với hình ảnh thật (Mạng đối kháng tạo sinh).

Ưu điểm: chi tiết sắc nét, kết cấu ấn tượng
Nhược điểm: có thể bịa đặt những chi tiết không có thật - đôi khi sai, đôi khi kỳ lạ (SRGAN, ESRGAN)

Mạng GAN có thể mang lại độ sắc nét đáng kinh ngạc. Nhưng nó cũng có thể thêm một cặp lông mày cho người trong ảnh chân dung. Vì vậy… hãy cân nhắc kỹ trước khi hành động 😬

3) Mở rộng quy mô dựa trên sự lan tỏa (yếu tố bất ngờ sáng tạo) 🌫️➡️🖼️

Các mô hình khuếch tán khử nhiễu từng bước và có thể được điều chỉnh để tạo ra chi tiết độ phân giải cao (SR3).

Ưu điểm: Có khả năng nắm bắt chi tiết cực kỳ chính xác, đặc biệt là trong các tác phẩm sáng tạo
Nhược điểm: có thể bị lệch khỏi bản sắc/cấu trúc ban đầu nếu cài đặt quá khắt khe (SR3)

Đây là lúc khái niệm "nâng cấp" bắt đầu hòa quyện với "tái tưởng tượng". Đôi khi đó chính xác là điều bạn muốn. Đôi khi thì không.

4) Nâng cấp độ phân giải video với tính nhất quán về thời gian 🎞️

Nâng cấp độ phân giải video thường bổ sung thêm logic nhận biết chuyển động:

Sử dụng các khung hình lân cận để ổn định chi tiết (BasicVSR (CVPR 2021))
Cố gắng tránh hiện tượng nhấp nháy và nhiễu hình ảnh
Thường kết hợp siêu phân giải với khử nhiễu và khử xen kẽ (Topaz Video)

Nếu như việc nâng cấp độ phân giải hình ảnh giống như việc phục hồi một bức tranh, thì việc nâng cấp độ phân giải video giống như việc phục hồi một cuốn sách lật hình mà không làm thay đổi hình dạng mũi của nhân vật ở mỗi trang. Điều này… khó hơn tưởng tượng đấy.

Vì sao việc nâng cấp hình ảnh bằng AI đôi khi trông giả tạo (và cách nhận biết) 👀🚩

Việc nâng cấp hình ảnh bằng AI thường gặp phải những lỗi dễ nhận biết. Một khi bạn đã quen với các quy luật này, bạn sẽ thấy chúng ở khắp mọi nơi, giống như việc mua một chiếc xe mới và đột nhiên nhận thấy mẫu xe đó xuất hiện trên mọi con phố 😵💫

Thông thường kể rằng:

Tẩy da chết trên khuôn mặt (quá nhiều khử nhiễu + làm mịn)
Quầng sáng xung quanh các cạnh bị làm sắc nét quá mức (hiện tượng "vượt quá giới hạn" điển hình) (Nội suy Bicubic)
Các họa tiết lặp lại (tường gạch trở thành những họa tiết sao chép y nguyên)
Độ tương phản vi mô sắc nét, rõ ràng là do thuật toán tạo ra.
Lỗi biến dạng văn bản khiến các chữ cái trở nên gần giống chữ cái (loại tệ nhất)
Sự thay đổi chi tiết xảy ra khi các đặc điểm nhỏ thay đổi một cách tinh tế, đặc biệt là trong quy trình khuếch tán (SR3)

Điểm khó ở chỗ: đôi khi những hình ảnh này trông "đẹp hơn" thoạt nhìn. Não bộ của bạn thích sự sắc nét. Nhưng sau một lúc, nó lại có cảm giác... không ổn.

Một chiến thuật hay là thu nhỏ hình ảnh và kiểm tra xem nó có trông tự nhiên ở khoảng cách xem bình thường hay không. Nếu nó chỉ trông đẹp ở mức phóng to 400%, thì đó không phải là thành công, mà chỉ là sở thích thôi 😅

Cách thức hoạt động của AI Upscaling: khía cạnh huấn luyện, không kèm theo những bài toán phức tạp 📉🙂

Việc huấn luyện các mô hình siêu phân giải thường bao gồm:

Các bộ dữ liệu được ghép nối (đầu vào độ phân giải thấp, mục tiêu độ phân giải cao) (Siêu phân giải hình ảnh bằng mạng tích chập sâu (SRCNN))
Hàm mất mát trừng phạt các bản tái tạo sai (SRGAN)

Các loại tổn thất điển hình:

Hiện tượng mất điểm ảnh (L1/L2)
làm tăng độ chính xác. Có thể tạo ra kết quả hơi mờ.
Mất mát nhận thức
So sánh các đặc điểm sâu hơn (như “ trông giống nhau không”) thay vì các pixel chính xác (Mất mát nhận thức (Johnson và cộng sự, 2016)).
Hàm mất mát đối kháng (GAN)
khuyến khích tính hiện thực, đôi khi phải trả giá bằng độ chính xác theo nghĩa đen (SRGAN, Mạng đối kháng tạo sinh).

Luôn có một cuộc giằng co không ngừng:

Hãy làm cho nó trung thực với bản gốc
.
Hãy làm cho nó đẹp mắt

Các công cụ khác nhau nằm ở những vị trí khác nhau trên phạm vi đó. Và bạn có thể thích công cụ nào hơn tùy thuộc vào việc bạn đang phục chế ảnh gia đình hay chuẩn bị áp phích, nơi mà yếu tố "đẹp mắt" quan trọng hơn độ chính xác về mặt pháp y.

Quy trình làm việc thực tế: ảnh, bản scan cũ, phim hoạt hình và video 📸🧾🎥

Ảnh (chân dung, phong cảnh, ảnh sản phẩm)

Thông thường, cách làm tốt nhất là:

Trước tiên hãy khử nhiễu nhẹ (nếu cần)
Nâng tầm đẳng cấp với thiết kế trang nhã
Nếu thấy mọi thứ quá trơn tru (đúng vậy, thật đấy!), hãy thêm lại độ nhám cho sản phẩm

Ngũ cốc cũng giống như muối vậy. Cho quá nhiều sẽ làm hỏng bữa tối, nhưng thiếu hẳn thì món ăn sẽ nhạt nhẽo 🍟

Ảnh quét cũ và ảnh nén nhiều

Những bài toán này khó hơn vì mô hình có thể coi các khối nén là "kết cấu".
Hãy thử:

Loại bỏ hiện vật hoặc gỡ tắc nghẽn
Sau đó nâng cấp
Sau đó mài nhẹ (không mài quá nhiều… Tôi biết, ai cũng nói vậy, nhưng vẫn nên mài)

Anime và tranh vẽ đường nét

Vẽ đường nét có những ưu điểm sau:

Các mô hình giữ được các cạnh sắc nét
Giảm hiện tượng ảo giác về kết cấu.
Việc nâng cấp độ phân giải của anime thường trông rất tuyệt vì các hình dạng đơn giản và nhất quán hơn. (May mắn thay.)

Băng hình

Video bổ sung thêm các bước:

Khử nhiễu
Khử xen kẽ (đối với một số nguồn nhất định)
Nâng cấp
Làm mịn hoặc ổn định theo thời gian (BasicVSR (CVPR 2021))
Phương pháp bổ sung hạt tùy chọn để tăng độ kết dính

Nếu bạn bỏ qua tính nhất quán về thời gian, bạn sẽ thấy hiện tượng nhấp nháy chi tiết lung linh. Một khi đã nhận ra, bạn sẽ không thể nào quên được nó. Giống như tiếng ghế kêu cót két trong một căn phòng yên tĩnh vậy 😖

Cách chọn cài đặt mà không cần đoán mò (một vài mẹo nhỏ) 🎛️😵💫

Đây là một tư duy khởi đầu khá tốt:

Nếu khuôn mặt trông giả tạo,
hãy giảm khử nhiễu, giảm độ sắc nét, thử chế độ hoặc mô hình bảo toàn khuôn mặt.
Nếu kết cấu trông quá sắc nét,
hãy giảm thanh trượt "tăng cường chi tiết" hoặc "khôi phục chi tiết", sau đó thêm hiệu ứng hạt mờ.
Nếu các cạnh bị mờ,
hãy giảm độ sắc nét, kiểm tra các tùy chọn khử quầng sáng.
Nếu hình ảnh trông quá "giống AI",
hãy chọn cách tiếp cận thận trọng hơn. Đôi khi, lựa chọn tốt nhất đơn giản chỉ là… đơn giản hóa.

Ngoài ra: đừng phóng to ảnh lên 8x chỉ vì bạn có thể. Phóng to ở mức 2x hoặc 4x thường là mức tối ưu. Vượt quá mức đó, bạn đang yêu cầu người mẫu viết truyện fanfiction về những pixel của bạn đấy 📖😂

Đạo đức, tính xác thực và câu hỏi khó xử về "sự thật" 🧭😬

Công nghệ nâng cấp hình ảnh bằng AI làm mờ ranh giới:

Phục hồi có nghĩa là lấy lại những gì đã từng có
Nâng cấp có nghĩa là bổ sung những gì vốn không có

Với ảnh cá nhân, thường thì không sao (và rất đẹp). Nhưng với báo chí, bằng chứng pháp lý, hình ảnh y tế, hoặc bất cứ thứ gì mà độ trung thực là quan trọng… bạn cần phải cẩn thận (OSAC/NIST: Hướng dẫn tiêu chuẩn về quản lý hình ảnh kỹ thuật số pháp y, Hướng dẫn của SWGDE về phân tích hình ảnh pháp y).

Một quy tắc đơn giản:

Nếu rủi ro cao, hãy coi việc mở rộng quy mô AI như một ví dụ minh họa, chứ không phải là giải pháp cuối cùng.

Ngoài ra, việc công khai thông tin rất quan trọng trong môi trường chuyên nghiệp. Không phải vì AI là xấu xa, mà vì công chúng xứng đáng được biết liệu các chi tiết đó được tái tạo hay ghi lại một cách chính xác. Đó là điều cần thiết… thể hiện sự tôn trọng.

Lời kết và tóm tắt nhanh 🧡✅

Vậy, cách thức hoạt động của AI Upscaling là như sau: các mô hình học cách các chi tiết độ phân giải cao liên quan đến các mẫu độ phân giải thấp, sau đó dự đoán số lượng pixel bổ sung hợp lý trong quá trình nâng cấp (Học sâu cho siêu phân giải hình ảnh: Một khảo sát). Tùy thuộc vào họ mô hình (CNN, GAN, khuếch tán, video-thời gian), dự đoán đó có thể thận trọng và chính xác… hoặc táo bạo và đôi khi không theo quy tắc nào cả 😅

Tóm tắt nhanh

Phương pháp phóng to truyền thống kéo giãn các pixel (nội suy Bicubic)
Nâng cấp hình ảnh bằng AI dự đoán các chi tiết bị thiếu bằng cách sử dụng các mẫu đã học (Nâng cấp độ phân giải hình ảnh bằng mạng nơ-ron tích chập sâu (SRCNN))
Kết quả tuyệt vời đến từ mô hình phù hợp cộng với sự kiềm chế
Hãy chú ý đến các quầng sáng, bề mặt bóng như sáp, các họa tiết lặp lại và hiện tượng nhấp nháy trong video (BasicVSR (CVPR 2021))
Việc nâng cấp thường là "tái tạo khả thi", chứ không phải là sự thật hoàn hảo (SRGAN, ESRGAN)

Nếu bạn muốn, hãy cho tôi biết bạn đang phóng to hình ảnh hoặc video gì (chân dung, ảnh cũ, video, anime, bản quét văn bản), và tôi sẽ đề xuất chiến lược thiết lập giúp tránh những lỗi thường gặp về "hình ảnh do AI tạo ra" 🎯🙂

Ví dụ thực tế: Nâng cấp độ phân giải ảnh sản phẩm cũ trên các trang thương mại điện tử 📸

Kịch bản

Một cửa hàng máy ảnh cũ nhỏ có 40 ảnh sản phẩm được xuất từ một trang web cũ với chiều rộng 800px. Chủ cửa hàng muốn sử dụng lại chúng trên một trang thương mại điện tử mới, nơi kích thước ảnh được khuyến nghị là 1.600px chiều rộng.

Vấn đề là: việc thay đổi kích thước thông thường làm cho hình ảnh máy ảnh trông mờ nhạt, trong khi việc nâng cấp độ phân giải bằng AI quá mạnh có thể làm cho các chi tiết như tay cầm cao su, số seri và ký hiệu trên ống kính trông giả mạo. Điều này rất quan trọng vì người mua dựa vào những chi tiết đó trước khi mua hàng.

Mục tiêu không phải là "khôi phục" hoàn hảo thông tin bị thiếu. Mục tiêu là tạo ra hình ảnh danh sách rõ nét hơn trong khi vẫn giữ nguyên các tệp gốc, bởi vì việc nâng cấp độ phân giải bằng AI dự đoán chi tiết hợp lý chứ không phải là sự thật tuyệt đối.

Những gì quy trình làm việc cần

Ảnh sản phẩm gốc, tốt nhất là phiên bản không bị nén

Kích thước đầu ra mục tiêu, ví dụ như phóng to gấp 2 lần từ 800px lên 1.600px chiều rộng

Một công cụ hoặc mô hình có các điều khiển riêng biệt cho việc khử nhiễu, làm sắc nét và loại bỏ hiện tượng nhiễu ảnh

Một danh sách kiểm tra đơn giản để đánh giá chất liệu: chữ, cạnh, logo, ốc vít, nút, vân da và độ phản chiếu

Một thư mục dành cho ảnh gốc và một thư mục riêng cho ảnh đã chỉnh sửa, để tránh ghi đè lên dữ liệu

Ví dụ hướng dẫn

Hãy sử dụng loại hướng dẫn này khi kiểm tra bộ nâng cấp ảnh bằng AI:

Phóng to ảnh sản phẩm này lên gấp 2 lần để đăng bán trên trang thương mại điện tử. Giữ nguyên hình dạng vật thể, vị trí logo, ký hiệu trên ống kính, cạnh nút và kết cấu bề mặt càng giống với ảnh gốc càng tốt. Sử dụng phương pháp nén nhẹ, làm sắc nét ở mức thấp và tránh thêm văn bản, vết xước, nhãn, số seri hoặc chi tiết trang trí không cần thiết. Hình ảnh cuối cùng nên trông tự nhiên ở kích thước trang sản phẩm thông thường, không bị sắc nét giả tạo ở mức phóng to 400%.

Cách kiểm tra nó

Hãy bắt đầu với năm hình ảnh hỗn hợp trước khi xử lý toàn bộ lô ảnh:

Một bức ảnh sản phẩm rõ nét với ánh sáng tốt

Một ảnh nén JPEG bị vỡ hạt

Một bức ảnh có chữ in nhỏ hoặc ký hiệu trên ống kính

Một hình ảnh tối với nhiễu trong vùng bóng

Một hình ảnh với chất liệu kim loại hoặc kính phản chiếu

Sau khi phóng to, hãy so sánh từng kết quả với ảnh gốc ở mức 100% và 200%. Kiểm tra xem tên thương hiệu, núm vặn, ốc vít, cổng kết nối và các họa tiết bề mặt có còn khớp nhau không. Nếu mô hình tạo ra các "chữ gần giống chữ" hoặc các vết giả trên bề mặt, hãy giảm cài đặt làm sắc nét hoặc khôi phục chi tiết.

Kết quả

Kết quả minh họa: dựa trên việc đo thời gian thực hiện bài kiểm tra năm hình ảnh trước và sau khi sử dụng quy trình này.

Việc chỉnh sửa và thay đổi kích thước thủ công mất khoảng 9 phút cho mỗi hình ảnh, hoặc 45 phút cho năm hình ảnh.

Quy trình xử lý có sự hỗ trợ của AI mất khoảng 3 phút cho mỗi hình ảnh, hoặc 15 phút cho năm hình ảnh.

Như vậy, ước tính sẽ tiết kiệm được khoảng 30 phút cho 5 hình ảnh, hoặc khoảng 4 giờ cho một lô 40 hình ảnh.

Kết quả kiểm tra chất lượng: 4 trên 5 hình ảnh đã vượt qua vòng kiểm tra đầu tiên. Một hình ảnh bị lỗi do bộ xử lý phóng to làm biến dạng văn bản nhỏ trên ống kính, vì vậy nó đã được xử lý lại với độ sắc nét thấp hơn và không tăng cường độ tương phản cho văn bản.

Tiêu chí quan trọng ở đây không chỉ là "hình ảnh sắc nét hơn". Mà là: có bao nhiêu hình ảnh vượt qua được bài kiểm tra so sánh trực tiếp mà không có chi tiết bịa đặt?

Điều gì có thể xảy ra sai sót?

Mô hình này có thể biến bụi, các khối JPEG hoặc vết xước thành kết cấu "thực".

Văn bản nhỏ có thể trở thành văn bản giả, trông rất thật cho đến khi bạn phóng to.

Việc khử nhiễu quá mức có thể khiến cao su, da hoặc kim loại mài trông bóng loáng như sáp.

Việc mài quá sắc có thể tạo ra quầng sáng xung quanh các cạnh của sản phẩm.

Xử lý hàng loạt có thể che giấu lỗi, vì vậy hãy xem lại một mẫu trước khi xuất toàn bộ dữ liệu.

Đối với thương mại điện tử, quy tắc an toàn nhất rất đơn giản: tuyệt đối không sử dụng AI để phóng to hình ảnh nhằm che giấu hư hỏng, thay đổi tình trạng sản phẩm hoặc làm cho sản phẩm trông mới hơn so với thực tế.

Bài học thực tiễn

Nâng cấp hình ảnh bằng AI hoạt động hiệu quả nhất khi bạn coi nó như một bước hoàn thiện có kiểm soát, chứ không phải là một nút sửa chữa thần kỳ. Hãy sử dụng cài đặt 2x thận trọng, kiểm tra các chi tiết mà người mua quan tâm và giữ lại hình ảnh gốc để phiên bản đã chỉnh sửa vẫn giữ được tính chân thực.

Ví dụ thực tế: Nâng cấp độ phân giải video đào tạo cũ mà không làm video bị nhấp nháy

Kịch bản

Một công ty đào tạo nhỏ có một video hướng dẫn an toàn dài 7 phút được quay vào năm 2014 với độ phân giải 720p. Nội dung vẫn còn giá trị, nhưng chất lượng hình ảnh trông mờ trên trang web mới của công ty, đặc biệt là trên màn hình máy tính xách tay lớn.

Nhóm muốn xuất ra phiên bản 1080p chất lượng cao hơn mà không cần quay lại. Rủi ro là việc nâng cấp độ phân giải bằng AI quá mạnh có thể khiến khuôn mặt trông nhợt nhạt, biến chữ trên biển báo thành "gần như là chữ" hoặc tạo ra hiện tượng nhấp nháy kết cấu giữa các khung hình.

Mục tiêu không phải là làm cho video trông hoàn toàn mới. Mục tiêu là làm cho video rõ nét hơn, ổn định hơn và ít bị nén hơn, đồng thời vẫn giữ nguyên khuôn mặt của người hướng dẫn, các nhãn cảnh báo, cử động tay và chi tiết thiết bị giống với bản gốc.

Những gì quy trình làm việc cần

Tệp video gốc, không phải bản nén tải xuống từ mạng xã hội nếu có thể

Chọn kích thước xuất mục tiêu, ví dụ như từ 720p lên 1080p thay vì nhảy thẳng lên 4K

Một phần mềm nâng cấp video với các tùy chọn khử nhiễu, làm sắc nét, sửa lỗi nén và tính nhất quán theo thời gian

Một đoạn video thử nghiệm ngắn với hình ảnh khuôn mặt, chuyển động, văn bản và các bề mặt chi tiết

Danh sách kiểm tra để đánh giá các vấn đề như nhấp nháy, quầng sáng, văn bản bị biến dạng, kết cấu khuôn mặt và các cạnh chuyển động

Một bản sao đã lưu của video gốc để so sánh và công khai nếu cần

Ví dụ hướng dẫn

Hãy sử dụng loại hướng dẫn này trước khi xử lý toàn bộ video:

Nâng cấp video đào tạo 720p này lên 1080p. Ưu tiên chuyển động tự nhiên, các cạnh ổn định, văn bản hiện có dễ đọc và kết cấu da chân thực. Sử dụng phương pháp nén nhẹ và làm sắc nét thấp. Không tạo ra văn bản bị thiếu, logo, nhãn, vết xước, chi tiết khuôn mặt hoặc dấu hiệu thiết bị. Tránh hiện tượng nhấp nháy giữa các khung hình. Kết quả cuối cùng phải trông rõ nét hơn ở kích thước xem bình thường, không bị sắc nét giả tạo khi tạm dừng và phóng to.

Cách kiểm tra nó

Trước khi xử lý toàn bộ tệp tin dài 7 phút, hãy xuất một đoạn mẫu 20 giây bao gồm:

Biểu cảm khuôn mặt của người hướng dẫn khi đang nói

Một bàn tay di chuyển ngang qua khung hình

Nhãn cảnh báo hoặc văn bản in nhỏ

Bề mặt có kết cấu, chẳng hạn như vải, bê tông, kim loại mài hoặc nhựa

Cảnh quay lia máy hoặc bất kỳ chuyển động rung lắc nào

Xem đoạn video mẫu hai lần: một lần ở tốc độ bình thường và một lần tạm dừng từng khung hình. Ở tốc độ bình thường, hãy tìm kiếm hiện tượng nhấp nháy, lỗi hiển thị hoặc chuyển động bất thường xung quanh các cạnh. Khi tạm dừng, hãy so sánh phiên bản gốc và phiên bản được phóng to để kiểm tra xem văn bản, nút bấm, công cụ và các đặc điểm khuôn mặt có còn khớp nhau hay không.

Kết quả

Kết quả minh họa: dựa trên việc đo thời gian của một đoạn video thử nghiệm dài 20 giây, sau đó áp dụng cùng các thiết lập đó cho một video dài 7 phút.

Quy trình chỉnh kích thước và làm sắc nét thủ công mất khoảng 35 phút, bao gồm cả xuất file và xem lại, nhưng kết quả cho thấy có hiện tượng nhấp nháy rõ rệt trên tóc của người hướng dẫn và quầng sáng xung quanh các biển báo an toàn.

Quy trình làm việc có sự hỗ trợ của AI mất khoảng 55 phút, bao gồm cả việc xuất thử nghiệm, nhưng đã giảm số lượng vấn đề cần xem xét từ 8 vấn đề dễ thấy trong lần xuất đầu tiên xuống còn 2 vấn đề nhỏ trong lần xuất cuối cùng.

Phiên bản cuối cùng đã vượt qua 10 trên 12 bài kiểm tra trong danh sách đánh giá. Hai vấn đề còn lại là văn bản nền hơi mờ và có chút nhiễu nhẹ ở một góc tối. Cả hai đều được chấp nhận vì hình ảnh người hướng dẫn, thiết bị và các bước an toàn vẫn nhất quán về mặt trực quan.

Tiêu chí quan trọng ở đây không phải là "đạt được độ phân giải 1080p". Mà là: có bao nhiêu giây video hiển thị các hiện tượng nhiễu ảnh gây khó chịu trong quá trình phát lại bình thường?

Điều gì có thể xảy ra sai sót?

Mô hình này có thể làm sắc nét các khối nén và làm cho chúng trông giống như kết cấu thật.

Văn bản nhỏ có thể trông tự tin hơn nhưng lại kém chính xác hơn.

Nếu mức khử nhiễu quá cao, khuôn mặt có thể trở nên quá mịn.

Các cạnh chuyển động có thể bị nhấp nháy nếu công cụ xử lý từng khung hình quá độc lập.

Ảnh xuất ra ở độ phân giải 4K có thể trông tệ hơn ảnh xuất ra ở độ phân giải 1080p vì mô hình phải tạo ra quá nhiều chi tiết.

Sai lầm lớn nhất là chỉ đánh giá dựa trên khung hình tạm dừng. Việc nâng cấp độ phân giải video phải trông tự nhiên khi chuyển động, chứ không chỉ ấn tượng như một hình ảnh tĩnh.

Bài học thực tiễn

Đối với video, việc nâng cấp độ phân giải bằng AI hoạt động tốt nhất khi bạn thử nghiệm trên một đoạn ngắn trước, giữ mức nâng cấp ở mức vừa phải và đánh giá chuyển động trước độ sắc nét. Kết quả hơi mềm hơn nhưng ổn định thường tốt hơn so với phiên bản sắc nét nhưng bị nhấp nháy mỗi khi có người di chuyển.

Câu hỏi thường gặp

Nâng cấp hình ảnh bằng AI và cách thức hoạt động của nó

Nâng cấp hình ảnh bằng AI (thường được gọi là “siêu phân giải”) tăng độ phân giải của hình ảnh bằng cách dự đoán các chi tiết độ phân giải cao bị thiếu dựa trên các mẫu được học trong quá trình huấn luyện. Thay vì chỉ đơn giản là kéo giãn các pixel như phép nội suy song lập phương, mô hình nghiên cứu các cạnh, kết cấu, khuôn mặt và các nét vẽ giống như văn bản, sau đó tạo ra dữ liệu pixel mới phù hợp với các mẫu đã học đó. Nó không phải là “khôi phục hiện thực” mà là “đưa ra một phỏng đoán đáng tin cậy” trông tự nhiên hơn.

So sánh phóng to hình ảnh bằng AI với phương pháp lập phương bậc ba hoặc phương pháp thay đổi kích thước truyền thống

Các phương pháp nâng cấp độ phân giải truyền thống (như nội suy song lập phương) chủ yếu nội suy giữa các pixel hiện có, làm mịn các vùng chuyển tiếp mà không tạo ra chi tiết mới thực sự. Nâng cấp độ phân giải bằng AI nhằm mục đích tái tạo cấu trúc hợp lý bằng cách nhận diện các tín hiệu hình ảnh và dự đoán hình dạng của các tín hiệu đó ở độ phân giải cao. Đó là lý do tại sao kết quả của AI có thể sắc nét hơn đáng kể, và cũng là lý do tại sao chúng có thể tạo ra các hiện tượng nhiễu hoặc "tạo ra" các chi tiết không có trong ảnh gốc.

Vì sao da mặt có thể trông bóng nhờn hoặc quá mịn màng

Khuôn mặt bóng nhờn thường xuất hiện do khử nhiễu và làm mịn quá mức kết hợp với làm sắc nét, làm mất đi kết cấu da tự nhiên. Nhiều công cụ xử lý nhiễu và kết cấu mịn theo cách tương tự, vì vậy việc "làm sạch" hình ảnh có thể xóa đi lỗ chân lông và các chi tiết nhỏ. Một cách tiếp cận phổ biến là giảm khử nhiễu và làm sắc nét, sử dụng chế độ bảo toàn khuôn mặt nếu có, sau đó thêm một chút hạt nhiễu để kết quả trông tự nhiên hơn và giống ảnh chụp hơn.

Các lỗi thường gặp khi nâng cấp hình ảnh bằng AI cần lưu ý

Những dấu hiệu điển hình bao gồm quầng sáng quanh các cạnh, các mẫu họa tiết lặp lại (giống như những viên gạch được sao chép và dán), độ tương phản vi mô thô ráp và văn bản biến thành "gần như là chữ cái". Trong quy trình làm việc dựa trên khuếch tán, bạn cũng có thể thấy sự thay đổi chi tiết, nơi các đặc điểm nhỏ thay đổi một cách tinh tế. Đối với video, hiện tượng nhấp nháy và chi tiết bị nhòe giữa các khung hình là những dấu hiệu cảnh báo lớn. Nếu nó chỉ trông đẹp ở mức phóng to tối đa, thì các thiết lập có lẽ quá mạnh.

Sự khác biệt về kết quả giữa GAN, CNN và bộ tăng độ phân giải khuếch tán

Siêu phân giải dựa trên CNN thường ổn định và dễ dự đoán hơn, nhưng có thể trông "đã qua xử lý" nếu đẩy mạnh. Các tùy chọn dựa trên GAN (kiểu ESRGAN) thường tạo ra kết cấu sống động hơn và độ sắc nét cảm nhận tốt hơn, nhưng chúng có thể tạo ra ảo giác về chi tiết không chính xác, đặc biệt là trên khuôn mặt. Nâng cấp dựa trên khuếch tán có thể tạo ra chi tiết đẹp và hợp lý, nhưng có thể bị lệch khỏi cấu trúc ban đầu nếu cài đặt hướng dẫn hoặc cường độ quá mạnh.

Một chiến lược thiết lập thực tế để tránh vẻ ngoài "quá giống AI"

Hãy bắt đầu một cách thận trọng: phóng to ảnh lên 2x hoặc 4x trước khi sử dụng các mức độ cực đoan. Nếu khuôn mặt trông giả tạo, hãy giảm độ khử nhiễu và độ sắc nét, đồng thời thử chế độ nhận diện khuôn mặt. Nếu kết cấu trở nên quá sắc nét, hãy giảm độ tăng cường chi tiết và cân nhắc thêm hiệu ứng hạt mịn sau đó. Nếu các cạnh bị lóa, hãy giảm độ sắc nét và kiểm tra hiệu ứng quầng sáng hoặc khử nhiễu. Trong nhiều quy trình xử lý ảnh, "ít hơn" sẽ hiệu quả hơn vì nó giữ được tính chân thực đáng tin cậy.

Xử lý các bản quét cũ hoặc hình ảnh nén JPEG nặng trước khi phóng to

Ảnh nén rất khó xử lý vì các mô hình có thể coi các khối nhiễu là kết cấu thực và khuếch đại chúng. Quy trình làm việc phổ biến là loại bỏ nhiễu hoặc khử nhiễu trước, sau đó phóng to, rồi chỉ làm sắc nét nhẹ nếu cần. Đối với ảnh quét, việc làm sạch nhẹ nhàng có thể giúp mô hình tập trung vào cấu trúc thực tế hơn là các hư hại. Mục tiêu là giảm thiểu "các tín hiệu kết cấu giả" để bộ xử lý ảnh không bị buộc phải đưa ra những phỏng đoán thiếu chính xác từ các dữ liệu đầu vào nhiễu.

Vì sao việc nâng độ phân giải video khó hơn việc nâng độ phân giải ảnh?

Nâng cấp độ phân giải video phải nhất quán giữa các khung hình, chứ không chỉ tốt trên một hình ảnh tĩnh. Nếu chi tiết bị nhấp nháy giữa các khung hình, kết quả sẽ nhanh chóng gây khó chịu. Các phương pháp tập trung vào video sử dụng thông tin thời gian từ các khung hình lân cận để ổn định quá trình tái tạo và tránh các hiện tượng nhấp nháy. Nhiều quy trình làm việc cũng bao gồm khử nhiễu, khử xen kẽ đối với một số nguồn nhất định và tùy chọn thêm hạt nhiễu để toàn bộ chuỗi hình ảnh trông liền mạch hơn là sắc nét một cách giả tạo.

Khi việc mở rộng quy mô bằng AI không phù hợp hoặc việc dựa vào nó tiềm ẩn rủi ro

Việc nâng cấp hình ảnh bằng AI tốt nhất nên được xem như là sự cải thiện, chứ không phải là bằng chứng. Trong những bối cảnh quan trọng như báo chí, bằng chứng pháp lý, hình ảnh y tế hoặc công tác pháp y, việc tạo ra các pixel "đáng tin cậy" có thể gây hiểu lầm vì nó có thể thêm vào những chi tiết không được ghi lại. Cách tiếp cận an toàn hơn là sử dụng nó để minh họa và tiết lộ rằng quy trình AI đã tái tạo lại chi tiết. Nếu độ chính xác là tối quan trọng, hãy giữ lại bản gốc và ghi lại mọi bước xử lý và thiết lập.

Tài liệu tham khảo

arXiv - Học sâu cho siêu phân giải hình ảnh: Một khảo sát - arxiv.org
arXiv - Siêu phân giải hình ảnh bằng mạng nơ-ron tích chập sâu (SRCNN) - arxiv.org
arXiv - Real-ESRGAN - arxiv.org
arXiv - ESRGAN - arxiv.org
arXiv - SR3 - arxiv.org
Nhà phát triển NVIDIA - NVIDIA DLSS - developer.nvidia.com
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
Hội nghị Khoa học Máy tính về Thị giác (CVF) - Truy cập Mở - BasicVSR: Tìm kiếm các Thành phần Thiết yếu trong Siêu phân giải Video (CVPR 2021) - openaccess.thecvf.com
arXiv - Mạng đối kháng tạo sinh - arxiv.org
arXiv - SRGAN - arxiv.org
arXiv - Mất mát nhận thức (Johnson và cộng sự, 2016) - arxiv.org
GitHub - Kho lưu trữ Real-ESRGAN (tùy chọn ô) - github.com
Wikipedia - Nội suy bậc ba - wikipedia.org
Topaz Labs - Topaz Photo - topazlabs.com
Topaz Labs - Video Topaz - topazlabs.com
Trung tâm trợ giúp Adobe - Adobe Enhance > Độ phân giải siêu cao - helpx.adobe.com
NIST / OSAC - Hướng dẫn tiêu chuẩn về quản lý hình ảnh kỹ thuật số pháp y (Phiên bản 1.0) - nist.gov
SWGDE - Hướng dẫn phân tích hình ảnh pháp y - swgde.org

Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Quay lại blog

Cách thức hoạt động của AI Upscaling: ý tưởng cốt lõi, được giải thích bằng ngôn ngữ dễ hiểu 🧩

Điều gì tạo nên một phiên bản AI nâng cấp tốt? ✅🛠️

Bảng so sánh: Các tùy chọn nâng cấp hình ảnh bằng AI phổ biến (và công dụng của chúng) 📊🙂

Bí mật lớn: các mô hình học cách ánh xạ từ độ phân giải thấp sang độ phân giải cao 🧠➡️🖼️

Những điều cơ bản: điều gì xảy ra trong quá trình suy luận (khi bạn nâng cấp độ phân giải) ⚙️✨

Các dòng mô hình chính được sử dụng để nâng cấp hình ảnh bằng AI (và lý do tại sao chúng mang lại cảm giác khác biệt) 🤖📚

1) Siêu phân giải dựa trên CNN (phương pháp kinh điển)

2) Nâng cấp độ phân giải dựa trên GAN (kiểu ESRGAN) 🎭

3) Mở rộng quy mô dựa trên sự lan tỏa (yếu tố bất ngờ sáng tạo) 🌫️➡️🖼️

4) Nâng cấp độ phân giải video với tính nhất quán về thời gian 🎞️

Vì sao việc nâng cấp hình ảnh bằng AI đôi khi trông giả tạo (và cách nhận biết) 👀🚩

Cách thức hoạt động của AI Upscaling: khía cạnh huấn luyện, không kèm theo những bài toán phức tạp 📉🙂

Quy trình làm việc thực tế: ảnh, bản scan cũ, phim hoạt hình và video 📸🧾🎥

Ảnh (chân dung, phong cảnh, ảnh sản phẩm)

Ảnh quét cũ và ảnh nén nhiều

Anime và tranh vẽ đường nét

Băng hình

Cách chọn cài đặt mà không cần đoán mò (một vài mẹo nhỏ) 🎛️😵💫

Đạo đức, tính xác thực và câu hỏi khó xử về "sự thật" 🧭😬

Lời kết và tóm tắt nhanh 🧡✅

Ví dụ thực tế: Nâng cấp độ phân giải ảnh sản phẩm cũ trên các trang thương mại điện tử 📸

Kịch bản

Những gì quy trình làm việc cần

Ví dụ hướng dẫn

Cách kiểm tra nó

Kết quả

Điều gì có thể xảy ra sai sót?

Bài học thực tiễn

Ví dụ thực tế: Nâng cấp độ phân giải video đào tạo cũ mà không làm video bị nhấp nháy

Kịch bản

Những gì quy trình làm việc cần

Ví dụ hướng dẫn

Cách kiểm tra nó

Kết quả

Điều gì có thể xảy ra sai sót?

Bài học thực tiễn

Câu hỏi thường gặp

Nâng cấp hình ảnh bằng AI và cách thức hoạt động của nó

So sánh phóng to hình ảnh bằng AI với phương pháp lập phương bậc ba hoặc phương pháp thay đổi kích thước truyền thống

Vì sao da mặt có thể trông bóng nhờn hoặc quá mịn màng

Các lỗi thường gặp khi nâng cấp hình ảnh bằng AI cần lưu ý

Sự khác biệt về kết quả giữa GAN, CNN và bộ tăng độ phân giải khuếch tán

Một chiến lược thiết lập thực tế để tránh vẻ ngoài "quá giống AI"

Xử lý các bản quét cũ hoặc hình ảnh nén JPEG nặng trước khi phóng to

Vì sao việc nâng độ phân giải video khó hơn việc nâng độ phân giải ảnh?

Khi việc mở rộng quy mô bằng AI không phù hợp hoặc việc dựa vào nó tiềm ẩn rủi ro

Tài liệu tham khảo

Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Câu hỏi thường gặp bổ sung

Công nghệ phóng to hình ảnh bằng AI khác với các phương pháp thay đổi kích thước truyền thống như thế nào?

Tôi cần lưu ý những hiện tượng lỗi thường gặp nào khi sử dụng công nghệ nâng cấp hình ảnh bằng AI?

Tại sao khuôn mặt đôi khi trông quá mịn hoặc không tự nhiên sau khi phóng to?

Tôi nên làm gì nếu ảnh của tôi bị nhiễu hoặc có quá nhiều tiếng ồn sau khi sử dụng công nghệ nâng độ phân giải bằng AI?

So sánh hiệu quả giữa mô hình GAN và CNN về khả năng nâng cấp hình ảnh bằng AI?

Liệu việc nâng cấp độ phân giải bằng AI có phù hợp với nội dung video hay không, và nó đặt ra những thách thức gì?

Khi nào thì không nên dựa vào việc nâng cấp quy mô bằng AI?

Tôi cần lưu ý những gì khi phóng to hình ảnh đã được nén mạnh?