Tôi có thể huấn luyện mô hình giọng nói AI mà không cần kinh nghiệm trước đó không?

Đúng vậy, mặc dù một số kiến thức kỹ thuật có thể hữu ích, nhưng vẫn có những lựa chọn phù hợp với người mới bắt đầu. Việc tinh chỉnh một mô hình đã được huấn luyện sẵn thường là con đường tốt nhất cho những người không có nhiều kinh nghiệm.

Quá trình huấn luyện mô hình giọng nói AI có tốn kém không?

Chi phí có thể khác nhau tùy thuộc vào phương pháp đào tạo bạn chọn. Sử dụng các nền tảng lưu trữ có thể phát sinh phí đăng ký, trong khi các tùy chọn mã nguồn mở có thể yêu cầu đầu tư vào phần cứng hoặc thời gian, nhưng chúng có thể cân bằng giữa chất lượng và khả năng kiểm soát.

Môi trường nào là tốt nhất để ghi âm dữ liệu phục vụ huấn luyện?

Thu âm trong một căn phòng yên tĩnh và có nội thất mềm mại là lý tưởng. Bạn nên giữ nguyên vị trí đặt micro và tránh tiếng ồn xung quanh để đảm bảo chất lượng âm thanh cao.

Liệu bản ghi âm có cần thiết cho việc huấn luyện mô hình giọng nói AI không?

Chắc chắn rồi! Bản ghi âm rất quan trọng vì mô hình học hỏi từ sự kết hợp giữa âm thanh và văn bản. Nếu có sự khác biệt, mô hình có thể học cách phát âm hoặc cụm từ không chính xác.

Tôi nên tránh những gì khi huấn luyện mô hình giọng nói AI?

Những lỗi thường gặp bao gồm sử dụng bản ghi âm ồn ào, bản ghi chép không chính xác, thiết lập micro không phù hợp và bỏ qua việc tiến hành đánh giá kỹ lưỡng. Tránh những lỗi này sẽ giúp mô hình của bạn hoạt động tốt hơn.

Tôi có thể sử dụng mô hình giọng nói đã được huấn luyện cho mục đích thương mại không?

Vâng, bạn có thể sử dụng mô hình giọng nói đã được huấn luyện cho mục đích thương mại, nhưng điều cần thiết là phải tuân thủ các nguyên tắc đạo đức, bao gồm việc xin phép rõ ràng và xác định ranh giới sử dụng cụ thể.

Làm thế nào để huấn luyện một mô hình giọng nói AI?

Câu trả lời ngắn gọn: Hãy huấn luyện mô hình giọng nói AI bằng cách sử dụng các bản ghi âm sạch, có sự đồng ý của người dùng, bản chép lời chính xác, xử lý sơ bộ cẩn thận, sau đó tinh chỉnh và kiểm tra trên các kịch bản thực tế. Bạn sẽ nhận được kết quả tốt hơn khi tập dữ liệu nhất quán trên nhiều loại micro, không gian, tốc độ và dấu câu. Nếu chất lượng giảm, hãy sửa dữ liệu trước khi thay đổi cài đặt huấn luyện.

Những điểm chính cần ghi nhớ:

Sự đồng ý: Chỉ sử dụng những giọng nói mà bạn sở hữu hoặc có sự cho phép bằng văn bản rõ ràng để sử dụng trong quá trình huấn luyện.

Thu âm: Chỉ sử dụng một micro, một phòng và một mức năng lượng duy nhất trong suốt các buổi thu âm.

Phiên âm: Đối chiếu chính xác từng từ được nói ra, bao gồm cả số, từ đệm, tên và dấu câu.

Đánh giá: Hãy thử nghiệm với các kịch bản thực tế, chưa được chỉnh sửa, chứ không chỉ là các dòng demo đã được trau chuốt.

Quản trị: Xác định quyền truy cập, tiết lộ và các trường hợp sử dụng bị cấm trước khi triển khai giọng nói đã được huấn luyện.

Hướng dẫn huấn luyện mô hình giọng nói AI (Infographic)

Những bài viết bạn có thể muốn đọc sau bài này:

🔗 Tôi có thể sử dụng giọng nói AI cho video YouTube không?
Tìm hiểu về tính hợp pháp, khả năng kiếm tiền và các phương pháp tốt nhất cho việc tường thuật bằng AI.

🔗 Công nghệ chuyển văn bản thành giọng nói có phải là trí tuệ nhân tạo (AI) và nó hoạt động như thế nào?
Tìm hiểu cách TTS sử dụng các mô hình AI để tạo ra giọng nói.

🔗 Liệu trí tuệ nhân tạo (AI) có thay thế diễn viên trong phim và lồng tiếng?
Khám phá tác động đến ngành, các công việc có nguy cơ mất việc và những cơ hội mới.

🔗 Cách sử dụng AI để tạo nội dung hiệu quả
Các công cụ và quy trình thực tiễn để lên ý tưởng, viết và tái sử dụng nội dung.

Tại sao mọi người lại muốn học cách huấn luyện mô hình giọng nói AI? 🎧

Có rất nhiều lý do, và một số lý do mạnh mẽ hơn những lý do khác.

Hầu hết mọi người huấn luyện mô hình giọng nói vì họ muốn:

Tạo bản lồng tiếng mà không cần thu âm thủ công từng kịch bản
Xây dựng giọng kể chuyện nhất quán cho video hoặc podcast
Bản địa hóa nội dung nhanh hơn
Giúp các sản phẩm kỹ thuật số trở nên cá nhân hóa hơn
Lưu giữ giọng nói để dễ tiếp cận hoặc sử dụng trong kho lưu trữ
Hãy thử nghiệm với nhiều giọng nhân vật khác nhau cho trò chơi hoặc kể chuyện 🎮

Tiếp theo là khía cạnh thực tế. Việc thu âm mới mỗi lần sẽ nhanh chóng trở nên nhàm chán. Một mô hình đã được huấn luyện có thể tiết kiệm thời gian, giảm chi phí phòng thu và cung cấp cho bạn một nguồn giọng nói có thể tái sử dụng và mở rộng quy mô.

Tuy nhiên, cần phải nói rõ – công nghệ này cũng có thể bị lạm dụng. Vì vậy, trước khi hào hứng với quy trình làm việc, hãy đặt ra một quy tắc bất di bất dịch: chỉ huấn luyện trên giọng nói mà bạn sở hữu hoặc có rõ ràng sử dụng. Không có lý do bào chữa, không có chuyện “chỉ đang thử nghiệm”, không có những thử nghiệm sao chép mờ ám. Con đường đó sẽ nhanh chóng trở nên tồi tệ.

Điều gì tạo nên một mô hình giọng nói AI tốt? ✅

Một mô hình giọng nói AI tốt không chỉ đơn thuần là "rõ ràng". Nó phải nghe chân thực, ổn định, biểu cảm và nhất quán trên nhiều loại văn bản khác nhau.

Đây là những yếu tố thường phân biệt một mẫu loa tốt với một mẫu loa mà người ta thực sự thích nghe:

Bản ghi âm sạch - không tiếng rè, tiếng vọng, tiếng gõ bàn phím hoặc tiếng vang phòng thu.
Chất lượng trình bày nhất quán - khoảng cách micro, năng lượng giọng nói và thiết lập phòng tương tự.
Nhịp độ tự nhiên - không quá vội vàng, cũng không quá chậm chạp.
Khả năng phát âm tốt - đủ sự đa dạng về từ ngữ, tên riêng, số và cấu trúc câu.
Kiểm soát cảm xúc - ngay cả một người mẫu trung lập cũng không nên tỏ ra vô cảm 😬
Độ chính xác căn chỉnh văn bản - bản ghi cần phải khớp chính xác với bản ghi âm.
Tỷ lệ lỗi thấp - ít trục trặc, từ bị nuốt hoặc rung lắc như robot.

Một giọng nói phát thanh "hoàn hảo" không phải lúc nào cũng là lựa chọn tốt nhất. Một giọng nói hơi không hoàn hảo nhưng được thu âm tốt thường dễ luyện tập hơn vì ngay từ đầu nó đã nghe rất tự nhiên. Quá trau chuốt có thể trở nên cứng nhắc. Quá tự nhiên có thể trở nên khó nghe. Đó là một sự cân bằng - giống như cố gắng nướng bánh mì bằng súng phun lửa... có thể làm được, nhưng khó mà thanh lịch.

Các yếu tố cốt lõi để huấn luyện mô hình giọng nói AI 🧱

Trước khi bắt đầu tìm hiểu các công cụ và màn hình hướng dẫn, việc hiểu rõ các thành phần chính liên quan là rất hữu ích. Mỗi quy trình làm việc, bất kể nền tảng nào, thường bao gồm các thành phần sau:

1. Dữ liệu thoại

Đây là nguyên liệu thô của bạn - các đoạn ghi âm giọng nói.

2. Bản ghi

Mỗi đoạn âm thanh cần có văn bản tương ứng. Nếu bản ghi sai, mô hình sẽ học sai. Khá đơn giản, nhưng hơi phiền phức.

3. Tiền xử lý

Việc này bao gồm cắt bỏ đoạn im lặng, chuẩn hóa âm lượng, loại bỏ tiếng ồn và chia các bản ghi âm dài thành các đoạn có thể sử dụng được.

4. Đào tạo mô hình

Đây là nơi hệ thống học được mối quan hệ giữa văn bản và các mẫu giọng nói của người nói.

5. Sự đánh giá

Bạn kiểm tra xem giọng nói nghe tự nhiên, chính xác và ổn định đến mức nào.

6. Tinh chỉnh

Bạn điều chỉnh mô hình, cải thiện dữ liệu, huấn luyện lại hoặc thêm các mẫu tốt hơn.

Vì vậy, khi mọi người hỏi " Làm thế nào để huấn luyện một mô hình giọng nói AI?", họ thường nghĩ rằng huấn luyện là toàn bộ câu chuyện. Nhưng không phải vậy. Huấn luyện chỉ là một giai đoạn trong một chuỗi. Một chuỗi rất quan trọng, chắc chắn rồi - nhưng vẫn chỉ là một mắt xích.

Bảng so sánh - những cách tiếp cận phổ biến nhất 📊

Dưới đây là bảng so sánh thực tế các lộ trình chính mà mọi người thường lựa chọn. Không phải lựa chọn nào cũng phù hợp với mọi dự án, và điều đó hoàn toàn bình thường.

Tiếp cận	Tốt nhất cho	Dữ liệu cần thiết	Độ khó thiết lập	Tính năng nổi bật	Hãy cẩn thận với
Nền tảng sao chép giọng nói không cần lập trình	Người sáng tạo nội dung, nhà tiếp thị, người dùng cá nhân	Thấp đến trung bình	Khá dễ	Kết quả nhanh chóng, ít ma sát 🙂	Ít kiểm soát hơn về độ sâu của quá trình huấn luyện
Bộ công cụ TTS mã nguồn mở	Các nhà nghiên cứu, người đam mê, nhà phát triển	Trung bình đến cao	Cứng	Tùy chỉnh hoàn toàn, thiên đường dành cho dân mê công nghệ	Việc thiết lập có thể giống như vật lộn với dây cáp lúc 2 giờ sáng.
Tinh chỉnh mô hình giọng nói đã được huấn luyện trước	Hầu hết các đội thực tế	Trung bình	Vừa phải	Chất lượng tốt hơn với ít dữ liệu hơn	Cần chỉnh sửa bản ghi cẩn thận
Đào tạo từ đầu	Phòng thí nghiệm tiên tiến, các dự án nghiêm túc	Rất cao	Rất khó	Về mặt lý thuyết, khả năng kiểm soát tối đa	Tốn rất nhiều thời gian, hoàn toàn không thân thiện với người mới bắt đầu
Bộ dữ liệu tùy chỉnh chất lượng studio + tinh chỉnh	Thương hiệu, nhóm sách nói	Trung bình-cao	Vừa phải	Sự cân bằng tốt nhất giữa tính hiện thực và nỗ lực	Việc ghi âm phải tuân thủ nghiêm ngặt
Huấn luyện tập dữ liệu đa phong cách	Giọng nói nhân vật, lời kể biểu cảm	Cao	Độ khó từ trung bình đến khó	Nhiều cung bậc cảm xúc hơn 🎭	Diễn xuất không nhất quán có thể gây nhầm lẫn cho mô hình

Không có giải pháp nào là hoàn hảo. Đối với hầu hết mọi người, việc tinh chỉnh một mô hình đã được huấn luyện sẵn với dữ liệu giọng nói chất lượng cao là điểm tối ưu. Nó mang lại kết quả tốt mà không cần bạn phải tự xây dựng toàn bộ hệ thống.

Bước 1 - Ghi âm đúng dữ liệu giọng nói, chứ không chỉ ghi thật nhiều 🎤

Đây là nơi chất lượng bắt đầu. Đây cũng là nơi nhiều dự án âm thầm tan vỡ.

Nhiều người cho rằng âm thanh càng nhiều thì hiệu suất càng tốt. Đôi khi đúng, nhưng đôi khi thì hoàn toàn không. Mười giờ ghi âm thô có thể kém hơn một giờ ghi âm giọng nói rõ ràng, nhất quán.

Dữ liệu ghi chép tốt trông như thế nào?

Một tập dữ liệu mục tiêu tốt thường bao gồm

Những câu hội thoại ngắn
Câu giải thích dài hơn
Câu hỏi
Số và ngày tháng - tuy nhiên, hãy tránh đề cập đến năm cụ thể trong kịch bản nếu không cần thiết.
Tên riêng, địa danh và những trường hợp phát âm khó
Những khoảng lặng, dấu phẩy và nhịp điệu được điều khiển bởi dấu câu

Mẹo ghi âm thực tế

Thu âm trong một căn phòng yên tĩnh, có đồ đạc mềm mại.
Giữ nguyên vị trí micro.
Tránh tạo tiếng kêu răng rắc khi nghỉ uống nước và đi lại
Không nên xử lý âm thanh quá mức ngay từ đầu
Duy trì mức năng lượng ổn định

Và đây là một sự thật nhỏ nhưng đáng chú ý - nếu người nói nghe có vẻ mệt mỏi giữa chừng buổi thu âm, mô hình giọng nói cũng có thể học được giọng điệu uể oải đó. Mô hình giọng nói giống như miếng bọt biển khi được gắn tai nghe.

Bước 2 - Chuẩn bị bản ghi chép như thể mạng sống của người mẫu phụ thuộc vào nó 📝

Bởi vì, theo một cách nào đó, nó đúng là như vậy.

Chất lượng bản ghi rất quan trọng. Mô hình học hỏi từ việc ghép nối âm thanh và văn bản. Nếu người nói nói một điều và bản ghi lại nói một điều khác, quá trình khớp nối sẽ trở nên cẩu thả. Khớp nối cẩu thả dẫn đến sự tổng hợp vụng về - bỏ sót từ, phát âm sai cụm từ, mẫu nhấn âm ngẫu nhiên, những lỗi tương tự.

Bảng điểm của bạn nên là

Khớp chính xác với lời nói
Nhất quán về kiểu dấu câu
Định dạng gọn gàng
Không có lỗi chính tả
Loại bỏ các ký hiệu không cần thiết trừ khi công cụ của bạn cần đến chúng

Hãy quyết định sớm cách xử lý vấn đề

Một số người tạo nội dung cố gắng tự động phiên âm mọi thứ rồi bỏ qua. Điều này nghe có vẻ hấp dẫn, nhưng việc tự động phiên âm cần sự xem xét của con người, đặc biệt là đối với tên, giọng điệu, thuật ngữ chuyên ngành và dấu câu. Một bản phiên âm với độ chính xác 95% nghe có vẻ khá tốt trên lý thuyết. Nhưng trong quá trình đào tạo, 5% sai sót đó có thể gây ra hậu quả nghiêm trọng.

Bước 3 - Làm sạch và phân đoạn tập dữ liệu để huấn luyện ✂️

Phần này khá tẻ nhạt. Tôi biết. Nhưng đây cũng là một trong những bước mang lại hiệu quả cao nhất.

Bạn muốn chia tập dữ liệu của mình thành các đoạn nhỏ dễ quản lý, thường đủ ngắn để mô hình có thể học được mối quan hệ rõ ràng giữa văn bản và âm thanh mà không bị lạc trong các bản ghi âm khổng lồ.

Phân khúc thị trường tốt thường có nghĩa là

Các đoạn video ngắn và tập trung vào nội dung chính
Sự im lặng được lược bỏ, nhưng không bị cắt xén một cách gượng gạo
Một bản ghi cho mỗi đoạn âm thanh
Không có lời nói chồng chéo
Không có nhạc nền
Không có sự tăng đột biến nào

Các công việc dọn dẹp thông thường

Giảm tiếng ồn
Chuẩn hóa âm lượng
Cắt bỏ tiếng ồn
Loại bỏ các cảnh quay bị cắt hoặc bị méo
Xuất lại dữ liệu sang định dạng cần thiết cho bộ tài liệu huấn luyện của bạn

Tuy nhiên, có một cái bẫy ở đây. Việc làm sạch quá mức có thể khiến giọng nói nghe khô khan. Bạn không muốn đánh bóng mất đi tính người trong giọng nói. Một vài hơi thở nhỏ và chất giọng tự nhiên là hoàn toàn ổn - thậm chí còn có ích. Âm thanh quá sạch sẽ có thể biến thành âm thanh tổng hợp khô khan, và chẳng ai muốn một giọng nói nghe như được tạo ra từ bảng tính cả 😬

Bước 4 - Chọn lộ trình đào tạo phù hợp với trình độ kỹ năng của bạn ⚙️

Đây là điểm mà mọi người thường làm phức tạp hóa hoặc đơn giản hóa quá mức.

Nhìn chung, bạn có ba lựa chọn thực tế:

Phương án A - Sử dụng nền tảng đào tạo được lưu trữ

Lựa chọn tốt nhất nếu bạn muốn tốc độ và sự tiện lợi.

Ưu điểm:

Giao diện dễ sử dụng hơn
Thiết lập kỹ thuật đơn giản hơn
Đường dẫn nhanh hơn đến kết quả đầu ra hữu ích
Thường bao gồm các công cụ suy luận

Nhược điểm:

Ít kiểm soát hơn
Chi phí có thể chồng chất lên nhau
Hành vi của mô hình có thể bị giới hạn trong một phạm vi nhất định

Phương án B - Tinh chỉnh mô hình TTS mã nguồn mở hoặc tùy chỉnh

Lựa chọn tốt nhất nếu bạn muốn chất lượng cao kết hợp với tính linh hoạt.

Ưu điểm:

Kiểm soát tốt hơn quá trình huấn luyện
Khả năng tùy chỉnh tốt hơn
Dễ dàng tối ưu hóa hơn cho tập dữ liệu của bạn

Nhược điểm:

Yêu cầu một số kiến thức kỹ thuật
Thêm nhiều lần thử và sai
Phần cứng quan trọng hơn

Phương án C - Đào tạo từ đầu

Tốt nhất là nên dùng nếu bạn đang thực hiện nghiên cứu chuyên sâu hoặc xây dựng một thứ gì đó chuyên dụng.

Ưu điểm:

Kiểm soát kiến trúc tối đa
Hành vi mô hình được tùy chỉnh

Nhược điểm:

Nhu cầu dữ liệu khổng lồ
Chu kỳ thử nghiệm dài hơn
Rất dễ lãng phí thời gian, năng lượng và sự kiên nhẫn

Đối với hầu hết mọi người - và vâng, điều đó bao gồm cả những nhà phát triển thông minh với nguồn lực hạn chế - việc tinh chỉnh là lựa chọn hợp lý. Đó là con đường trung dung. Không hào nhoáng, không thô sơ, chỉ đơn giản là hiệu quả.

Bước 5 - Huấn luyện, đánh giá, rồi lại huấn luyện tiếp... vì đó là quy trình 🔁

Đây là giai đoạn hệ thống bắt đầu học các mẫu giọng nói.

Trong quá trình huấn luyện, mô hình cố gắng liên kết các âm vị, nhịp điệu, ngữ điệu và nhận dạng giọng nói với các mẫu âm thanh đã được phiên âm. Tùy thuộc vào khung phần mềm, bạn cũng có thể đang huấn luyện hoặc kết hợp với bộ mã hóa giọng nói (vocoder), bộ mã hóa phong cách (style encoder), hệ thống nhúng giọng nói (speaker embedding system) hoặc giao diện văn bản (text frontend). Nghe có vẻ phức tạp, nhưng ý tưởng cơ bản vẫn giữ nguyên - dạy văn bản trở thành giọng nói đó.

Những gì bạn theo dõi trong quá trình huấn luyện

Giá trị tổn thất
Tính ổn định phát âm
Tính tự nhiên của âm thanh
Tốc độ nói
Tính nhất quán về mặt cảm xúc
Sự hiện diện của hiện vật

Dấu hiệu cho thấy mô hình của bạn đang được cải thiện

Ít từ ngữ bị bóp méo hơn
Chuyển đổi mượt mà hơn
Những khoảng lặng đáng tin hơn
Xử lý tốt hơn các câu không quen thuộc
Nhận diện giọng nói ổn định trên tất cả các thiết bị đầu ra

Dấu hiệu cho thấy có điều gì đó không ổn

Âm thanh kim loại hoặc rè
Âm tiết lặp lại
Phụ âm bị nói ngọng
Nhấn mạnh ngẫu nhiên đầy kịch tính
Truyền tải nhạt nhẽo, thiếu sức sống
Giọng nói thay đổi từ mẫu này sang mẫu khác

Và đúng vậy, việc lặp lại là điều bình thường. Rất bình thường. Kết quả huấn luyện đầu tiên có thể đầy hứa hẹn nhưng hơi sai lệch. Có thể nó nghe có vẻ đúng nhưng đọc quá chậm. Có thể nó xử lý tốt các câu ngắn nhưng lại gặp khó khăn với các đoạn văn dài hơn. Có thể nó xử lý phần tường thuật khá tốt nhưng lại không chắc chắn về các con số. Điều đó không có nghĩa là dự án thất bại. Điều đó có nghĩa là bạn đang ở giai đoạn quan trọng nhất.

Bước 6 - Tinh chỉnh để đạt được tính chân thực, cảm xúc và sự kiểm soát tốt nhất 🎭

Đây là lúc một mô hình tốt bắt đầu trở thành một mô hình xứng đáng có chỗ đứng của mình.

Khi giọng nói cơ bản đã hoạt động, thử thách tiếp theo là kiểm soát. Bạn không chỉ muốn giọng nói tồn tại, mà còn muốn nó hoạt động theo đúng ý muốn.

Những lĩnh vực cần tinh chỉnh

Ngữ điệu - sự lên xuống, nhấn mạnh tự nhiên, nhịp điệu.
Cảm xúc - điềm tĩnh, tràn đầy năng lượng, ấm áp, nghiêm túc
Phong cách nói - giao tiếp thông thường, hướng dẫn, điện ảnh
Quy tắc phát âm được ưu tiên - tên thương hiệu, thuật ngữ chuyên ngành, tên gọi
Xử lý câu - đặc biệt là các cấu trúc dài hoặc phức tạp.

Nhiều người sáng tạo dừng lại quá sớm. Họ chỉ cần một giọng nói "nghe giống người nói" và cho rằng như vậy là xong. Nhưng chỉ sự giống nhau thôi là chưa đủ. Một mô hình giọng nói tốt phải tự nhiên khi sử dụng trong nhiều loại kịch bản khác nhau. Nó phải xử lý tốt một đoạn hướng dẫn, một câu quảng cáo và một đoạn hội thoại mà không làm thay đổi tính cách giữa chừng.

Đây cũng là lý do tại sao câu hỏi " Làm thế nào để huấn luyện một mô hình giọng nói AI?" không có câu trả lời chỉ bằng một cú nhấp chuột. Thành công thực sự đến từ quá trình huấn luyện cộng với việc tinh chỉnh. Một mô hình đã đạt 80% vẫn có thể cho cảm giác chưa hoàn hảo. Còn 20% cuối cùng đó? Quan trọng hơn nhiều so với vẻ bề ngoài ban đầu.

Bước 7 - Kiểm tra trên các kịch bản thực tế, không chỉ các dòng demo sạch sẽ 🧪

Đừng đánh giá mô hình của bạn chỉ dựa trên những câu nói thử nghiệm hoàn hảo như “Xin chào và chào mừng đến với kênh”. Đó chỉ là chiêu trò câu khách.

Hãy sử dụng cả những kịch bản sơ lược, thực tế nữa:

Đoạn văn dài
Tên sản phẩm
Số và ký hiệu
Câu hỏi
Chuyển đổi nhanh chóng
Những thay đổi về cảm xúc
Dấu câu vụng về
Các đoạn hội thoại rời rạc

Các ví dụ tốt về kiểm tra khả năng chịu tải bao gồm:

Giới thiệu bài hướng dẫn
Giải thích về hỗ trợ khách hàng
Một đoạn văn trong truyện
Một kịch bản chứa nhiều danh sách
Một dòng chứa tên thương hiệu và từ viết tắt
Một câu văn thay đổi giọng điệu ở giữa chừng

Tại sao điều này lại quan trọng? Bởi vì những dòng giới thiệu được trau chuốt kỹ lưỡng sẽ che đậy những điểm yếu của các mẫu xe. Nội dung thực tế sẽ vạch trần những điểm yếu đó. Nó giống như việc thử nghiệm một chiếc xe bằng cách từ từ lăn bánh xuống đường lái xe – về mặt kỹ thuật thì đó là chuyển động, nhưng không hẳn là bằng chứng xác thực.

Bước 8 - Tránh những lỗi khiến giọng nói mẫu nghe giả tạo 🚫

Một số lỗi lặp đi lặp lại.

Các vấn đề thường gặp

Sử dụng các bản ghi âm ồn ào hoặc có tiếng vang
Phối âm nhiều micro
Đào tạo với bảng điểm kém
Đưa các phong cách nói chuyện hoàn toàn khác nhau vào cùng một tập dữ liệu
Việc kỳ vọng các tập dữ liệu nhỏ sẽ cho ra kết quả cao cấp là điều không thể
Làm sạch âm thanh quá mức
Bỏ qua các trường hợp ngoại lệ về phát âm
Bỏ qua việc đánh giá sau mỗi lần cải tiến

Thêm một sai lầm lớn nữa

Huấn luyện mô hình mà không có ranh giới sử dụng rõ ràng.

Bạn nên định nghĩa:

Ai có thể sử dụng giọng nói?
Nơi có thể triển khai
Liệu việc tiết lộ thông tin có cần thiết hay không?
Những loại nội dung nào bị cấm?
Cách thức ghi nhận sự đồng ý

Nghe có vẻ nhàm chán, thậm chí hơi giống kiểu công ty. Nhưng điều đó rất quan trọng. Giọng nói mang tính cá nhân. Thực tế là vô cùng cá nhân. Vì vậy, hãy đối xử với nó như vậy.

Những nguyên tắc đạo đức và thực tiễn không bao giờ được phép tùy ý sử dụng 🛡️

Điều này xứng đáng được dành riêng một mục, bởi vì quá nhiều người lại bỏ qua nó ở gần cuối như một chú thích.

Khi xây dựng mô hình giọng nói:

Nhận được sự đồng ý rõ ràng từ người nói
Lưu giữ hồ sơ xin phép bằng văn bản
Không được mạo danh người thật mà không có sự cho phép
Ghi nhãn thành phần tổng hợp khi thích hợp
Bảo vệ dữ liệu giọng nói thô
Hạn chế quyền truy cập vào các mô hình đã được huấn luyện
Xem xét lại kết quả trước khi công bố

Ngoài ra còn có vấn đề về lòng tin rộng hơn. Khán giả ngày càng tinh ý hơn. Họ thường có thể cảm nhận được khi âm thanh có vẻ "không ổn", ngay cả khi họ không thể giải thích lý do. Vì vậy, tính minh bạch không chỉ là vấn đề đạo đức mà còn là vấn đề thực tiễn. Giữ vững lòng tin dễ hơn là xây dựng lại lòng tin.

Lời kết về cách huấn luyện mô hình giọng nói AI? 🎯

Vậy, làm thế nào để huấn luyện một mô hình giọng nói AI? Bạn bắt đầu với sự đồng ý, các bản ghi âm sạch và bản ghi chép chính xác. Sau đó, bạn chuẩn bị bộ dữ liệu cẩn thận, chọn lộ trình huấn luyện phù hợp, đánh giá kỹ lưỡng và tinh chỉnh cho đến khi giọng nói nghe ổn định và tự nhiên trong các tình huống thực tế.

Đó mới là câu trả lời thực sự.

Có lẽ không hào nhoáng. Nhưng đó là sự thật.

Những người đạt được kết quả xuất sắc thường làm một vài việc tốt hơn những người khác:

Họ tôn trọng dữ liệu
Họ không vội vàng trong việc chỉnh sửa bản ghi
Họ thử nghiệm trên các kịch bản thô sơ, thực tế
Họ tiếp tục cải tiến sau khi đạt được kết quả "tạm ổn" đầu tiên
Họ hiểu rằng một bài phát biểu thuyết phục là sự kết hợp giữa kỹ thuật, khả năng xử lý âm thanh, sự kiên nhẫn... và cả một chút bướng bỉnh nữa 😄

Nếu mục tiêu của bạn là một giọng nói nghe tự nhiên, đáng tin cậy và thực tế, hãy tập trung vào toàn bộ quy trình hơn là các lối tắt: thu âm tốt, xử lý tốt, căn chỉnh tốt, luyện tập cẩn thận, lắng nghe kỹ lưỡng, và cải thiện một cách có chủ đích. Đó mới là con đường đúng đắn.

Và đúng vậy, nó hơi giống như làm vườn bằng lập trình. Tôi biết đây không phải là một phép ẩn dụ hoàn hảo. Nhưng bạn gieo trồng đúng loại cây, chăm sóc đều đặn, và sau một thời gian, một thứ gì đó sống động đến bất ngờ bắt đầu phản hồi lại.

Ví dụ thực tế: Xây dựng mô hình giọng nói tường thuật dựa trên sự đồng ý 🎙️

Kịch bản

Hãy tưởng tượng một kênh YouTube giáo dục nhỏ, mỗi tuần đăng tải ba video giải thích. Người dẫn chương trình tự thu âm lời thuyết minh, nhưng việc thu lại, chỉnh sửa và bổ sung cảnh quay đang làm chậm toàn bộ lịch trình.

Mục tiêu không phải là thay thế giọng nói của người dẫn chương trình mà không có sự cho phép. Người dẫn chương trình sở hữu kênh, ký vào văn bản đồng ý và ghi âm một bộ dữ liệu sạch dành riêng cho mục đích huấn luyện. Giọng nói đã được huấn luyện chỉ được sử dụng cho các bản nháp tường thuật ban đầu, các thay đổi nhỏ trong kịch bản và các chỉnh sửa ngắn khi người dẫn chương trình vắng mặt.

Đây là một trường hợp sử dụng thực tế vì mô hình giọng nói hỗ trợ quy trình làm việc của chính người tạo nội dung thay vì giả vờ là người khác.

Những gì trợ lý cần

Để thực hiện thiết lập này, người tạo sẽ chuẩn bị:

90 phút lời dẫn chuyện rõ ràng được thu âm bằng cùng một micro
Bản ghi chép chính xác cho từng đoạn video
Danh sách cách phát âm đơn giản cho tên thương hiệu, từ viết tắt và các từ ngữ thông dụng
Một văn bản thỏa thuận nêu rõ nơi có thể sử dụng giọng nói đó
Một thư mục chứa các kịch bản kiểm tra bao gồm hướng dẫn, các phần dạng danh sách, câu hỏi và dấu câu khó hiểu
Danh sách kiểm tra đánh giá chất lượng âm thanh, phát âm, giọng điệu và thông tin công khai

Nguyên tắc quan trọng rất đơn giản: đừng bắt đầu đào tạo cho đến khi bản ghi âm và bản chép lời được hoàn thiện một cách tỉ mỉ. Tài liệu rõ ràng, nhất quán là tốt nhất ở đây. Tài liệu rõ ràng, nhất quán giúp việc đào tạo hiệu quả.

Ví dụ hướng dẫn

Hãy sử dụng giọng nói người dẫn chương trình đã được phê duyệt để tạo ra một bài tường thuật giáo dục nhẹ nhàng, thân thiện. Giữ nhịp độ tự nhiên, tránh cảm xúc thái quá và phát âm rõ ràng các thuật ngữ chuyên ngành. Nếu kịch bản chứa số, ngày tháng, từ viết tắt hoặc tên sản phẩm, hãy giữ nguyên chúng chính xác như đã viết. Không tạo bài phát biểu cho mục đích ủng hộ chính trị, tư vấn y tế, hứa hẹn tài chính hoặc mạo danh người khác. Đánh dấu bất kỳ dòng nào có thể cần người xem xét trước khi xuất âm thanh.

Cách kiểm tra nó

Hãy bắt đầu với năm kịch bản ngắn thay vì toàn bộ quá trình sản xuất.

Kịch bản thử nghiệm 1: Đoạn giới thiệu kênh dài 30 giây với một câu hỏi và một lời kêu gọi hành động.

Kịch bản kiểm thử 2: Một phần hướng dẫn dài hai phút với các bước được đánh số.

Bài kiểm tra số 3: Một đoạn văn có dấu câu, dấu ngoặc, dấu gạch ngang không chuẩn và thay đổi giọng điệu giữa câu.

Kịch bản kiểm thử 4: Một kịch bản chứa nhiều danh sách bao gồm tên, từ viết tắt, giá cả và ngày tháng.

Kịch bản thử nghiệm 5: Một dòng sửa lỗi cần phù hợp với giọng điệu của một video đã được xuất bản.

Sau khi tạo ra âm thanh, hãy so sánh từng kết quả với danh sách kiểm tra:

Giọng nói đó có còn giống giọng của người phát ngôn đã được phê duyệt không?
Tất cả các tên và số đều được phát âm chính xác phải không?
Nhịp độ phim có vẻ tự nhiên không?
Có hiện tượng lặp lại âm tiết, âm thanh kim loại, hay nuốt từ không?
Liệu người dẫn chương trình có chấp thuận điều này mà không cần thu âm lại không?
Video cuối cùng có cần ghi chú về giọng nói tổng hợp không?

Kết quả

Kết quả minh họa: Dựa trên việc đo thời gian thực hiện năm nhiệm vụ tường thuật mẫu trước và sau khi sử dụng quy trình này, người tạo nội dung có thể giảm thời gian sản xuất bản thu âm giọng nói lần đầu từ 40 phút cho mỗi kịch bản 600 từ xuống còn khoảng 12 phút.

Cơ sở đo lường: tính thời gian toàn bộ quá trình từ khi mở kịch bản đến khi xuất file tường thuật sẵn sàng để xem xét.

Trong cùng một bài kiểm tra năm kịch bản, người tạo có thể theo dõi:

Đã tạo 5 tập lệnh
3 bài được chấp nhận sau khi chỉnh sửa nhẹ
2 bản đã được gửi trả lại để sửa lỗi phát âm
Đã phát hiện tổng cộng 11 lỗi phát âm
0 video được đăng tải mà không qua kiểm duyệt của con người
100% kết quả đầu ra được kiểm tra đối chiếu với các quy tắc về sự đồng ý và sử dụng

Những con số đó không chứng minh rằng mọi mô hình giọng nói sẽ hoạt động giống nhau. Chúng chỉ thể hiện loại đo lường thực tế quan trọng: thời gian tiết kiệm được, tỷ lệ đạt yêu cầu đánh giá, lỗi phát âm và liệu quy trình quản trị có được tuân thủ hay không.

Điều gì có thể xảy ra sai sót?

Lỗi thường gặp nhất là sử dụng mô hình quá sớm. Nếu bản thu âm đầu tiên nghe "gần đúng", người ta có thể dễ dàng muốn nhanh chóng xuất bản. Điều đó rất rủi ro. Những lỗi nhỏ về nhịp điệu, trọng âm hoặc phát âm sẽ trở nên rõ ràng hơn khi âm thanh được đưa vào video hoàn chỉnh.

Các vấn đề khác bao gồm:

Luyện tập với các bản ghi âm cũ bằng một micro khác
Kết hợp những cảnh quay mệt mỏi với những cảnh quay tràn đầy năng lượng
Cho phép bản ghi tự động được duyệt mà không qua kiểm duyệt
Quên kiểm tra số, tên và từ viết tắt
Cho phép quá nhiều người truy cập vào mô hình giọng nói
Sử dụng giọng nói cho nội dung mà người nói chưa từng đồng ý
Tuyên bố đạt được hiệu suất cao hơn mà không tính toán thời gian thực hiện quy trình một cách chính xác

Bài học thực tiễn

Một mô hình giọng nói AI mạnh mẽ không chỉ là một thủ thuật âm thanh thông minh. Nó là một tài sản sản xuất được kiểm soát. Hãy đối xử với nó như vậy: xin phép, ghi âm dữ liệu sạch, thử nghiệm với các kịch bản sản xuất thực tế, đo lường tỷ lệ lỗi và luôn có người đánh giá tham khảo trước khi bất cứ điều gì được công bố.

Câu hỏi thường gặp

Làm thế nào để huấn luyện một mô hình giọng nói AI từ đầu đến cuối?

Việc huấn luyện một mô hình giọng nói AI thường bắt đầu bằng sự đồng ý, các bản ghi âm sạch và bản chép lời chính xác. Từ đó, quy trình làm việc trải qua các bước tiền xử lý, phân đoạn, huấn luyện mô hình, đánh giá và tinh chỉnh. Bài viết làm rõ rằng huấn luyện chỉ là một phần của một quá trình dài hơn, và kết quả tốt đến từ việc xử lý tốt từng giai đoạn chứ không phải dựa vào một công cụ hoặc lối tắt duy nhất.

Bạn cần bao nhiêu dữ liệu âm thanh để huấn luyện một mô hình giọng nói AI tốt?

Nhiều dữ liệu âm thanh hơn có thể hữu ích, nhưng chất lượng quan trọng hơn thời lượng thô. Hướng dẫn lưu ý rằng một giờ nói chuyện rõ ràng, nhất quán có thể vượt trội hơn nhiều giờ ghi âm ồn ào hoặc không đều. Một tập dữ liệu mạnh thường bao gồm nhiều loại câu, số, tên, câu hỏi và nhịp điệu tự nhiên để mô hình học được cách người nói xử lý văn bản hàng ngày.

Loại bản ghi âm nào phù hợp nhất cho việc huấn luyện giọng nói mẫu?

Những bản ghi âm tốt nhất là những bản ghi sạch sẽ, nhất quán và được thu âm trong cùng một thiết lập cho toàn bộ tập dữ liệu. Điều đó có nghĩa là sử dụng cùng một micro, cùng một phòng và khoảng cách nói ổn định, đồng thời tránh tiếng vọng, tiếng ù, tiếng ồn bàn phím và xử lý âm thanh quá mức. Cách diễn đạt tự nhiên cũng rất quan trọng, bởi vì mô hình sẽ hấp thụ nhịp độ, giọng điệu và năng lượng của người nói.

Tại sao bản ghi âm lại quan trọng đến vậy khi huấn luyện mô hình giọng nói?

Bản ghi chép rất quan trọng vì mô hình học hỏi từ sự kết hợp giữa âm thanh nói và văn bản viết. Nếu bản ghi chép không khớp với những gì đã nói, mô hình có thể tiếp thu các mẫu phát âm yếu, trọng âm đặt sai vị trí hoặc từ bị bỏ sót. Bài báo cũng nhấn mạnh tầm quan trọng của việc duy trì tính nhất quán với các con số, từ viết tắt, từ đệm và dấu câu trước khi bắt đầu huấn luyện.

Bạn nên làm thế nào để làm sạch và phân đoạn âm thanh trước khi huấn luyện?

Âm thanh nên được chia thành các đoạn ngắn, tập trung vào nội dung chính, kèm theo một bản ghi chép tương ứng cho mỗi đoạn. Các bước chuẩn bị thông thường bao gồm cắt bỏ đoạn im lặng, chuẩn hóa âm lượng, giảm tiếng ồn và loại bỏ các đoạn bị méo tiếng hoặc lời nói chồng chéo. Hướng dẫn cũng cảnh báo không nên chỉnh sửa quá mức, vì việc loại bỏ từng hơi thở và từng chi tiết nhỏ có thể khiến giọng nói cuối cùng nghe khô khan và kém tự nhiên.

Nếu không phải chuyên gia, cách tốt nhất để huấn luyện mô hình giọng nói AI là gì?

Đối với hầu hết mọi người, việc tinh chỉnh một mô hình đã được huấn luyện sẵn là con đường thực tế nhất. Nó mang lại sự cân bằng tốt hơn giữa chất lượng, nhu cầu dữ liệu và nỗ lực kỹ thuật so với việc huấn luyện từ đầu, đồng thời cung cấp nhiều quyền kiểm soát hơn so với một nền tảng không cần lập trình đơn giản. Các công cụ được lưu trữ trên máy chủ nhanh hơn khi sử dụng, nhưng việc tinh chỉnh thường là giải pháp trung gian mang lại kết quả mạnh mẽ và dễ thích ứng hơn.

Làm sao bạn biết được mô hình giọng nói AI của mình đang tiến bộ trong quá trình huấn luyện?

Sự cải thiện thường thể hiện ở giọng nói trôi chảy hơn, ít từ bị bóp méo, khoảng dừng tốt hơn và giọng nói ổn định hơn trong các yêu cầu khác nhau. Các dấu hiệu cảnh báo bao gồm giọng nói khàn, lặp lại âm tiết, phụ âm bị líu lưỡi, cách phát âm đều đều và giọng nói thay đổi giữa các mẫu. Bài báo nhấn mạnh rằng việc đánh giá không phải là một lần kiểm tra duy nhất, mà là một phần của chu kỳ kiểm tra và đào tạo lại liên tục.

Làm thế nào để giọng nói của mô hình AI nghe chân thực và biểu cảm hơn?

Khi mô hình cơ bản hoạt động tốt, bước tiếp theo là tinh chỉnh ngữ điệu, cảm xúc, nhịp độ và phong cách nói. Một giọng nói chân thực cần nhiều hơn là chỉ sự giống người nói, bởi vì nó phải xử lý tốt các bài hướng dẫn, tường thuật, các câu quảng cáo và các đoạn văn dài hơn mà không bị cứng nhắc hoặc không nhất quán. Việc tinh chỉnh cũng giúp khắc phục các lỗi phát âm và cải thiện cách mô hình xử lý các câu dài hơn, phức tạp hơn.

Bạn nên kiểm tra những gì trước khi sử dụng mô hình giọng nói AI trong môi trường sản xuất?

Đừng chỉ dựa vào những câu demo ngắn gọn khiến hầu hết các người mẫu nghe có vẻ ổn. Hướng dẫn khuyến nghị nên thử nghiệm với các đoạn văn dài, dấu câu vụng về, tên sản phẩm, từ viết tắt, số, câu hỏi và sự thay đổi cảm xúc. Kịch bản đầy đủ sẽ bộc lộ điểm yếu nhanh hơn nhiều, đặc biệt khi người mẫu phải xử lý sự thay đổi giọng điệu, cách diễn đạt phức tạp hoặc nội dung nặng về danh sách.

Bạn nên tuân theo những quy tắc đạo đức nào khi huấn luyện mô hình giọng nói AI?

Bài viết coi sự đồng ý là điều không thể thương lượng. Bạn chỉ nên huấn luyện giọng nói trên giọng nói mà bạn sở hữu hoặc có sự cho phép rõ ràng để sử dụng, lưu giữ hồ sơ bằng văn bản, bảo vệ dữ liệu giọng nói thô, hạn chế quyền truy cập vào mô hình đã được huấn luyện và xác định rõ ràng ranh giới sử dụng. Bài viết cũng khuyến nghị gắn nhãn âm thanh tổng hợp khi thích hợp và tránh mọi hành vi mạo danh người thật mà không được phép.

Tài liệu tham khảo

Microsoft Learn - quyền truy cập được chỉ định rõ ràng - learn.microsoft.com
Trung tâm trợ giúp ElevenLabs - tiếng nói của chính bạn - help.elevenlabs.io
Tài liệu hướng dẫn về NVIDIA NeMo Framework - Xử lý trước dữ liệu - docs.nvidia.com
Tài liệu hướng dẫn sử dụng Montreal Forced Aligner - Độ chính xác căn chỉnh văn bản - montreal-forced-aligner.readthedocs.io
Ủy ban Thương mại Liên bang Hoa Kỳ - Không được mạo danh người thật mà không có sự cho phép - ftc.gov
Viện Tiêu chuẩn và Công nghệ Quốc gia - Ghi nhãn thành phần tổng hợp khi thích hợp - nist.gov

Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Quay lại blog

Tại sao mọi người lại muốn học cách huấn luyện mô hình giọng nói AI? 🎧

Điều gì tạo nên một mô hình giọng nói AI tốt? ✅

Các yếu tố cốt lõi để huấn luyện mô hình giọng nói AI 🧱

1. Dữ liệu thoại

2. Bản ghi

3. Tiền xử lý

4. Đào tạo mô hình

5. Sự đánh giá

6. Tinh chỉnh

Bảng so sánh - những cách tiếp cận phổ biến nhất 📊

Bước 1 - Ghi âm đúng dữ liệu giọng nói, chứ không chỉ ghi thật nhiều 🎤

Dữ liệu ghi chép tốt trông như thế nào?

Một tập dữ liệu mục tiêu tốt thường bao gồm

Mẹo ghi âm thực tế

Bước 2 - Chuẩn bị bản ghi chép như thể mạng sống của người mẫu phụ thuộc vào nó 📝

Bảng điểm của bạn nên là

Hãy quyết định sớm cách xử lý vấn đề

Bước 3 - Làm sạch và phân đoạn tập dữ liệu để huấn luyện ✂️

Phân khúc thị trường tốt thường có nghĩa là

Các công việc dọn dẹp thông thường

Bước 4 - Chọn lộ trình đào tạo phù hợp với trình độ kỹ năng của bạn ⚙️

Phương án A - Sử dụng nền tảng đào tạo được lưu trữ

Phương án B - Tinh chỉnh mô hình TTS mã nguồn mở hoặc tùy chỉnh

Phương án C - Đào tạo từ đầu

Bước 5 - Huấn luyện, đánh giá, rồi lại huấn luyện tiếp... vì đó là quy trình 🔁

Những gì bạn theo dõi trong quá trình huấn luyện

Dấu hiệu cho thấy mô hình của bạn đang được cải thiện

Dấu hiệu cho thấy có điều gì đó không ổn

Bước 6 - Tinh chỉnh để đạt được tính chân thực, cảm xúc và sự kiểm soát tốt nhất 🎭

Những lĩnh vực cần tinh chỉnh

Bước 7 - Kiểm tra trên các kịch bản thực tế, không chỉ các dòng demo sạch sẽ 🧪

Các ví dụ tốt về kiểm tra khả năng chịu tải bao gồm:

Bước 8 - Tránh những lỗi khiến giọng nói mẫu nghe giả tạo 🚫

Các vấn đề thường gặp

Thêm một sai lầm lớn nữa

Những nguyên tắc đạo đức và thực tiễn không bao giờ được phép tùy ý sử dụng 🛡️

Lời kết về cách huấn luyện mô hình giọng nói AI? 🎯

Ví dụ thực tế: Xây dựng mô hình giọng nói tường thuật dựa trên sự đồng ý 🎙️

Kịch bản

Những gì trợ lý cần

Ví dụ hướng dẫn

Cách kiểm tra nó

Kết quả

Điều gì có thể xảy ra sai sót?

Bài học thực tiễn

Câu hỏi thường gặp

Làm thế nào để huấn luyện một mô hình giọng nói AI từ đầu đến cuối?

Bạn cần bao nhiêu dữ liệu âm thanh để huấn luyện một mô hình giọng nói AI tốt?

Loại bản ghi âm nào phù hợp nhất cho việc huấn luyện giọng nói mẫu?

Tại sao bản ghi âm lại quan trọng đến vậy khi huấn luyện mô hình giọng nói?

Bạn nên làm thế nào để làm sạch và phân đoạn âm thanh trước khi huấn luyện?

Nếu không phải chuyên gia, cách tốt nhất để huấn luyện mô hình giọng nói AI là gì?

Làm sao bạn biết được mô hình giọng nói AI của mình đang tiến bộ trong quá trình huấn luyện?

Làm thế nào để giọng nói của mô hình AI nghe chân thực và biểu cảm hơn?

Bạn nên kiểm tra những gì trước khi sử dụng mô hình giọng nói AI trong môi trường sản xuất?

Bạn nên tuân theo những quy tắc đạo đức nào khi huấn luyện mô hình giọng nói AI?

Tài liệu tham khảo

Tìm kiếm những công nghệ AI mới nhất tại Cửa hàng Trợ lý AI chính thức

Về chúng tôi

Câu hỏi thường gặp bổ sung

Tôi có thể huấn luyện mô hình giọng nói AI mà không cần kinh nghiệm trước đó không?

Quá trình huấn luyện mô hình giọng nói AI có tốn kém không?

Tôi cần bao nhiêu dữ liệu âm thanh để huấn luyện một mô hình giọng nói AI tốt?

Môi trường nào là tốt nhất để ghi âm dữ liệu phục vụ huấn luyện?

Liệu bản ghi âm có cần thiết cho việc huấn luyện mô hình giọng nói AI không?

Tôi nên tránh những gì khi huấn luyện mô hình giọng nói AI?

Tôi có thể sử dụng mô hình giọng nói đã được huấn luyện cho mục đích thương mại không?