Công nghệ chuyển văn bản thành giọng nói (Text-to-Speech – TTS) đã có những bước tiến rất lớn trong thời gian gần đây. Nhờ đó, nhiều người sáng tạo nội dung có thể dễ dàng tạo audio cho bài thuyết trình, video demo hoặc các sản phẩm truyền thông mà không cần đến phòng thu chuyên nghiệp. Trong thực tế, không ít người đã kết hợp hình ảnh với các công cụ như ElevenLabs để tạo ra giọng đọc tự nhiên, gần như tương đương chất lượng phòng thu.
Điểm đáng chú ý là các mô hình mã nguồn mở đang dần bắt kịp các giải pháp thương mại. Chúng không chỉ cải thiện độ chân thực của giọng nói, mà còn bổ sung khả năng thể hiện cảm xúc, tạo hiệu ứng âm thanh, thậm chí tạo ra nội dung dài với nhiều người nói như podcast. Trong bối cảnh đó, việc lựa chọn một mô hình phù hợp không chỉ phụ thuộc vào chất lượng âm thanh, mà còn liên quan đến tốc độ, khả năng hỗ trợ ngôn ngữ và mục đích sử dụng cụ thể.

VibeVoice – TTS cho hội thoại dài và nhiều người nói
VibeVoice là một mô hình TTS tiên tiến, được thiết kế để tạo ra các đoạn hội thoại dài với nhiều người nói, chẳng hạn như podcast, trực tiếp từ văn bản. Mô hình này giải quyết một số vấn đề lâu nay của TTS như khả năng mở rộng, tính nhất quán giữa các giọng nói và cách chuyển lượt hội thoại tự nhiên.
Để đạt được điều đó, VibeVoice kết hợp một mô hình ngôn ngữ lớn với hệ thống tokenizer âm thanh liên tục hoạt động ở tần số thấp (7.5 Hz), giúp xử lý chuỗi dài hiệu quả hơn. Hệ thống sử dụng hai tokenizer song song: một cho âm thanh và một cho ngữ nghĩa, vừa đảm bảo chất lượng đầu ra, vừa tối ưu hiệu suất.
Ngoài ra, cách tiếp cận diffusion theo từng token giúp mô hình ngôn ngữ (phiên bản này sử dụng Qwen2.5) điều hướng nội dung hội thoại, trong khi một thành phần nhẹ hơn chịu trách nhiệm tạo chi tiết âm thanh. Nhờ đó, VibeVoice có thể tạo ra tới khoảng 90 phút audio với tối đa bốn người nói — vượt xa giới hạn 1–2 người của nhiều mô hình trước đây.
Orpheus – TTS tập trung vào cảm xúc và thời gian thực
Orpheus là một mô hình TTS hiện đại được xây dựng dựa trên kiến trúc Llama, hướng tới việc tạo giọng nói có cảm xúc và độ tự nhiên cao.
Mô hình này được fine-tune để mang lại giọng đọc rõ ràng, biểu cảm và phù hợp với các ứng dụng cần tương tác thời gian thực. Nhờ độ trễ thấp, Orpheus đặc biệt phù hợp với các kịch bản streaming, nơi AI cần phản hồi nhanh mà vẫn giữ được chất lượng giọng nói tự nhiên.
Orpheus được phát hành mã nguồn mở trên GitHub, đi kèm tài liệu hướng dẫn và ví dụ sử dụng. Ngoài ra, người dùng có thể thử nghiệm thông qua các nền tảng như DeepInfra, Replicate, fal.ai hoặc Hugging Face .
Kokoro – Nhẹ, nhanh và tối ưu chi phí
Kokoro là một mô hình TTS mã nguồn mở với 82 triệu tham số, nhỏ hơn đáng kể so với nhiều hệ thống khác nhưng vẫn đạt chất lượng ấn tượng.
Nhờ thiết kế tối ưu, Kokoro cho tốc độ xử lý nhanh và chi phí thấp hơn, đồng thời vẫn giữ được độ tự nhiên của giọng nói. Việc sử dụng license Apache giúp mô hình này dễ dàng triển khai trong cả dự án thương mại lẫn cá nhân.
Về mặt kỹ thuật, Kokoro cung cấp API Python đơn giản (KPipeline) để chạy inference nhanh và tạo audio 24 kHz. Ngoài ra, nó còn có package JavaScript cho môi trường trình duyệt và Node.js, phù hợp với các ứng dụng streaming. Nếu không muốn tự triển khai, người dùng cũng có thể truy cập thông qua các dịch vụ như DeepInfra hoặc Replicate.
OpenAudio S1 – Mạnh về đa ngôn ngữ và biểu cảm
OpenAudio S1 là một trong những mô hình TTS đa ngôn ngữ nổi bật, được huấn luyện trên hơn 2 triệu giờ dữ liệu âm thanh.
Mô hình này tập trung vào khả năng tạo giọng nói tự nhiên với nhiều sắc thái cảm xúc khác nhau. Người dùng có thể điều chỉnh chi tiết cách thể hiện, từ giận dữ, hào hứng cho tới thì thầm, hét lớn hoặc thậm chí là cười và khóc.
Nhờ khả năng kiểm soát tinh vi này, OpenAudio S1 có thể tạo ra giọng nói mang tính “diễn xuất”, phù hợp với các ứng dụng cần biểu cảm cao như audiobook, game hoặc nội dung kể chuyện.
XTTS-v2 – Clone giọng nói nhanh chóng mà không cần dữ liệu lớn
XTTS-v2 là một mô hình tạo giọng nói đa năng, nổi bật với khả năng clone giọng chỉ từ một đoạn audio ngắn khoảng 6 giây.
Không giống các phương pháp truyền thống cần lượng dữ liệu lớn để huấn luyện, XTTS-v2 cho phép sao chép giọng nói gần như ngay lập tức. Mô hình cũng hỗ trợ cross-language voice cloning, nghĩa là có thể giữ nguyên chất giọng của người nói khi chuyển sang ngôn ngữ khác.
XTTS-v2 thuộc cùng hệ sinh thái với Coqui Studio và Coqui API, được phát triển dựa trên nền tảng Tortoise nhưng đã được cải tiến để hỗ trợ đa ngôn ngữ và khả năng clone giọng dễ dàng hơn.
Việc lựa chọn một giải pháp TTS phù hợp phụ thuộc rất nhiều vào mục tiêu sử dụng cụ thể.
VibeVoice là lựa chọn lý tưởng cho các nội dung dài với nhiều người nói. Orpheus phù hợp với các ứng dụng cần phản hồi thời gian thực và giàu cảm xúc. Kokoro mang lại hiệu suất tốt với chi phí thấp. OpenAudio S1 nổi bật ở khả năng đa ngôn ngữ và biểu cảm. Trong khi đó, XTTS-v2 là giải pháp mạnh mẽ cho việc clone giọng nhanh chóng.
Nhìn chung, không có mô hình nào là “tốt nhất tuyệt đối”. Điều quan trọng là xác định rõ nhu cầu — về tốc độ, độ trễ, ngôn ngữ hay khả năng biểu cảm — từ đó chọn công cụ phù hợp nhất với bài toán của mình.
Hướng dẫn AI
Học IT










Hàm Excel
Download