Chuyển văn bản thành giọng nói trong vài giây

Là sản phẩm ứng dụng trí tuệ nhân tạo (AI), công nghệ thông minh Vbee cho phép người dùng chuyển đổi một đoạn dữ liệu dạng chữ thành dạng âm thanh tiếng Việt với giọng đọc có ngữ điệu tự nhiên như con người. 

“Mong muốn mang công nghệ giải quyết nhu cầu về âm thanh đời sống trong quá trình phát triển lên cách mạng công nghiệp 4.0, Vbee ra đời đã đánh dấu bước chân đầu tiên của công nghệ giọng nói tiếng Việt tự động tại Việt Nam”, ông Hồ Minh Đức, CEO của Vbee, cho biết.

Khởi nguồn từ ý tưởng phục vụ sách nói cho người khiếm thị, song những thành viên sáng lập của Vbee nhanh chóng nhận thấy nhu cầu sử dụng giọng đọc nhân tạo ngày một lớn ở nhiều lĩnh vực trên thị trường. Do đó, Vbee đã được nghiên cứu phát triển để đáp ứng các khách hàng có nhu cầu sử dụng giọng nói ở quy mô và tần suất lớn. Việc này giúp giảm thiểu đáng kể tình trạng quá tải, tiết kiệm chi phí, nhân lực cho các tổng đài tư vấn tại các ngân hàng, dịch vụ hành chính...

Để nói được giọng điệu tự nhiên như người thật, phần mềm Vbee phải trải qua quá trình “học máy” với những đặc trưng trong giọng nói con người, từ đó cho ra sản phẩm âm thanh với giọng đọc tự nhiên và mượt mà nhất. Vbee chính thức ra mắt vào tháng 1-2018, sau hơn 12 năm ấp ủ và dày công nghiên cứu, không chỉ đơn giản dừng lại ở việc phát âm thanh…

Đến nay, Vbee phát triển đủ các giọng nói miền Bắc, Trung, Nam để người dùng lựa chọn tùy mục đích và nhu cầu sử dụng. Thêm vào đó, với bộ ngữ liệu tối ưu được cài đặt sẵn, Vbee còn có thể bao quát được tất cả các trường hợp ngữ cảnh thông dụng.

Để xử lý một đoạn văn bản khoảng 400 chữ, VBee cần 3 - 5 giây để xử lý thành giọng nói. Với những đoạn văn bản dài hơn, hệ thống sẽ tự cắt ra và xử lý song song để cho ra sản phẩm trong thời gian nhanh nhất. Đến nay, Vbee đã và đang phục vụ cho hơn 200 đối tác đến từ các doanh nghiệp khác nhau, đa phần là các tổng đài thông minh, dịch vụ chăm sóc khách hàng, tư vấn y tế, giáo dục...

Hiện, Vbee vẫn đang tiếp tục được nghiên cứu thử nghiệm các giải pháp thu âm thông minh, giúp tạo nội dung tự động thay vì hình thức thu âm như hiện tại, tiết kiệm hơn về chi phí và thời gian. Và Vbee còn kỳ vọng trong tương lai bằng các sản phẩm thể hiện sự hiện diện của AI, như trẻ em sẽ hỏi những chiếc loa thông minh điều chúng cần biết hay các gia đình có thể cá nhân hóa giọng nói của ba mẹ và chuyển những câu chuyện cổ tích thành giọng nói để kể truyện…

Khởi đầu của Vbee xuất phát từ TS Nguyễn Thị Thu Trang, giảng viên Trường ĐH Bách khoa Hà Nội, đồng sáng lập startup Vbee, đã bắt tay vào nghiên cứu công nghệ text to speech. Đây là một trong những công nghệ cốt lõi của kỷ nguyên VUI (Voice User Interface) trong cuộc cách mạng 4.0. Hiện nay, ngoài việc áp dụng cho tổng đài ảo, công nghệ chuyển văn bản tiếng Việt thành giọng nói đã được Vbee thử nghiệm với sản phẩm bản đồ giao thông Vadi, nhà thông minh Lumi và các trung tâm hỗ trợ chăm sóc khách hàng.

Hiện Vadi đã có khoảng 5.000 người dùng và có tính năng tương tự như Google Maps. Vào giờ cao điểm, các công tác viên sẽ cập nhật thông tin kẹt xe, sự cố giao thông vào hệ thống… Khi lái xe đến gần khu vực có sự cố, tổng đài sẽ phát ra cảnh báo bằng giọng nói và gợi ý lái xe đi đường khác. Ngoài ra, ứng dụng cũng tích hợp công nghệ đọc báo, tin tức khi người dùng có yêu cầu hoặc yêu cầu tìm đường tới một địa điểm nào đó bằng giọng nói, không cần thao tác bằng tay…

Theo ông Hồ Minh Đức, khó khăn lớn nhất hiện tại của Vbee là thị trường còn quá mới nên cần thêm thời gian để làm quen cũng như tiếp cận khách hàng. Không những thế, doanh nghiệp cũng cần thu hút nhiều nguồn đầu tư hơn nữa để xây dựng các kho dữ liệu về giọng nói.

Tin cùng chuyên mục