
Hiện tại, ở nước ta đã có nhiều nhóm nghiên cứu về đề tài xử lý tiếng nói và văn bản tiếng Việt. Tuy nhiên, kết quả nghiên cứu chỉ được gói gọn trong phòng thí nghiệm. Nay với dự án “Triển khai tích hợp công nghệ tổng hợp tiếng Việt vào ứng dụng mobile portal phục vụ cho đời sống xã hội” đã mở ra những triển vọng đưa nghiên cứu khoa học trở nên thiết thực hơn với cuộc sống.
Phát triển công cụ
Được biết, Ban chủ nhiệm Chương trình KC.01/11-15 đã tổ chức họp hội đồng đánh giá nghiệm thu cấp nhà nước dự án “Triển khai tích hợp công nghệ tổng hợp tiếng Việt vào ứng dụng mobile portal phục vụ cho đời sống xã hội”, mã số: KC 01.DA01/11-15, thuộc Chương trình khoa học và công nghệ (KH-CN) trọng điểm cấp nhà nước do Th.S Nguyễn Hoàng Trung, Công ty cổ phần Dịch vụ CNTT Naiscorp, làm chủ nhiệm đề tài.

Hội đồng đánh giá nghiệm thu cấp nhà nước đối với dự án “Triển khai tích hợp công nghệ tổng hợp tiếng Việt vào ứng dụng mobile portal phục vụ cho đời sống xã hội”.
Một trong những kết quả của đề tài là phát triển engine tổng hợp tiếng Việt theo phương pháp áp dụng mô hình Marko ẩn (engine VieTalk). Ưu điểm nổi bật của phương pháp tổng hợp cho phép phát sinh tiếng nói từ tham số, dễ dàng thay đổi đặc điểm giọng nói, dễ áp dụng cho các ngôn ngữ khác nhau. Trong quá trình tổng hợp ra tiếng nói, việc phát sinh lại tham số tiếng nói để tái tạo âm thanh, giúp tiếng nói tổng hợp trơn và có chất lượng cao. Việc tích hợp engine VieTalk cho dự án này là phù hợp về mục đích và yêu cầu kỹ thuật, công nghệ.
Dự án đã tạo ra công cụ tổng hợp tiếng nói Online chỉ cần băng thông yếu với 10 kbit/s là người dùng có thể sử dụng dịch vụ sản phẩm. Khi nhận được yêu cầu, hệ thống tìm ra văn bản phù hợp nhất để tổng hợp tiếng nói và gửi kết quả cho người dùng. Muốn có dữ liệu dạng text để tổng hợp tiếng nói thì phải tạo ra hệ thống Crawler - lưu trữ dữ liệu - là công việc lấy thông tin có sẵn từ internet, lọc tách dữ liệu cần thiết và lưu trữ sẵn vào hệ thống máy chủ.
Đưa nghiên cứu khoa học gần hơn đời sống
Dự án là sự kết hợp giữa Công ty Naiscorp và Viện CNTT - Bộ KH-CN, trong đó Công ty Naiscorp ứng dụng kết quả nghiên cứu khoa học của Viện CNTT. Cũng cần hiểu thêm, các thành phần, nhiệm vụ của hệ thống này là lấy dữ liệu thô từ internet, bao gồm hơn 300 triệu trang web tiếng Việt được lấy về bằng sever Crawler (sử dụng công nghệ Crawler); dữ liệu đó được lưu trữ vào một kho lưu trữ hàng tỷ văn bản, là đầu vào cho hệ thống tổng hợp tiếng nói với nhiều giọng theo vùng miền và nhiều thể loại khác nhau.
Dự án này được phát triển từ đề tài cấp nhà nước “Nghiên cứu phát triển một số sản phẩm thiết yếu xử lý tiếng nói và văn bản tiếng Việt” thuộc chương trình KH-CN trọng điểm cấp nhà nước. Một số công nghệ cho tổng hợp tiếng Việt đã được khảo sát và nghiên cứu bao gồm phương pháp ghép nối các đơn vị âm cơ bản và phương pháp tổng hợp theo tham số dùng mô hình Marko ẩn. Mô hình Marko ẩn không chỉ cho phép tổng hợp âm thanh tiếng Việt mà còn có thể sử dụng với tất cả ngôn ngữ khác…
Ở đây cũng thấy rõ, bước đầu của dự án mới chỉ áp dụng được một phần trong từng lĩnh vực nhỏ, tuy nhiên hướng để tiếp tục nghiên cứu và hoàn thiện mang lại một giải pháp tổng thể, chuyên sâu vào việc áp dụng công nghệ tổng hợp tiếng Việt vào mobile. Đây là một ngành không thể thiếu trong tương lai khi điện thoại thông minh ngày càng phát triển và nhu cầu về giá trị gia tăng, nội dung số của người sử dụng ngày càng rộng rãi và tăng nhanh.
Ông Hồ Minh Đức, Phó Tổng giám đốc Công ty Naiscorp, cho biết thêm: Chúng tôi rất vui khi kết quả đề tài là sự kết hợp, thừa kế và xây dựng của nhiều tổ chức khoa học, nhiều nhóm nghiên cứu khoa học, chủ nhiệm đề tài và doanh nghiệp. Điều này mang lại một hướng đi mới trong nghiên cứu khoa học mà đứng đầu là Bộ KH-CN để đưa các nghiên cứu khoa học trở nên thiết thực hơn với cuộc sống.
Công ty Naiscorp nhận thấy dự án này chắc chắn phải tiếp tục hoàn thiện và nâng cao chất lượng hơn nữa, đòi hỏi nghiên cứu đầy đủ hơn, đóng góp nhiều hơn của các nhà khoa học và cộng đồng người sử dụng. Một đề tài khoa học không thể dừng lại ở một kết quả cụ thể, vì nhu cầu áp dụng cho công nghệ đó là mãi mãi với cộng đồng… vì vậy đòi hỏi phải cải tiến thuật toán, cơ sở dữ liệu. Và cũng chính vì mục tiêu lớn hơn nên dù hội đồng đánh giá cao nhóm thực hiện dự án đã có nhiều nỗ lực bổ sung theo yêu cầu của hội đồng, song bên cạnh đó, các thành viên hội đồng đã có nhiều ý kiến góp ý về hình thức cũng như nội dung: hoàn thiện thuyết minh, làm rõ tính mới trong phần mềm sử dụng tiếng Việt khi ứng dụng vào thực tế, cần làm rõ bản đánh giá chất lượng và kết quả đánh giá của sản phẩm, phần doanh thu cần bóc tách rõ ràng về đóng góp của sản phẩm…
BÁ TÂN