Phòng thí nghiệm Trí tuệ Nhân tạo TPHCM (AILab) của Trường Đại học Khoa học Tự nhiên vừa công bố bộ sản phẩm có tiềm năng ứng dụng, gồm: iSago - ứng dụng giao tiếp bằng giọng nói tiếng Việt trên điện thoại iPhone (phiên bản 1.0) và VIS (Viet Voice Systems) - tổng đài hỏi đáp thông tin tự động bằng tiếng Việt, sử dụng công nghệ nhận dạng và tổng hợp giọng nói tiếng Việt với độ chính xác cao và tốc độ xử lý nhanh.
iSago: Tìm kiếm bằng giọng nói tiếng Việt
Nhận dạng tiếng nói là lĩnh vực nghiên cứu đa ngành, có bề dày lịch sử hơn 70 năm, quy tụ nhiều nhóm nghiên cứu đến từ các trường đại học, viện nghiên cứu trên thế giới. Ứng dụng gần đây nhất là phiên bản siri trên iPhone 4S do Viện SRI (Mỹ) phát triển. Tuy nhiên theo PGS-TS Vũ Hải Quân (Trưởng AILab - Đại học Khoa học Tự nhiên TPHCM) iSago là thành quả nghiên cứu liên tục trong 3 năm liền của phòng thí nghiệm AILab. Với công nghệ này, iSago có thể “lắng nghe” và đáp ứng các yêu cầu của người dùng như một trợ lý thực thụ.
Tại buổi họp báo công bố, nhóm nghiên cứu thuộc AILab đã trình diễn phiên bản ứng dụng giao tiếp bằng tiếng nói tiếng Việt đầu tiên trên điện thoại iPhone, dựa trên các công nghệ tiên tiến nhất về nhận dạng và tổng hợp tiếng nói.
Ở phiên bản 1.0, iSago cung cấp chức năng tìm kiếm thông tin nhà hàng, quán bar, cafe, các địa điểm giải trí trên địa bàn TPHCM. Người dùng có thể đặt câu hỏi bằng giọng nói như: “Tôi muốn tìm quán cafe ở Phú Mỹ Hưng” hay “Tôi muốn ăn lẩu hải sản ở quận 1”. iSago sẽ truyền nội dung truy vấn này về máy chủ (server) để xử lý và gửi lại kết quả tìm kiếm, dạng một danh sách: tên nhà hàng, địa chỉ… Thông minh hơn, iSago cũng cho phép người dùng hiển thị địa chỉ tìm được dạng bản đồ hoặc nghe đọc địa chỉ trực tiếp bằng công nghệ tổng hợp giọng nói.
PGS-TS Vũ Hải Quân cho biết, công nghệ này đều hướng tới mục tiêu là tạo ra tiếng nói nhân tạo có chất lượng gần giống với tiếng nói của con người. Với iSago có thể phá bỏ cách thức giao tiếp truyền thống để “nói chuyện” với người dùng bằng tiếng Việt, thân thiện hơn, tiện lợi hơn.
VIS: Hỏi đáp thông tin bằng tiếng Việt
VIS (Viet voice System) là hệ thống hỗ trợ hỏi đáp thông tin bằng tiếng Việt qua đường điện thoại, sử dụng công nghệ nhận dạng và tổng hợp tiếng nói tiếng Việt với độ chính xác cao và tốc độ xử lý nhanh. VIS phiên bản đầu tiên bao gồm một số dịch vụ trong đó nổi bật nhất là dịch vụ tự động chuyển cuộc gọi VIS::DIR. Với VIS::DIR người dùng có thể nói tên các phòng, ban trong một trường đại học hay đơn vị, công ty nào đó ứng dụng hệ thống này, sau đó hệ thống sẽ tự động chuyển cuộc gọi đến các phòng, ban tương ứng mà không phải chờ đợi tiếp tân nối máy.
Công nghệ này đã thay đổi cách con người tương tác với hệ thống, không còn bó buộc trong cách thức tương tác truyền thống (như bấm phím trên điện thoại) mà chuyển sang tương tác trực tiếp bằng giọng nói. Qua đây cũng thấy rõ xu hướng, các ứng dụng dần dần đã chuyển sang tích hợp tính năng tương tác âm thanh. PGS-TS Vũ Hải Quân cho rằng: Việc ứng dụng và khách hàng có thể tương tác với nhau thông qua âm thanh không có nghĩa là loại bỏ giao diện đồ họa truyền thống mà nó cung cấp thêm một cách truy cập thông tin và dịch vụ tiện lợi, tự nhiên hơn.
Qua các trình diễn thấy rõ ưu điểm của VIS::DIR so với các hệ thống khác trên thị trường được thể hiện ở phương thức giao tiếp bằng giọng nói một cách tự nhiên, linh hoạt và mềm dẻo. Hệ thống này có thể hoạt động 24/7, đáp ứng nhu cầu truy vấn thông tin liên tục. Song song đó cũng giúp người truy vấn thông tin giảm chi phí viễn thông thông qua khả năng tự động nhận dạng, chuyển cuộc gọi một cách chính xác và hoàn toàn tự động mà hệ thống VIS cung cấp, người gọi không cần lắng nghe hướng dẫn để chọn phím bấm thích hợp với nội dung mà mình muốn hỏi.
Được biết hai ứng dụng nói trên là một trong các dự án phát triển và ứng dụng thành công của AILab, thực hiện từ năm 2008-2010 với kinh phí đầu tư khoảng 7 tỷ đồng từ Đại học Quốc gia TPHCM về nghiên cứu đề tài xử lý tiếng nói tiếng Việt. Với những kết quả đạt được và đang từng bước tiến đến thương mại hóa sản phẩm, hy vọng từ đây sẽ là nền tảng, mở ra nhiều ứng dụng hơn nữa trong công nghệ xử lý tiếng nói bằng tiếng Việt.
BÁ TÂN