CMC OpenAI công bố hai cấu phần phát triển trợ lý ảo pháp lý tiếng Việt tại Việt Nam

CMC OpenAI (C-OpenAI), công ty thành viên của Tập đoàn Công nghệ CMC vừa mới công bố hai cấu phần được xem là nền móng để phát triển trợ lý ảo pháp lý tiếng Việt tại Việt Nam: mô hình ngôn ngữ lớn (LLM) pháp lý tiếng Việt CMC-AI-Legal-32B và bộ chuẩn đánh giá pháp lý tiếng Việt VLegal-Bench.

VLegal- Bench, bộ tiêu chuẩn đánh giá AI pháp lý hàng đầu Việt Nam do C-OpenAI phát triển
VLegal- Bench, bộ tiêu chuẩn đánh giá AI pháp lý hàng đầu Việt Nam do C-OpenAI phát triển

Theo đơn vị này, hướng tiếp cận “làm chủ LLM + làm chủ thước đo đánh giá” nhằm hiện thực hóa mục tiêu phát triển công nghệ chiến lược theo tinh thần Nghị quyết 57-NQ/TW về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia, đồng thời bám sát định hướng thúc đẩy phát triển các công nghệ nền tảng, sản phẩm AI chiến lược như LLM tiếng Việt, trợ lý ảo và AI chuyên ngành.

Điểm nhấn của công bố lần này là CMC-AI-Legal-32B, mô hình LLM pháp lý tiếng Việt được C-OpenAI xây dựng kế thừa và tinh chỉnh cho lĩnh vực pháp luật Việt Nam. Trên bộ chuẩn đánh giá VLegal-Bench, mô hình CMC-AI-Legal đạt Top 1 về hiệu năng tổng thể, dẫn đầu 6/22 tác vụ và cho kết quả nổi bật ở nhóm bài toán đòi hỏi suy luận, lập luận pháp lý nhiều lớp.

Theo nhóm nghiên cứu, các mô hình thương mại tổng quát như GPT-4o, Claude hay Gemini vẫn làm tốt ở nhiệm vụ tổng quát như nhận diện, truy xuất thông tin. Tuy nhiên, khi chuyển sang tác vụ cần suy luận pháp lý phức tạp hoặc tạo lập nội dung pháp lý có cấu trúc, hiệu quả giảm rõ rệt; trong khi mô hình chuyên biệt được huấn luyện theo ngữ cảnh và chuẩn viện dẫn pháp luật Việt Nam cho thấy ưu thế.

Ảnh 3-14.jpg
Nhóm nghiên cứu Bộ chuẩn đánh giá VLegal - Bench của nhóm nghiên cứu C-OpenAI.

Song song phát triển mô hình, C-OpenAI cho biết sẽ công bố mã nguồn, dữ liệu và quy trình đánh giá theo hướng minh bạch, có thể tái sử dụng tại https://vlegalbench.cmcai.vn/; đồng thời kêu gọi chuyên gia trong và ngoài nước tham gia chuẩn hóa để bộ công cụ ngày một tốt hơn.

“C-OpenAI theo đuổi tầm nhìn xây dựng nền tảng AI mở và an toàn do Việt Nam làm chủ, đồng thời phát triển LLM tiếng Việt và mô hình AI chuyên biệt theo từng lĩnh vực, thúc đẩy cộng đồng doanh nghiệp và nhà phát triển cùng xây dựng, phân phối ứng dụng trên nền tảng”, Tổng Giám đốc C-OpenAI Đặng Văn Tú chia sẻ.

Theo nhóm phát triển C-OpenAI, muốn huấn luyện và thẩm định LLM pháp lý đạt chất lượng cao, điều kiện tiên quyết là phải có một benchmark đủ chuẩn cho Việt Nam. Đây là phần việc các bộ chuẩn quốc tế khó “làm thay”, do khác biệt ngôn ngữ tiếng Việt và đặc thù của hệ thống dân luật, đòi hỏi đội ngũ trong nước phải tự xây dựng dữ liệu, tác vụ và quy trình đánh giá từ đầu.

VLegal-Bench gồm 10.450 mẫu dữ liệu có đáp án chuẩn, chia thành 22 tác vụ, thiết kế theo 5 cấp độ suy luận tăng dần: từ nhận diện – truy xuất điều khoản; hiểu và cấu trúc hóa quy phạm theo mục- chương-điều – khoản – điểm- hạ điểm; suy luận đa bước trong tình huống thực tiễn; đến diễn giải – tạo sinh nội dung pháp lý theo văn phong phù hợp; và lớp đánh giá liên quan đạo đức, công bằng, thiên lệch.

Bộ chuẩn VLegal-Bench cũng được thiết kế theo đặc thù dân luật của Việt Nam như cấu trúc phân cấp quy phạm, hiệu lực văn bản, quan hệ sửa đổi – thay thế, phạm vi áp dụng và yêu cầu viện dẫn điều luật cụ thể; mỗi mẫu dữ liệu gắn với nguồn văn bản pháp luật cấp trung ương để đảm bảo khả năng kiểm chứng.

Trong thời gian tới, C-OpenAI dự kiến công bố kho mã nguồn, dữ liệu của VLegal-Bench; mở rộng website kết quả so sánh các mô hình; đồng thời phát hành các phiên bản mở theo từng giai đoạn trong năm 2026, hướng tới tạo nền tảng dùng chung để cộng đồng phát triển ứng dụng AI theo chuyên ngành có những tiêu chuẩn để kiểm chứng. C-OpenAI chủ động tham gia và thúc đẩy các hoạt động vì sự phát triển của cộng đồng AI Việt Nam.

Tin cùng chuyên mục