Báo Kiên Giang Báo Kiên Giang
  • Video
  • Podcast
  • Chính trị
  • Kinh tế
  • Xã hội
  • Văn hóa - Giải trí
  • Giáo dục
  • Khoa học - Công nghệ
  • Pháp luật
  • Du lịch
  • Sức khỏe
  • Thế giới

Trang chủ Khoa học - Công nghệ

Theo dõi báo điện tử Kiên Giang trên

AI Việt Nam dịch tiếng Lào, Thái, Khmer… sang tiếng Việt

17/12/2023 12:30

(KGO) - Phần mềm AI Việt Nam này có thể dịch các ngôn ngữ hiếm như tiếng Lào, Thái, Khmer, Malaysia, Indonesia sang tiếng Việt và ngược lại.

Dịch máy là một trong những ứng dụng thành công nhất của công nghệ trí tuệ nhân tạo trong việc xử lý ngôn ngữ tự nhiên. Các hệ thống dịch máy chất lượng cao như Google Translate của Google hay Bing Translator của Microsoft cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình. 

Tuy nhiên, rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên. Do đó, việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là việc rất cấp thiết và gặp nhiều thách thức.

Mới đây, Viện Công nghệ Thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam) đã nghiên cứu, làm chủ công nghệ dịch máy tiên tiến nhất hiện nay. Đơn vị này cũng đã xây dựng thành công hệ thống dịch văn bản đa ngữ giữa tiếng Việt với các ngôn ngữ của khu vực bao gồm tiếng Lào, tiếng Khmer, tiếng Thái Lan, tiếng Malaysia và tiếng Indonesia.

Theo đơn vị phát triển, các ngôn ngữ như Lào, Thái và Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy. Khó khăn không chỉ đến từ sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. 

Một số sản phẩm khoa học, công nghệ của Viện Hàn lâm Khoa học và Công nghệ Việt Nam được trưng bày tại Triển lãm Quốc tế Đổi mới sáng tạo Việt Nam 2023. 

Mô hình AI do Viện Công nghệ thông tin phát triển đã "học" được cách "thích ứng" với tất cả những điểm đặc biệt của các ngôn ngữ nói trên. Từ đó, phần mềm cho phép nhanh chóng bổ sung các ngôn ngữ khác khi cần với chất lượng dịch tương đương các sản phẩm tiên tiến của nước ngoài. 

Điểm đặc biệt là phần mềm dịch đa ngữ này chạy riêng, lưu trữ dữ liệu tại chỗ, không phải sử dụng API của hãng cung cấp dịch vụ khác. Điều này giúp đảm bảo an ninh, an toàn và không lộ lọt thông tin ra ngoài.

Một vấn đề của các hệ thống dịch như Google Translate hay Bing Translator là khả năng thích ứng miền chuyên biệt (domain-specific). Nghĩa là, chúng có thể dịch tốt cho miền ngôn ngữ chung, phổ thông phục vụ đại chúng nhưng chất lượng dịch kém trong các miền ngôn ngữ mang tính chuyên môn như y tế, luật pháp, an ninh…

Để khắc phục tồn tại trên, nhóm nghiên cứu tại Viện Công nghệ thông tin đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch hai chiều sang các ngôn ngữ nghèo tài nguyên với chất lượng tốt. 

Cụ thể, phần mềm này có chất lượng tương đương hoặc cao hơn Google Translate đối với cùng văn bản. Ngoài ra, phần mềm không hạn chế độ dài của văn bản. 

Trong giai đoạn 2022-2023, hệ thống tập trung triển khai kỹ thuật mô hình ngôn ngữ lớn (Large Language Models - LLMs) ưu tiên các cặp ngôn ngữ sau Việt - Khmer, Việt - Lào, Việt - Thái, Việt - Malay và Việt - Indo. 

Với ngôn ngữ tiếng Anh (tài nguyên dữ liệu rất dồi dào và là thế mạnh ưu tiên của Google), phần mềm của Viện Công nghệ thông tin đảm bảo chất lượng gần tương đương Google Translate. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Hệ thống này được nhóm nghiên cứu tự phát triển, dựa trên hạ tầng kỹ thuật hỗ trợ lưu trữ dữ liệu ngôn ngữ lớn và năng lực siêu tính toán trí tuệ nhân tạo/học máy (AI/ML) mạnh nhất Việt Nam.

Viện Công nghệ thông tin hoàn toàn làm chủ các công nghệ liên quan. Do vậy, đơn vị này có thể dễ dàng mở rộng ứng dụng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam như tiếng Mường, tiếng Thái… và các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga… khi cần.

Phần mềm dịch đa ngôn ngữ make in Viet Nam này được kỳ vọng sẽ là lời giải cho bài toán tiếp cận thông tin của đồng bào các dân tộc thiểu số. 

Theo VietnamNet

  • Từ khóa:
  • trí tuệ nhân tạo
  • đổi mới sáng tạo
  • AI Việt Nam
  • Viện Công nghệ Thông tin

Tin cùng mục

Khai thác, ứng dụng trí tuệ nhân tạo trong công tác dân tộc, tôn giáo

Khai thác, ứng dụng trí tuệ nhân tạo trong công tác dân tộc, tôn giáo

Hé lộ vai trò bất ngờ của núi lửa trong việc điều hòa khí hậu trái đất

(KGO) - Trái với nhận thức thông thường về núi lửa như một nguồn phát thải carbon dioxide (CO₂), nghiên cứu mới chỉ ra rằng những khối núi này còn đóng vai trò như những "bẫy carbon" tự nhiên khổng lồ.

  • Việt Nam và Indonesia tăng cường hợp tác lĩnh vực số
    Việt Nam và Indonesia tăng cường hợp tác lĩnh vực số
  • Cảnh báo fanpage Facebook có "tích xanh" giả mạo hỗ trợ người dùng lấy lại tiền
    Cảnh báo fanpage Facebook có "tích xanh" giả mạo hỗ trợ người dùng lấy lại tiền
  • Đã tìm ra lý do COVID-19 gây tổn thương kéo dài trong cơ thể
    Đã tìm ra lý do COVID-19 gây tổn thương kéo dài trong cơ thể
  • Mistral ra mắt mô hình AI có khả năng suy luận linh hoạt
    Mistral ra mắt mô hình AI có khả năng suy luận linh hoạt

Tin nổi bật

Danh sách chính thức 102 xã, phường, đặc khu của tỉnh An Giang mới, đi vào hoạt động từ 1-7

Danh sách chính thức 102 xã, phường, đặc khu của tỉnh An Giang mới, đi vào hoạt động từ 1-7

Quốc hội chính thức thông qua việc sửa đổi, bổ sung một số điều của Hiến pháp

Quốc hội chính thức thông qua việc sửa đổi, bổ sung một số điều của Hiến pháp

Gần 400 tình nguyện viên tham gia ngày hội hiến máu tình nguyện

Gần 400 tình nguyện viên tham gia ngày hội hiến máu tình nguyện

Tập trung lực lượng, thời gian để giải quyết các công việc cho việc hợp nhất tỉnh, thành lập xã

Tập trung lực lượng, thời gian để giải quyết các công việc cho việc hợp nhất tỉnh, thành lập xã

Hơn 10.000 thí sinh Kiên Giang thi tuyển sinh vào lớp 10

Hơn 10.000 thí sinh Kiên Giang thi tuyển sinh vào lớp 10

Chuẩn bị vận hành hoạt động tỉnh An Giang mới

Chuẩn bị vận hành hoạt động tỉnh An Giang mới

Phân định thẩm quyền của chính quyền địa phương hai cấp trong một số lĩnh vực

Phân định thẩm quyền của chính quyền địa phương hai cấp trong một số lĩnh vực

Quốc hội thông qua phương án 34 đơn vị hành chính cấp tỉnh

Quốc hội thông qua phương án 34 đơn vị hành chính cấp tỉnh

  • Ẩm thực
  • Chính trị
  • Nông thôn mới
  • Xây dựng Đảng
  • Kinh tế
  • Phóng sự - Ghi chép
  • Thời trang
  • Bảo vệ nền tảng tư tưởng của Đảng
  • Xã hội
  • Bạn đọc
  • Tinh gọn bộ máy
  • Văn hóa - Giải trí
  • Cải cách hành chính
  • Giáo dục
  • Khoa học - Công nghệ
  • Quốc phòng - An ninh
  • Pháp luật
  • Du lịch
  • Sức khỏe
  • Thế giới
  • Truyện ngắn
  • Thơ
  • Tản văn
Media Báo in
  • Theo dõi báo Kiên Giang trên
  • Cơ quan chủ quản: Tỉnh ủy Kiên Giang
  • Tổng Biên tập: LÂM VĂN SỂN
  • Phó Tổng Biên tập: Võ Hoàng Đương - Nguyễn Việt Tiến - Lâm Việt Khởi
  • Toà soạn: Số 16 đường Mạc Đĩnh Chi, TP. Rạch Giá, tỉnh Kiên Giang
  • Điện thoại: 0297.3899008 - Email: toasoan@baokiengiang.vn; baokiengiangdt@gmail.com (chuyên mục văn nghệ)
  • © 2021 Bản quyền thuộc về Báo Kiên Giang
  • Liên hệ quảng cáo: 0297.3949460. - Fax: 0297.3877518
  • Giấy phép số 60/GP-BTTTT do Bộ Thông tin và Truyền thông, cấp ngày 25/01/2022 
  • Ghi rõ nguồn khi phát hành thông tin tại website này.

Tổng số lượt truy cập: