Báo Kiên Giang Báo Kiên Giang
  • Video
  • Podcast
  • Chính trị
  • Kinh tế
  • Xã hội
  • Văn hóa - Giải trí
  • Giáo dục
  • Khoa học - Công nghệ
  • Pháp luật
  • Du lịch
  • Sức khỏe
  • Thế giới

Trang chủ Khoa học - Công nghệ

Theo dõi báo điện tử Kiên Giang trên

Microsoft phát triển công cụ có thể nhại giọng bất kỳ ai sau 3 giây

19/01/2023 16:17

(KGO) - Các mô hình chuyển văn bản thành giọng nói có thể giúp bảo toàn âm điệu cảm xúc của người nói cũng như môi trường âm thanh của giọng nói.

Các nhà nghiên cứu của công ty Microsoft vừa công bố một mô hình trí tuệ nhân tạo (AI) có khả năng chuyển văn bản thành giọng nói mới mang tên VALL-E. Điều thú vị là VALL-E có thể mô phỏng rất sát giọng nói của một người, khi được cung cấp một mẫu âm thanh do người này đọc, với độ dài chỉ 3 giây.

Sau khi học được một giọng nói cụ thể, VALL-E có thể tổng hợp và tạo ra âm thanh của người đó đang nói bất kỳ nội dung gì, kèm theo diễn cảm khi nói rất giống thật.

Những người tạo ra VALL-E cho rằng AI này có thể được sử dụng cho các ứng dụng chuyển văn bản thành giọng nói chất lượng cao. VALL-E cũng có thể được dùng để chỉnh sửa giọng nói, trong đó bản ghi âm của một người có thể được chỉnh sửa và thay đổi để họ nói thêm điều gì đó mà ban đầu không nói tới. Ngoài ra, VALL-E cũng có thể được dùng để tạo nội dung âm thanh, khi kết hợp với các mô hình AI sáng tạo khác như GPT-3.

Mô hình của VALL-E cho phép AI nhại giọng của bất kỳ ai. (Nguồn: ARS Technica)

Microsoft gọi VALL-E là "bộ giải mã thần kinh của mô hình ngôn ngữ" và nó được xây dựng dựa trên công nghệ có tên EnCodec mà công ty Meta từng công bố vào tháng 10-2022. Không giống như các phương thức chuyển văn bản thành giọng nói khác, thường tổng hợp giọng nói bằng cách điều chỉnh các dải sóng âm, VALL-E tạo ra các bộ mã âm thanh riêng biệt từ dữ liệu nhập vào là văn bản và âm thanh.

Về cơ bản, nó sẽ phân tích cách một người phát âm khi nói, rồi chia thông tin thành các thành phần riêng biệt (được gọi là các "token") nhờ EnCodec. Tiếp đó, AI sử dụng dữ liệu được đào tạo để khớp với những gì nó "hiểu biết" về cách thức âm thanh được tạo ra khi một người nói và tạo ra các âm thanh mới, giống hệt với lối nói và cảm xúc nằm trong đoạn âm thanh mẫu dài 3 giây ban đầu.

Hoặc chúng ta có thể hiểu về VALL-E như giải thích chính thức của Microsoft: Để tổng hợp ra một giọng nói được cá nhân hóa, VALL-E tạo token âm thanh tương ứng dựa trên token âm thanh của bản ghi âm mẫu dài 3 giây và dữ liệu đầu vào về âm vị, sẽ hạn chế thông tin về nội dung và người nói tương ứng. Cuối cùng, token âm thanh tạo ra từ quá trình này sẽ được sử dụng để tổng hợp thành dải sóng âm, thông qua một giải mã thần kinh của mô hình ngôn ngữ tương ứng.

Microsoft đã đào tạo khả năng tổng hợp giọng nói của VALL-E dựa trên một thư viện âm thanh do Meta tổng hợp, có tên là LibriLight. Nó chứa 60.000 giờ bài phát biểu bằng tiếng Anh, từ hơn 7.000 người nói. Hầu hết các giọng nói này thực tế là những sản phẩm sách nói, được trích xuất từ kho sách nói công cộng LibriVox.

Để VALL-E cho ra kết quả tốt, giọng nói trong mẫu ghi âm dài 3 giây phải khớp với giọng nói trong dữ liệu huấn luyện AI này.

Trên trang web trình diễn năng lực của VALL-E, Microsoft cung cấp rất nhiều ví dụ cho thấy hoạt động của mô hình AI. Người hứng thú với sản phẩm này có thể truy cập theo địa chỉ https://valle-demo.github.io/ để trải nghiệm.

Mô hình hoạt động của VALL-E. (Nguồn: ARS Technica)

Ngoài việc bảo toàn âm sắc giọng nói và giai điệu cảm xúc của người nói, VALL-E cũng có thể bắt chước "môi trường âm thanh" của âm thanh mẫu. Ví dụ: nếu mẫu đến từ một cuộc gọi điện thoại, thì đầu ra âm thanh sẽ mô phỏng các thuộc tính âm thanh và tần số của một cuộc gọi điện thoại trong sản phẩm tổng hợp cuối.

Nhưng có lẽ do khả năng của VALL-E quá mạnh, có thể bị kẻ xấu sử dụng để phục vụ cho các trò lừa đảo, nên hiện Microsoft không cho phép công chúng thử nghiệm AI này. Nhóm nghiên cứu dường như cũng nhận thức được tác hại xã hội tiềm ẩn liên quan tới sản phẩm của họ.

Vì thế, họ đã kết luận ở cuối bài báo khoa học giới thiệu về VALL-E như sau: "Vì VALL-E có thể tổng hợp giọng nói để duy trì danh tính của người nói, nên nó có thể chứa những rủi ro tiềm ẩn nếu sử dụng sai mô hình, chẳng hạn như giả mạo giọng nói hoặc mạo danh một người nói cụ thể. Để giảm thiểu những rủi ro như vậy, có thể xây dựng thêm một mô hình phát hiện, để phân biệt liệu một đoạn âm thanh có phải là sản phẩm do VALL-E tổng hợp hay không. Chúng tôi cũng sẽ áp dụng các Nguyên tắc AI của Microsoft vào thực tế khi phát triển thêm AI này".

Theo VietnamPlus

  • Từ khóa:
  • Microsoft
  • chuyển văn bản thành giọng nói

Tin cùng mục

Khai thác, ứng dụng trí tuệ nhân tạo trong công tác dân tộc, tôn giáo

Khai thác, ứng dụng trí tuệ nhân tạo trong công tác dân tộc, tôn giáo

Hé lộ vai trò bất ngờ của núi lửa trong việc điều hòa khí hậu trái đất

(KGO) - Trái với nhận thức thông thường về núi lửa như một nguồn phát thải carbon dioxide (CO₂), nghiên cứu mới chỉ ra rằng những khối núi này còn đóng vai trò như những "bẫy carbon" tự nhiên khổng lồ.

  • Việt Nam và Indonesia tăng cường hợp tác lĩnh vực số
    Việt Nam và Indonesia tăng cường hợp tác lĩnh vực số
  • Cảnh báo fanpage Facebook có "tích xanh" giả mạo hỗ trợ người dùng lấy lại tiền
    Cảnh báo fanpage Facebook có "tích xanh" giả mạo hỗ trợ người dùng lấy lại tiền
  • Đã tìm ra lý do COVID-19 gây tổn thương kéo dài trong cơ thể
    Đã tìm ra lý do COVID-19 gây tổn thương kéo dài trong cơ thể
  • Mistral ra mắt mô hình AI có khả năng suy luận linh hoạt
    Mistral ra mắt mô hình AI có khả năng suy luận linh hoạt

Tin nổi bật

Danh sách chính thức 102 xã, phường, đặc khu của tỉnh An Giang mới, đi vào hoạt động từ 1-7

Danh sách chính thức 102 xã, phường, đặc khu của tỉnh An Giang mới, đi vào hoạt động từ 1-7

Quốc hội chính thức thông qua việc sửa đổi, bổ sung một số điều của Hiến pháp

Quốc hội chính thức thông qua việc sửa đổi, bổ sung một số điều của Hiến pháp

Gần 400 tình nguyện viên tham gia ngày hội hiến máu tình nguyện

Gần 400 tình nguyện viên tham gia ngày hội hiến máu tình nguyện

Tập trung lực lượng, thời gian để giải quyết các công việc cho việc hợp nhất tỉnh, thành lập xã

Tập trung lực lượng, thời gian để giải quyết các công việc cho việc hợp nhất tỉnh, thành lập xã

Hơn 10.000 thí sinh Kiên Giang thi tuyển sinh vào lớp 10

Hơn 10.000 thí sinh Kiên Giang thi tuyển sinh vào lớp 10

Chuẩn bị vận hành hoạt động tỉnh An Giang mới

Chuẩn bị vận hành hoạt động tỉnh An Giang mới

Phân định thẩm quyền của chính quyền địa phương hai cấp trong một số lĩnh vực

Phân định thẩm quyền của chính quyền địa phương hai cấp trong một số lĩnh vực

Quốc hội thông qua phương án 34 đơn vị hành chính cấp tỉnh

Quốc hội thông qua phương án 34 đơn vị hành chính cấp tỉnh

  • Ẩm thực
  • Chính trị
  • Nông thôn mới
  • Xây dựng Đảng
  • Kinh tế
  • Phóng sự - Ghi chép
  • Thời trang
  • Bảo vệ nền tảng tư tưởng của Đảng
  • Xã hội
  • Bạn đọc
  • Tinh gọn bộ máy
  • Văn hóa - Giải trí
  • Cải cách hành chính
  • Giáo dục
  • Khoa học - Công nghệ
  • Quốc phòng - An ninh
  • Pháp luật
  • Du lịch
  • Sức khỏe
  • Thế giới
  • Truyện ngắn
  • Thơ
  • Tản văn
Media Báo in
  • Theo dõi báo Kiên Giang trên
  • Cơ quan chủ quản: Tỉnh ủy Kiên Giang
  • Tổng Biên tập: LÂM VĂN SỂN
  • Phó Tổng Biên tập: Võ Hoàng Đương - Nguyễn Việt Tiến - Lâm Việt Khởi
  • Toà soạn: Số 16 đường Mạc Đĩnh Chi, TP. Rạch Giá, tỉnh Kiên Giang
  • Điện thoại: 0297.3899008 - Email: toasoan@baokiengiang.vn; baokiengiangdt@gmail.com (chuyên mục văn nghệ)
  • © 2021 Bản quyền thuộc về Báo Kiên Giang
  • Liên hệ quảng cáo: 0297.3949460. - Fax: 0297.3877518
  • Giấy phép số 60/GP-BTTTT do Bộ Thông tin và Truyền thông, cấp ngày 25/01/2022 
  • Ghi rõ nguồn khi phát hành thông tin tại website này.

Tổng số lượt truy cập: