Startup nhân bản giọng nói bằng AI được định giá 1,1 tỉ đô la

(SGTT) - ElevenLabs, công ty khởi nghiệp (startup), sử dụng trí tuệ nhân tạo (AI) để tạo ra giọng nói với nhiều ngôn ngữ và âm điệu khác nhau dựa vào trí tuệ nhân tạo (AI), được định giá 1,1 tỉ đô la Mỹ trong vòng gọi vốn mới nhất. Công ty nhanh chóng gia nhập câu lạc bộ ‘kỳ lân’ khởi nghiệp chỉ trong vòng hai năm kể từ khi thành lập khi mối quan tâm của nhà đầu tư đối với công nghệ AI tăng cao.

Hôm 22-1, ElevenLabs cho biết đã huy động được 80 triệu đô la Mỹ trong vòng gọi vốn Series B từ một nhóm nhà đầu tư do Công ty đầu tư mạo hiểm Andreessen Horowitz dẫn đầu cùng với các doanh nhân công nghệ nổi tiếng Nat Friedman và Daniel Gross.

Theo CEO Mati Staniszewski của ElevenLabs, vòng gọi vốn mới nhất định giá startup này 1,1 tỉ đô la, đưa công ty chính thức trở thành ‘kỳ lân’, tức công ty khởi nghiệp có trị giá từ 1 tỉ đô la trở lên.

Dữ liệu từ PitchBook cho thấy, đó là bước nhảy vọt so với mức định giá 100 triệu đô la của ElevenLabs trong vòng gọi vốn trước đó vào năm 2023, đồng thời phản ánh kỳ vọng của nhà đầu tư về cơ hội kinh doanh hấp dẫn khi công nghệ tạo giọng nói dựa vào AI dự kiến được nhiều công ty trong lĩnh vực game và hãng phim sử dụng.

Được thành lập cách đây hai năm, đăng ký kinh doanh ở Mỹ và đặt trụ sở chính tại London, ElevenLabs đã phát triển các mô hình và công cụ AI để tạo ra giọng nói dựa vào AI với hàng chục ngôn ngữ, giọng điệu và cảm xúc khác nhau. CEO Mati Staniszewski nói với Reuters rằng công ty ông hiện có khoảng 40 nhân viên làm việc từ xa trên toàn cầu và có kế hoạch tăng lên 100 nhân viên vào cuối năm nay.

ElevenLabs cho biết, nền tảng khách hàng ngày càng tăng của công ty bao gồm những người sáng tạo nội dung cá nhân cũng như các doanh nghiệp như Storytel (sách nói) Paradox Interactive (phát hành game) và The Washington Post (báo chí)

Theo Staniszewski, các nhóm vận động trong chiến dịch tranh cử tổng thống ở Mỹ đang sử dụng công nghệ của ElevenLabs để tiếp cận những cử tri nói tiếng nước ngoài.

“Chúng ta sẽ thấy nhiều nội dung AI hơn trong các chiến dịch truyền thông xã hội. Điều cơ bản chính là đảm bảo rằng mọi người biết đó là nội dung tạo ra nhờ AI. Chúng tôi rất ủng hộ việc có thể phát hiện các nội dung do AI tạo ra và truy nguồn gốc của chúng”, Staniszewski nói.

Các công cụ của ElevenLabs gồm AI Speech Classifier, giúp xác định nội dung âm thanh có phải do công cụ AI của công ty tạo ra hay không, bên cạnh các sản phẩm tập trung vào hoạt động lồng tiếng cho phim. Công ty đang phát triển một thị trường cho phép người dùng tạo giọng nói AI và tải lên thư viện, rồi kiếm tiền bằng cách cấp phép sử dụng giọng nói đó. Công ty khởi nghiệp này cũng đang nghiên cứu các tính năng để tự động điều chỉnh cảm xúc và ngữ điệu của âm thanh AI.

ElevenLabs đang cạnh tranh với các công ty AI khác bao gồm OpenAI, chủ sở hữu chatbot ChatGPT. OpenAI, được Microsoft hậu thuẫn, đã phát hành các sản phẩm chuyển văn bản thành giọng nói hồi năm ngoái.

Các nhà đầu tư công nghệ đã rót tiền vào các startup đang phát triển các công cụ AI tạo ra âm thanh và video chân thực, nhắm đến các cơ hội kinh doanh trong lĩnh vực quảng cáo và truyền thông. Nhưng điều đó khiến giới nghiên cứu lo lắng về sự gia tăng của các deepfake (hình ảnh, âm thanh, video mạo danh) được bọn tội phạm sử dụng để lừa đảo. Ngoài ra, deepfake còn được sử dụng để ra nội dung khiêu dâm và chính trị xuyên tạc. Điều này đặc biệt đáng lo ngại vì gần một nửa dân số thế giới tham gia các cuộc bầu cử quốc gia trong năm 2024. Đầu năm ngoái, ElevenLabs thừa nhận một số người dùng sử dụng công nghệ của công ty với “mục đích xấu”.

Staniszewski nhấn mạnh, các đoạn âm thanh được tạo ra nhờ công nghệ của ElevenLabs để mạo danh người khác mà không có sự đồng ý của họ bị cấm và sẽ bị xóa. “99% trường hợp sử dụng mà chúng tôi đang thấy đều có mục đích tích cực”, ông nói.

Với nguồn vốn mới, ElevenLabs kế hoạch mở rộng phạm vi sử dụng ban đầu của công nghệ tạo giọng nói bằng AI từ sách nói và trò chơi điện tử sang sản xuất phương tiện truyền thông, chẳng hạn như lồng tiếng cho phim hoặc tạo ra các diễn viên AI chính thức, Staniszewski cho biết.

Tuy nhiên, tham vọng đó sẽ đối mặt thách thức lớn. Việc sử dụng rộng rãi AI trong lĩnh vực giải trí là điểm mấu chốt dẫn đến các cuộc đình công gần đây ở Hollywood. Sự gia tăng của việc sử dụng âm thanh do máy tính tạo ra, giống như các công cụ của ElevenLabs, đã làm dấy lên mối lo ngại rằng, giọng nói của các diễn viên hoặc người nổi tiếng có thể bị sử dụng mà khi chưa được phép hoặc trả tiền.

Staniszewski khẳng định, ông muốn hợp tác với lĩnh vực giải trí. Ông nói thêm, ElevenLabs đã trao đổi với hầu hết với công ty quản lý tài năng và hiệp hội giải trí lớn nhưng không tiết lộ nội dung chi tiết.

Chánh Tài