Meta lança modelo de IA para tradução de fala entre dezenas de idiomas

A Meta enfrenta questões legais semelhantes às do restante do setor em relação aos dados de treinamento utilizados para criar seus modelos.

por Reuters 16:44 | 22/08/2023

Publicado por Reuters 16:44 | 22/08/2023

A Meta divulgou nesta terça-feira um modelo de inteligência artificial (IA) capaz de traduzir e transcrever discursos falados em dezenas de idiomas, um possível alicerce para o desenvolvimento de ferramentas que possibilitam a comunicação em tempo real apesar das barreiras linguísticas.

A companhia afirmou em um comunicado que seu modelo SeamlessM4T pode suportar traduções entre texto e fala em quase 100 idiomas, bem como tradução completa de fala para fala em 35 idiomas, combinando tecnologia que antes estava disponível apenas em modelos separados.

O presidente-executivo da Meta, Mark Zuckerberg, disse que imagina tais ferramentas facilitando interações entre usuários de todo o mundo no metaverso, o conjunto de mundos virtuais interconectados nos quais o executivo tem apostado o futuro da empresa.

A Meta está disponibilizando o modelo para uso público não comercial, conforme comunicado da empresa.

A maior empresa de mídia social do mundo tem lançado uma série de modelos de IA este ano, a maioria gratuitos, incluindo um grande modelo de linguagem chamado Llama, representando uma forte concorrência aos modelos proprietários vendidos pela OpenAI, apoiada pela Microsoft, e pelo Google, da Alphabet.

Zuckerberg argumenta que um ecossistema de IA aberto trabalha a favor da Meta, já que a empresa tem mais a ganhar ao efetivamente terceirizar a criação de ferramentas voltadas para o consumidor para suas plataformas sociais do que cobrar pelo acesso aos modelos.

No entanto, a Meta enfrenta questões legais semelhantes às do restante do setor em relação aos dados de treinamento utilizados para criar seus modelos.

Para o modelo SeamlessM4T, pesquisadores da Meta disseram em um artigo de pesquisa que coletaram dados de treinamento de áudio a partir de 4 milhões de horas de “áudio bruto originado de um repositório publicamente acessível de dados rastreados da web”, sem especificar qual repositório.

Um porta-voz da Meta não respondeu às perguntas sobre a origem dos dados de áudio.

Os dados de texto vieram de conjuntos de dados criados no ano passado que coletaram conteúdo da Wikipedia e de sites associados, afirmou o artigo de pesquisa.