A Meta lançou uma inteligência artificial de tradução multimodal com suporte a cerca de 100 idiomas. A novidade é chamada SeamlessM4T (“Massively Multilingual & Multimodal Machine Translation”, ou “Máquina de Tradução Massiva, Multilingual e Multimodal”, em tradução livre), está disponível em código aberto e consegue transcrever a partir de comandos de texto ou fala.
O grande diferencial do Seamless M4T é a versatilidade para traduzir a partir de um único comando de entrada: a plataforma consegue transformar o mesmo modelo em texto ou áudio e ainda identifica diferentes idiomas usados na mesma frase. Dessa forma, o usuário não precisa criar comandos diferentes caso precise alterar o idioma ou o formato da tradução final.
Segundo a desenvolvedora, a plataforma tem as seguintes capacidades:
Continua após a publicidade
- Reconhecimento automático de fala para cerca de 100 idiomas;
- Tradução de fala para texto em cerca de 100 idiomas;
- Tradução de fala para fala em cerca de 100 idiomas de entrada e 36 idiomas de saída;
- Tradução de texto para texto para cerca de 100 idiomas;
- Tradução de texto para fala em cerca de 100 idiomas de entrada e 36 idiomas de saída.
Ainda de acordo com a Meta, o Seamless M4T representa um “avanço significativo no campo de fala para fala e fala para texto ao solucionar os desafios de cobertura limitada de idiomas e dependência de sistemas separados”. A tecnologia de IA consegue criar um modelo unificado, capaz de suportar diversos idiomas e fontes diferentes.
Os testes publicados pela empresa revelam que a nova tecnologia teve performance muito positiva para os idiomas compatíveis e a função multitarefas entre reconhecimento de fala e as conversões de fala para texto, fala para fala, texto para fala e texto para texto. Além disso, experimentos sobre a precisão do reconhecimento de áudio mostraram resultados de ponta.
Continua após a publicidade
Meta e tradução
A dona do Facebook desenvolveu diversas ferramentas de inteligência artificial para tradução. Um exemplo é o modelo de texto para texto No Language Left Behind, lançado no ano passado com suporte a 200 idiomas e integrado à Wikipedia como um dos provedores para converter textos.
A empresa ainda lançou o Universal Speech translator, o primeiro sistema com suporte à tradução fala para fala do idioma Hokkien, usado no sudeste asiático, com poucos registros escritos.
Ferramenta sem licença comercial
Continua após a publicidade
A Meta disponibilizou a tecnologia do SeamlessM4T sob a licença CC BT-NC 4.0 da Creative Commons para pesquisadores e desenvolvedores, com permissões para compartilhar e adaptar o conteúdo. Além disso, também divulgou os metadados do SeamlessAlign, considerado o maior conjunto aberto de dados de tradução multimodal até o momento, com mais de 270 mil horas de falas e ajustes de texto.
A decisão segue a abordagem da Meta de disponibilizar várias tecnologias de IA em código aberto — a empresa também liberou o código do AudioCraft, IA generativa para conversão de texto em música.
Você pode conferir uma demonstração da ferramenta em seamless.metademolab.com/demo