NLLB, uma IA do Facebook para tradução direta de texto

Faz pouco Facebook revelado através de uma publicação os desenvolvimentos da Projeto NLLB (No Language Left Behind), cujo objetivo é criar um modelo universal de aprendizado de máquina para tradução texto direto de um idioma para outro, ignorando a tradução intermediária para o inglês.

O modelo proposto abrange mais de 200 idiomas, incluindo raros idiomas africanos e australianos e o objetivo final do projeto é fornecer um meio de comunicação para todas as pessoas, independentemente do idioma que falam.

Para ajudar as pessoas a se conectarem melhor hoje e fazer parte do metaverso de amanhã, os pesquisadores da Meta AI criaram o No Language Left Behind (NLLB), um esforço para desenvolver recursos de tradução automática de alta qualidade para a maioria dos idiomas do mundo.

Hoje estamos anunciando um grande avanço no NLLB: criamos um único modelo de IA chamado NLLB-200., que traduz 200 idiomas diferentes com resultados de ponta. Muitos desses idiomas, como Kamba e Lao, não eram suportados nem mesmo pelas melhores ferramentas de tradução disponíveis hoje.

Sobre o projeto menciona-se que é destinado a simplificar a criação de projetos usando o modelo proposto, o código do aplicativo usado para testar e avaliar a qualidade dos modelos (FLORES-200, NLLB-MD, Toxicity-200), o código de treinamento do modelo e os codificadores baseados na biblioteca LASER3 (Agnostic Software Representation of the idiom). O modelo final é oferecido em duas versões: integral e reduzida. A versão reduzida requer menos recursos e é adequada para testes e uso em projetos de pesquisa.

Atualmente, menos de 25 línguas africanas são suportadas por ferramentas de tradução amplamente utilizadas, muitas das quais são de baixa qualidade. Em contraste, o NLLB-200 suporta 55 idiomas africanos com saída de alta qualidade. No total, esse modelo exclusivo pode fornecer traduções de alta qualidade para idiomas falados por bilhões de pessoas em todo o mundo. No total, as pontuações NLLB-200 BLEU melhoram em relação ao estado da arte anterior em uma média de 44% em todas as 10k direções do benchmark FLORES-101. Para algumas línguas africanas e indianas, o aumento é superior a 70% em relação aos sistemas de tradução recentes.

Ao contrário de outros sistemas de tradução de aprendizado de máquina, A solução do Facebook se destaca por oferecer um modelo comum para todos os 200 idiomas, que abrange todos os idiomas e não exige modelos separados para cada idioma.

A tradução é feita diretamente do idioma de origem para o idioma de destino, sem tradução intermediária para o inglês. Para criar sistemas de tradução universais, é proposto um modelo LID (Language IDentification) adicional, que permite determinar o idioma utilizado. Aqueles. o sistema pode reconhecer automaticamente o idioma em que as informações são fornecidas e traduzi-las para o idioma do usuário.

A tradução é suportada em qualquer direção, entre qualquer um dos 200 idiomas suportados. Para confirmar a qualidade da tradução entre qualquer idioma, foi elaborado o conjunto de testes de benchmark FLORES-200, que mostrou que o modelo NLLB-200, em termos de qualidade de tradução, é em média 44% superior aos sistemas FLORES-70. propôs uma pesquisa baseada em aprendizado de máquina ao usar métricas BLEU que comparam a tradução automática com a tradução humana padrão. Para línguas africanas raras e dialetos indianos, a superioridade em qualidade chega a XNUMX%. Você pode avaliar visualmente a qualidade da tradução em um site de demonstração especialmente preparado.

Para os interessados ​​no projeto, devem saber que o modelo está disponível sob uma licença Creative Commons BY-NC 4.0, que permite a cópia, distribuição, inclusão em seus projetos e criação de trabalhos derivados, mas sujeito a atribuição, retenção de licença e uso apenas para fins não comerciais. A ferramenta de modelagem é licenciada sob a licença do MIT. Para estimular o desenvolvimento usando o modelo NLLB, decidiu-se alocar US$ 200 para conceder bolsas a pesquisadores.

Finalmente se você estiver interessado em saber mais sobre isso sobre a nota, você pode consultar a postagem original no link a seguir.


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.