직접 텍스트 번역을 위한 페이스북 AI NLLB

최근에 페이스 북 공개 출판을 통해 개발 NLLB 프로젝트 (뒤에 언어가 남지 않음), 그의 목표는 번역을 위한 범용 기계 학습 모델 영어로의 중간 번역을 우회하여 한 언어에서 다른 언어로 직접 텍스트.

제안된 모델 희귀한 아프리카 및 호주 언어를 포함하여 200개 이상의 언어를 다룹니다. 그리고 이 프로젝트의 궁극적인 목표는 그들이 말하는 언어에 상관없이 모든 사람들에게 의사소통 수단을 제공하는 것입니다.

사람들이 오늘 더 잘 연결되고 내일의 메타버스의 일부가 되도록 돕기 위해 Meta AI 연구원은 전 세계 대부분의 언어에 대한 고품질 기계 번역 기능을 개발하기 위한 노력인 NLLB(No Language Left Behind)를 만들었습니다. .

오늘 우리는 NLLB의 주요 발전 사항을 발표합니다. NLLB-200.이라는 단일 AI 모델을 만들었습니다. 이 모델은 200개의 다른 언어를 최첨단 결과로 번역합니다. Kamba 및 Lao와 같은 이러한 언어 중 상당수는 현재 사용 가능한 최고의 번역 도구에서도 지원되지 않습니다.

프로젝트에 대해서는 다음과 같이 언급됩니다. 제안된 모델을 사용하여 프로젝트 생성을 단순화하기 위한 것, 모델(FLORES-200, NLLB-MD, Toxicity-200)의 품질을 테스트하고 평가하는 데 사용되는 애플리케이션 코드, LASER3 라이브러리(관용구의 Agnostic Software Representation)를 기반으로 하는 모델 교육 코드 및 인코더. 최종 모델은 전체 버전과 축소 버전의 두 가지 버전으로 제공됩니다. 축소된 버전은 더 적은 리소스를 필요로 하며 연구 프로젝트에서 테스트 및 사용하기에 적합합니다.

현재 널리 사용되는 번역 도구가 지원하는 아프리카 언어는 25개 미만이며 그 중 상당수는 품질이 좋지 않습니다. 대조적으로 NLLB-200은 고품질 출력으로 55개의 아프리카 언어를 지원합니다. 전체적으로 이 독특한 모델은 전 세계 수십억 명의 사람들이 사용하는 언어에 대한 고품질 번역을 제공할 수 있습니다. 전체적으로 NLLB-200 BLEU 점수는 FLORES-44 벤치마크의 모든 10k 방향에서 이전 기술보다 평균 101% 향상되었습니다. 일부 아프리카 및 인도 언어의 경우 최근 번역 시스템보다 70% 이상 증가했습니다.

다른 기계 학습 번역 시스템과 달리, Facebook의 솔루션은 200개 모든 언어에 대한 공통 모델을 제공한다는 점에서 두드러집니다., 모든 언어를 다루며 각 언어에 대해 별도의 모델이 필요하지 않습니다.

번역은 영어로의 중간 번역 없이 소스 언어에서 대상 언어로 직접 수행됩니다. 범용 번역 시스템을 만들기 위해 사용 언어를 결정할 수 있는 추가 LID(Language IDentification) 모델을 제안합니다. 저것들. 시스템은 정보가 제공되는 언어를 자동으로 인식하고 사용자의 언어로 번역할 수 있습니다.

번역은 양방향으로 지원됩니다., 지원되는 200개 언어 중 하나. 모든 언어 간의 번역 품질을 확인하기 위해 FLORES-200 벤치마크 테스트 세트를 준비했는데, 이는 NLLB-200 모델이 번역 품질 측면에서 FLORES-44 시스템보다 평균 70% 우수한 것으로 나타났습니다. 기계 번역을 표준 인간 번역과 비교하는 BLEU 메트릭을 사용할 때 기계 학습 기반 연구를 제안했습니다. 희귀 아프리카 언어 및 인도 방언의 경우 품질 우수성이 XNUMX%에 이릅니다. 특별히 준비된 데모 사이트에서 번역 품질을 시각적으로 평가할 수 있습니다.

프로젝트에 관심이 있는 사람들은 알고 있어야 합니다. 모델은 Creative Commons BY-NC 4.0 라이선스에 따라 사용할 수 있습니다., 복사, 배포, 프로젝트에 포함, 파생 작업 생성을 허용하지만 저작자 표시, 라이선스 보유 및 비상업적 목적으로만 사용할 수 있습니다. 모델링 도구는 MIT 라이선스에 따라 라이선스가 부여됩니다. NLLB 모델을 사용하여 개발을 촉진하기 위해 연구원에게 장학금을 수여하기 위해 $200를 할당하기로 결정했습니다.

최종적으로 그것에 대해 더 많이 알고 싶다면 메모에 대해서는 원본 게시물을 참조할 수 있습니다. 다음 링크에서.


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.