Mozilla, DeepSpeech 0.9 음성 인식 엔진 출시

딥스피치1

출시가 게시되었습니다. 음성 인식 엔진 Mozilla에서 개발 한 DeepSpeech 0.9, 아키텍처를 구현합니다. 음성 인식 Baidu 연구원이 제안한 동일한 이름의.

구현 파이썬으로 작성되었습니다. 기계 학습 플랫폼 TensorFlow 무료 MPL 2.0 라이선스에 따라 배포됩니다.

DeepSpeech 정보

DeepSpeech는 두 개의 하위 시스템으로 구성됩니다. 음향 모델과 디코더. 음향 모델은 딥 머신 러닝 기술을 사용하여 특정 문자가 입력 사운드에 존재할 확률을 계산합니다.

디코더는 광선 검색 알고리즘을 사용하여 문자 확률 데이터를 텍스트 표현으로 변환합니다. DeepSpeech는 기존 시스템보다 훨씬 간단하며 동시에 외부 노이즈가있을 때 더 높은 품질의 인식을 제공합니다.

개발은 전통적인 음향 모델과 음소 개념을 사용하지 않습니다. 대신, 잘 최적화 된 신경망 기반 기계 학습 시스템이 사용되므로 소음, 에코 및 음성 특성과 같은 다양한 이상을 모델링하기 위해 별도의 구성 요소를 개발할 필요가 없습니다.

키트 훈련 된 모델, 샘플 사운드 파일 제공 및 명령 줄 인식 도구.

완성 된 모델은 영어와 중국어로만 제공됩니다. 다른 언어의 경우 Common Voice 프로젝트에서 수집 한 음성 데이터를 사용하여 첨부 된 지침에 따라 시스템을 직접 학습 할 수 있습니다.

언제 다운로드 용으로 제공되는 즉시 사용 가능한 영어 모델이 사용됩니다. DeepSpeech의 인식 오류 수준은 LibriSpeech 테스트 스위트를 사용하여 평가할 때 7.06 %입니다.

비교를 위해 인간 인식 오류율은 5,83 %로 추정됩니다.

제안 된 모델에서는 외부 소음이없는 환경에서 미국식 억양의 남성 목소리를 깨끗하게 녹음하여 최상의 인식 결과를 얻었습니다.

Vosk Continuous Speech Recognition Library의 저자에 따르면 Common Voice 세트의 단점은 음성 자료의 일 방성 (20 ~ 30 대 남성이 우세하고 여성, 어린이의 목소리에 대한 자료 부족)입니다. 및 노인), 어휘 변동성 부족 (동일한 문구의 반복) 및 왜곡되기 쉬운 MP3 녹음의 분포.

DeepSpeech의 단점은 성능 저하를 포함합니다. 디코더의 높은 메모리 소비와 모델 학습을위한 중요한 리소스 (Mozilla는 각각 8GB VRAM이있는 6000 개의 Quadro RTX 24 GPU가있는 시스템을 사용합니다).

이 접근 방식의 단점은 신경망의 고품질 인식 및 훈련, DeepSpeech 엔진 많은 양의 데이터가 필요합니다. 실제 조건에서 서로 다른 목소리와 자연스러운 소음이있는 이기종.

이 데이터는 Mozilla에서 생성 된 Common Voice 프로젝트에 의해 컴파일됩니다.이 프로젝트는 영어 1469 시간, 독일어 692 시간, 프랑스어 554 시간, 러시아어 105 시간, 우크라이나어 22 시간의 검증 된 데이터 세트를 제공합니다.

DeepSpeech에 대한 최종 영어 모델을 훈련 할 때 Common Voice 외에도 LibriSpeech, Fisher 및 Switchboard 프로젝트의 데이터와 녹음 된 라디오 프로그램의 약 1700 시간 녹음이 추가로 사용됩니다.

새 지점의 변경 사항 사이에 단어의 무게를 강요 할 가능성이 강조됩니다. 디코딩 과정에서 선택됩니다.

또한 Electron 9.2 플랫폼에 대한 지원과 신경망 훈련시 계층 정규화 메커니즘 (Layer Norm)의 선택적 구현을 ​​강조합니다.

다운로드 및 받기

성능은 LePotato, Raspberry Pi 3 및 Raspberry Pi 4 보드와 Google Pixel 2, Sony Xperia Z Premium 및 Nokia 1.3 스마트 폰에서 모터를 사용하기에 충분합니다.

준비 모듈이 제공됩니다. Python, NodeJS, C ++ 및 .NET에 사용하여 음성 인식 기능을 프로그램에 통합합니다 (타사 개발자는 Rust, Go 및 V 용 모듈을 별도로 준비했습니다).


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.