ಅವರು ವಿಸ್ಪರ್‌ನ ಮೂಲ ಕೋಡ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದರು, ಇದು ಸ್ವಯಂಚಾಲಿತ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಯಾಗಿದೆ

ವಿಸ್ಪರ್

ವಿಸ್ಪರ್ ಒಂದು ಸ್ವಯಂಚಾಲಿತ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಯಾಗಿದೆ

ಯೋಜನೆಯು ಇತ್ತೀಚೆಗೆ ಓಪನ್ಎಐ, ಇದು ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಕ್ಷೇತ್ರದಲ್ಲಿ ಸಾರ್ವಜನಿಕ ಯೋಜನೆಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತದೆ, ಸುದ್ದಿ ಪ್ರಕಟಿಸಿದೆ ಧ್ವನಿ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಗೆ ಸಂಬಂಧಿಸಿದೆ ಪಿಸುಮಾತು, ಇದು a ಸ್ವಯಂಚಾಲಿತ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆ (ASR) ವೆಬ್‌ನಿಂದ ಸಂಗ್ರಹಿಸಲಾದ ಬಹುಭಾಷಾ, ಬಹುಕಾರ್ಯಕ ಮೇಲ್ವಿಚಾರಣೆಯ ಡೇಟಾದ 680.000 ಗಂಟೆಗಳ ಕುರಿತು ತರಬೇತಿ ನೀಡಲಾಗಿದೆ.

ಇಂಗ್ಲಿಷ್ ಭಾಷಣಕ್ಕಾಗಿ, ಸಿಸ್ಟಮ್ ಸ್ವಯಂಚಾಲಿತ ಗುರುತಿಸುವಿಕೆ ವಿಶ್ವಾಸಾರ್ಹತೆ ಮತ್ತು ಮಾನವ ಗುರುತಿಸುವಿಕೆಗೆ ಹತ್ತಿರವಿರುವ ನಿಖರತೆಯ ಮಟ್ಟವನ್ನು ಒದಗಿಸುತ್ತದೆ ಎಂದು ಹೇಳಲಾಗುತ್ತದೆ.

ಅಂತಹ ದೊಡ್ಡ ಮತ್ತು ವೈವಿಧ್ಯಮಯ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಬಳಸುವುದರಿಂದ ಉಚ್ಚಾರಣೆಗಳು, ಹಿನ್ನೆಲೆ ಶಬ್ದ ಮತ್ತು ತಾಂತ್ರಿಕ ಭಾಷೆಗೆ ಹೆಚ್ಚಿನ ದೃಢತೆಗೆ ಕಾರಣವಾಗುತ್ತದೆ ಎಂದು ನಾವು ತೋರಿಸುತ್ತೇವೆ. ಹೆಚ್ಚುವರಿಯಾಗಿ, ಇದು ವಿವಿಧ ಭಾಷೆಗಳಲ್ಲಿ ಪ್ರತಿಲೇಖನವನ್ನು ಅನುಮತಿಸುತ್ತದೆ, ಜೊತೆಗೆ ಆ ಭಾಷೆಗಳನ್ನು ಇಂಗ್ಲಿಷ್‌ಗೆ ಅನುವಾದಿಸುತ್ತದೆ. ನಾವು ಓಪನ್ ಸೋರ್ಸ್ ಮಾಡೆಲ್‌ಗಳು ಮತ್ತು ಇನ್ಫರೆನ್ಸ್ ಕೋಡ್ ಆಗಿದ್ದು ಅದು ಉಪಯುಕ್ತ ಅಪ್ಲಿಕೇಶನ್‌ಗಳನ್ನು ನಿರ್ಮಿಸಲು ಮತ್ತು ದೃಢವಾದ ಭಾಷಣ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಭವಿಷ್ಯದ ಸಂಶೋಧನೆಗೆ ಅಡಿಪಾಯವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

ಮಾದರಿಯ ಬಗ್ಗೆ (ಈಗಾಗಲೇ ಹೇಳಿದಂತೆ) 680 ಗಂಟೆಗಳನ್ನು ಬಳಸಿ ತರಬೇತಿ ನೀಡಲಾಗಿದೆ ವಿವಿಧ ಭಾಷೆಗಳು ಮತ್ತು ವಿಷಯ ಕ್ಷೇತ್ರಗಳನ್ನು ಒಳಗೊಂಡ ವಿವಿಧ ಸಂಗ್ರಹಣೆಗಳಿಂದ ಸಂಗ್ರಹಿಸಲಾದ ಧ್ವನಿ ಡೇಟಾ. ತರಬೇತಿಯಲ್ಲಿ ಒಳಗೊಂಡಿರುವ ಧ್ವನಿ ಡೇಟಾದ ಸುಮಾರು 1/3 ಇಂಗ್ಲಿಷ್ ಹೊರತುಪಡಿಸಿ ಇತರ ಭಾಷೆಗಳಲ್ಲಿದೆ.

ಉದ್ದೇಶಿತ ವ್ಯವಸ್ಥೆ ಉಚ್ಚಾರಣಾ ಉಚ್ಚಾರಣೆಯಂತಹ ಸಂದರ್ಭಗಳನ್ನು ಸರಿಯಾಗಿ ನಿಭಾಯಿಸುತ್ತದೆ, ಹಿನ್ನೆಲೆ ಶಬ್ದದ ಉಪಸ್ಥಿತಿ ಮತ್ತು ತಾಂತ್ರಿಕ ಪರಿಭಾಷೆಯ ಬಳಕೆ. ಭಾಷಣವನ್ನು ಪಠ್ಯಕ್ಕೆ ಲಿಪ್ಯಂತರ ಮಾಡುವುದರ ಜೊತೆಗೆ, ಸಿಸ್ಟಂ ಅನಿಯಂತ್ರಿತ ಭಾಷೆಯಿಂದ ಇಂಗ್ಲಿಷ್‌ಗೆ ಭಾಷಣವನ್ನು ಭಾಷಾಂತರಿಸಬಹುದು ಮತ್ತು ಆಡಿಯೊ ಸ್ಟ್ರೀಮ್‌ನಲ್ಲಿ ಮಾತಿನ ನೋಟವನ್ನು ಪತ್ತೆ ಮಾಡುತ್ತದೆ.

ಮಾದರಿಗಳಿಗೆ ಎರಡು ಪ್ರಾತಿನಿಧ್ಯಗಳಲ್ಲಿ ತರಬೇತಿ ನೀಡಲಾಗುತ್ತದೆ: ಇಂಗ್ಲಿಷ್ ಭಾಷೆಯ ಮಾದರಿ ಮತ್ತು ಸ್ಪ್ಯಾನಿಷ್, ರಷ್ಯನ್, ಇಟಾಲಿಯನ್, ಜರ್ಮನ್, ಜಪಾನೀಸ್, ಉಕ್ರೇನಿಯನ್, ಬೆಲರೂಸಿಯನ್, ಚೈನೀಸ್ ಮತ್ತು ಇತರ ಭಾಷೆಗಳನ್ನು ಬೆಂಬಲಿಸುವ ಬಹುಭಾಷಾ ಮಾದರಿ. ಪ್ರತಿಯಾಗಿ, ಪ್ರತಿ ವೀಕ್ಷಣೆಯನ್ನು 5 ಆಯ್ಕೆಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ, ಇದು ಮಾದರಿಯಲ್ಲಿ ಒಳಗೊಂಡಿರುವ ನಿಯತಾಂಕಗಳ ಗಾತ್ರ ಮತ್ತು ಸಂಖ್ಯೆಯಲ್ಲಿ ಭಿನ್ನವಾಗಿರುತ್ತದೆ.

ವಿಸ್ಪರ್ ಆರ್ಕಿಟೆಕ್ಚರ್ ಒಂದು ಸರಳವಾದ ಅಂತ್ಯದಿಂದ ಅಂತ್ಯದ ವಿಧಾನವಾಗಿದೆ, ಇದನ್ನು ಎನ್ಕೋಡರ್-ಡಿಕೋಡರ್ ಟ್ರಾನ್ಸ್ಫಾರ್ಮರ್ ಆಗಿ ಅಳವಡಿಸಲಾಗಿದೆ. ಇನ್‌ಪುಟ್ ಆಡಿಯೊವನ್ನು 30-ಸೆಕೆಂಡ್‌ಗಳ ಭಾಗಗಳಾಗಿ ವಿಭಜಿಸಲಾಗಿದೆ, ಲಾಗ್-ಮೆಲ್ ಸ್ಪೆಕ್ಟ್ರೋಗ್ರಾಮ್‌ಗೆ ಪರಿವರ್ತಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ನಂತರ ಎನ್‌ಕೋಡರ್‌ಗೆ ರವಾನಿಸಲಾಗುತ್ತದೆ. ಭಾಷಾ ಗುರುತಿಸುವಿಕೆ, ವಾಕ್ಯ-ಮಟ್ಟದ ಟೈಮ್‌ಸ್ಟ್ಯಾಂಪ್‌ಗಳು, ಬಹುಭಾಷಾ ಮಾತಿನ ಪ್ರತಿಲೇಖನ ಮತ್ತು ಇಂಗ್ಲಿಷ್‌ಗೆ ಭಾಷಾಂತರದಂತಹ ಕಾರ್ಯಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಅನನ್ಯ ಮಾದರಿಯನ್ನು ನಿರ್ದೇಶಿಸುವ ವಿಶೇಷ ಟೋಕನ್‌ಗಳೊಂದಿಗೆ ವಿಭಜಿಸುವ ಪಠ್ಯದ ಉಪಶೀರ್ಷಿಕೆಯನ್ನು ಊಹಿಸಲು ಡಿಕೋಡರ್ ಅನ್ನು ತರಬೇತಿ ನೀಡಲಾಗುತ್ತದೆ.

ದೊಡ್ಡ ಗಾತ್ರ, ಹೆಚ್ಚಿನ ಗುರುತಿಸುವಿಕೆ ನಿಖರತೆ ಮತ್ತು ಗುಣಮಟ್ಟ, ಆದರೆ GPU ವೀಡಿಯೊ ಮೆಮೊರಿ ಗಾತ್ರಕ್ಕೆ ಹೆಚ್ಚಿನ ಅವಶ್ಯಕತೆಗಳು ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆ ಕಡಿಮೆ. ಉದಾಹರಣೆಗೆ, ಕನಿಷ್ಠ ಆಯ್ಕೆಯು 39 ಮಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ ಮತ್ತು 1 GB ವೀಡಿಯೊ ಮೆಮೊರಿಯ ಅಗತ್ಯವಿರುತ್ತದೆ, ಆದರೆ ಗರಿಷ್ಠ ಆಯ್ಕೆಯು 1550 ಶತಕೋಟಿ ನಿಯತಾಂಕಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ ಮತ್ತು 10 GB ವೀಡಿಯೊ ಮೆಮೊರಿಯ ಅಗತ್ಯವಿರುತ್ತದೆ. ಕನಿಷ್ಠ ರೂಪಾಂತರವು ಗರಿಷ್ಠಕ್ಕಿಂತ 32 ಪಟ್ಟು ವೇಗವಾಗಿರುತ್ತದೆ.

ಸಿಸ್ಟಮ್ "ಟ್ರಾನ್ಸ್ಫಾರ್ಮರ್" ನ್ಯೂರಲ್ ನೆಟ್ವರ್ಕ್ ಆರ್ಕಿಟೆಕ್ಚರ್ ಅನ್ನು ಬಳಸುತ್ತದೆ, ಇದು ಎನ್‌ಕೋಡರ್ ಮತ್ತು ಡಿಕೋಡರ್ ಅನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ ಅದು ಪರಸ್ಪರ ಸಂವಹನ ನಡೆಸುತ್ತದೆ. ಆಡಿಯೊವನ್ನು 30-ಸೆಕೆಂಡ್‌ಗಳ ಭಾಗಗಳಾಗಿ ವಿಭಜಿಸಲಾಗಿದೆ, ಅದನ್ನು ಲಾಗ್-ಮೆಲ್ ಸ್ಪೆಕ್ಟ್ರೋಗ್ರಾಮ್‌ಗೆ ಪರಿವರ್ತಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಎನ್‌ಕೋಡರ್‌ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ.

ಎನ್ಕೋಡರ್ನ ಕೆಲಸದ ಫಲಿತಾಂಶವನ್ನು ಡಿಕೋಡರ್ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ, ಇದು ಭಾಷಾ ಪತ್ತೆ, ವಾಕ್ಯ ಉಚ್ಚಾರಣೆ ಕಾಲಗಣನೆ ಲೆಕ್ಕಪತ್ರ ನಿರ್ವಹಣೆ, ವಿವಿಧ ಭಾಷೆಗಳಲ್ಲಿ ಭಾಷಣ ಪ್ರತಿಲೇಖನ ಮತ್ತು ಸಾಮಾನ್ಯ ಮಾದರಿಯಲ್ಲಿ ಇಂಗ್ಲಿಷ್ ಅನುವಾದದಂತಹ ಕಾರ್ಯಗಳನ್ನು ಪರಿಹರಿಸಲು ಅನುಮತಿಸುವ ವಿಶೇಷ ಟೋಕನ್‌ಗಳೊಂದಿಗೆ ಬೆರೆಸಿದ ಪಠ್ಯ ಪ್ರಾತಿನಿಧ್ಯವನ್ನು ಊಹಿಸುತ್ತದೆ.

ಭಾಷೆಯ ಆಧಾರದ ಮೇಲೆ ವಿಸ್ಪರ್‌ನ ಕಾರ್ಯಕ್ಷಮತೆಯು ಹೆಚ್ಚು ವ್ಯತ್ಯಾಸಗೊಳ್ಳುತ್ತದೆ ಎಂದು ನಮೂದಿಸುವುದು ಯೋಗ್ಯವಾಗಿದೆ, ಆದ್ದರಿಂದ ಉತ್ತಮ ತಿಳುವಳಿಕೆಯನ್ನು ಪ್ರಸ್ತುತಪಡಿಸುವ ಇಂಗ್ಲಿಷ್, ಇದು ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ಮಾತ್ರ ನಾಲ್ಕು ಆವೃತ್ತಿಗಳನ್ನು ಹೊಂದಿದೆ, ಇದು ಇತರ ಭಾಷೆಗಳ ಇತರ ಮಾದರಿಗಳಂತೆ ಅನುಕೂಲಗಳು ಮತ್ತು ಅನಾನುಕೂಲಗಳನ್ನು ನೀಡುತ್ತದೆ. ವೇಗ ಮತ್ತು ನಿಖರತೆ.

ಅಂತಿಮವಾಗಿ ಇದರ ಬಗ್ಗೆ ಇನ್ನಷ್ಟು ತಿಳಿದುಕೊಳ್ಳಲು ನೀವು ಆಸಕ್ತಿ ಹೊಂದಿದ್ದರೆ, ನಲ್ಲಿ ನೀವು ಮೂಲ ಪ್ರಕಟಣೆಯನ್ನು ಪರಿಶೀಲಿಸಬಹುದು ಈ ಲಿಂಕ್, ನೀವು ಮೂಲ ಕೋಡ್ ಮತ್ತು ತರಬೇತಿ ಪಡೆದ ಮಾದರಿಗಳಲ್ಲಿ ಆಸಕ್ತಿ ಹೊಂದಿದ್ದರೆ ನೀವು ಅವರನ್ನು ಸಂಪರ್ಕಿಸಬಹುದು ಈ ಲಿಂಕ್.

PyTorch ಚೌಕಟ್ಟಿನ ಆಧಾರದ ಮೇಲೆ ಉಲ್ಲೇಖದ ಅನುಷ್ಠಾನ ಕೋಡ್ ಮತ್ತು ಈಗಾಗಲೇ ತರಬೇತಿ ಪಡೆದ ಮಾದರಿಗಳ ಸೆಟ್ ತೆರೆದಿದ್ದು, ಬಳಸಲು ಸಿದ್ಧವಾಗಿದೆ. ಕೋಡ್ MIT ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ತೆರೆದ ಮೂಲವಾಗಿದೆ ಮತ್ತು ffmpeg ಲೈಬ್ರರಿಯ ಬಳಕೆಯ ಅಗತ್ಯವಿದೆ ಎಂದು ನಮೂದಿಸುವುದು ಯೋಗ್ಯವಾಗಿದೆ.


ನಿಮ್ಮ ಅಭಿಪ್ರಾಯವನ್ನು ಬಿಡಿ

ನಿಮ್ಮ ಈಮೇಲ್ ವಿಳಾಸ ಪ್ರಕಟವಾದ ಆಗುವುದಿಲ್ಲ. ಅಗತ್ಯವಿರುವ ಜಾಗ ಗುರುತಿಸಲಾಗಿದೆ *

*

*

  1. ಡೇಟಾಗೆ ಜವಾಬ್ದಾರಿ: ಮಿಗುಯೆಲ್ ಏಂಜೆಲ್ ಗಟಾನ್
  2. ಡೇಟಾದ ಉದ್ದೇಶ: ನಿಯಂತ್ರಣ SPAM, ಕಾಮೆಂಟ್ ನಿರ್ವಹಣೆ.
  3. ಕಾನೂನುಬದ್ಧತೆ: ನಿಮ್ಮ ಒಪ್ಪಿಗೆ
  4. ಡೇಟಾದ ಸಂವಹನ: ಕಾನೂನುಬದ್ಧ ಬಾಧ್ಯತೆಯನ್ನು ಹೊರತುಪಡಿಸಿ ಡೇಟಾವನ್ನು ಮೂರನೇ ವ್ಯಕ್ತಿಗಳಿಗೆ ಸಂವಹನ ಮಾಡಲಾಗುವುದಿಲ್ಲ.
  5. ಡೇಟಾ ಸಂಗ್ರಹಣೆ: ಆಕ್ಸೆಂಟಸ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು (ಇಯು) ಹೋಸ್ಟ್ ಮಾಡಿದ ಡೇಟಾಬೇಸ್
  6. ಹಕ್ಕುಗಳು: ಯಾವುದೇ ಸಮಯದಲ್ಲಿ ನೀವು ನಿಮ್ಮ ಮಾಹಿತಿಯನ್ನು ಮಿತಿಗೊಳಿಸಬಹುದು, ಮರುಪಡೆಯಬಹುದು ಮತ್ತು ಅಳಿಸಬಹುದು.