NLLB, ನೇರ ಪಠ್ಯ ಅನುವಾದಕ್ಕಾಗಿ Facebook AI

ಇತ್ತೀಚೆಗೆ ಫೇಸ್‌ಬುಕ್ ಅನಾವರಣಗೊಳಿಸಿದೆ ಒಂದು ಪ್ರಕಟಣೆಯ ಮೂಲಕ ಬೆಳವಣಿಗೆಗಳು NLLB ಯೋಜನೆ (ಯಾವುದೇ ಭಾಷೆ ಉಳಿದಿಲ್ಲ), ಇದರ ಉದ್ದೇಶವು ರಚಿಸುವುದು ಅನುವಾದಕ್ಕಾಗಿ ಸಾರ್ವತ್ರಿಕ ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿ ಇಂಗ್ಲಿಷ್‌ಗೆ ಮಧ್ಯಂತರ ಅನುವಾದವನ್ನು ಬೈಪಾಸ್ ಮಾಡುವ ಮೂಲಕ ಒಂದು ಭಾಷೆಯಿಂದ ಇನ್ನೊಂದು ಭಾಷೆಗೆ ನೇರ ಪಠ್ಯ.

ಪ್ರಸ್ತಾವಿತ ಮಾದರಿ ಅಪರೂಪದ ಆಫ್ರಿಕನ್ ಮತ್ತು ಆಸ್ಟ್ರೇಲಿಯನ್ ಭಾಷೆಗಳನ್ನು ಒಳಗೊಂಡಂತೆ 200 ಕ್ಕೂ ಹೆಚ್ಚು ಭಾಷೆಗಳನ್ನು ಒಳಗೊಂಡಿದೆ ಮತ್ತು ಅವರು ಮಾತನಾಡುವ ಭಾಷೆಯನ್ನು ಲೆಕ್ಕಿಸದೆ ಎಲ್ಲಾ ಜನರಿಗೆ ಸಂವಹನ ಸಾಧನವನ್ನು ಒದಗಿಸುವುದು ಯೋಜನೆಯ ಅಂತಿಮ ಗುರಿಯಾಗಿದೆ.

ಜನರು ಇಂದು ಉತ್ತಮವಾಗಿ ಸಂಪರ್ಕ ಸಾಧಿಸಲು ಮತ್ತು ನಾಳಿನ ಮೆಟಾವರ್ಸ್‌ನ ಭಾಗವಾಗಲು ಸಹಾಯ ಮಾಡಲು, ಮೆಟಾ AI ಸಂಶೋಧಕರು ಯಾವುದೇ ಭಾಷೆ ಉಳಿದಿಲ್ಲ (NLLB) ಅನ್ನು ರಚಿಸಿದ್ದಾರೆ, ಇದು ಪ್ರಪಂಚದ ಹೆಚ್ಚಿನ ಭಾಷೆಗಳಿಗೆ ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಯಂತ್ರ ಅನುವಾದ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಪ್ರಯತ್ನವಾಗಿದೆ.

ಇಂದು ನಾವು NLLB ಯಲ್ಲಿ ಪ್ರಮುಖ ಪ್ರಗತಿಯನ್ನು ಘೋಷಿಸುತ್ತಿದ್ದೇವೆ: ನಾವು NLLB-200 ಎಂಬ ಒಂದೇ AI ಮಾದರಿಯನ್ನು ರಚಿಸಿದ್ದೇವೆ. ಇದು ಅತ್ಯಾಧುನಿಕ ಫಲಿತಾಂಶಗಳೊಂದಿಗೆ 200 ವಿವಿಧ ಭಾಷೆಗಳನ್ನು ಅನುವಾದಿಸುತ್ತದೆ. ಕಂಬಾ ಮತ್ತು ಲಾವೊದಂತಹ ಈ ಭಾಷೆಗಳಲ್ಲಿ ಹಲವು, ಇಂದು ಲಭ್ಯವಿರುವ ಅತ್ಯುತ್ತಮ ಅನುವಾದ ಪರಿಕರಗಳಿಂದ ಬೆಂಬಲಿತವಾಗಿಲ್ಲ.

ಯೋಜನೆಯ ಬಗ್ಗೆ ಅದು ಎಂದು ಉಲ್ಲೇಖಿಸಲಾಗಿದೆ ಪ್ರಸ್ತಾವಿತ ಮಾದರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಯೋಜನೆಗಳ ರಚನೆಯನ್ನು ಸರಳಗೊಳಿಸುವ ಉದ್ದೇಶವನ್ನು ಹೊಂದಿದೆ, ಮಾದರಿಗಳ ಗುಣಮಟ್ಟವನ್ನು ಪರೀಕ್ಷಿಸಲು ಮತ್ತು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಬಳಸುವ ಅಪ್ಲಿಕೇಶನ್ ಕೋಡ್ (FLORES-200, NLLB-MD, ಟಾಕ್ಸಿಸಿಟಿ-200), ಮಾದರಿ ತರಬೇತಿ ಕೋಡ್ ಮತ್ತು LASER3 ಲೈಬ್ರರಿಯನ್ನು ಆಧರಿಸಿದ ಎನ್‌ಕೋಡರ್‌ಗಳು (ಭಾಷೆಯ ಅಜ್ಞೇಯತಾವಾದಿ ಸಾಫ್ಟ್‌ವೇರ್ ಪ್ರಾತಿನಿಧ್ಯ). ಅಂತಿಮ ಮಾದರಿಯನ್ನು ಎರಡು ಆವೃತ್ತಿಗಳಲ್ಲಿ ನೀಡಲಾಗುತ್ತದೆ: ಪೂರ್ಣ ಮತ್ತು ಕಡಿಮೆ. ಕಡಿಮೆಗೊಳಿಸಿದ ಆವೃತ್ತಿಗೆ ಕಡಿಮೆ ಸಂಪನ್ಮೂಲಗಳು ಬೇಕಾಗುತ್ತವೆ ಮತ್ತು ಸಂಶೋಧನಾ ಯೋಜನೆಗಳಲ್ಲಿ ಪರೀಕ್ಷೆ ಮತ್ತು ಬಳಕೆಗೆ ಸೂಕ್ತವಾಗಿದೆ.

25 ಕ್ಕಿಂತ ಕಡಿಮೆ ಆಫ್ರಿಕನ್ ಭಾಷೆಗಳು ಪ್ರಸ್ತುತ ವ್ಯಾಪಕವಾಗಿ ಬಳಸಲಾಗುವ ಅನುವಾದ ಪರಿಕರಗಳಿಂದ ಬೆಂಬಲಿತವಾಗಿದೆ, ಅವುಗಳಲ್ಲಿ ಹಲವು ಕಳಪೆ ಗುಣಮಟ್ಟದ್ದಾಗಿವೆ. ಇದಕ್ಕೆ ವಿರುದ್ಧವಾಗಿ, NLLB-200 ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಔಟ್‌ಪುಟ್‌ನೊಂದಿಗೆ 55 ಆಫ್ರಿಕನ್ ಭಾಷೆಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ. ಒಟ್ಟಾರೆಯಾಗಿ, ಈ ಅನನ್ಯ ಮಾದರಿಯು ಪ್ರಪಂಚದಾದ್ಯಂತದ ಶತಕೋಟಿ ಜನರು ಮಾತನಾಡುವ ಭಾಷೆಗಳಿಗೆ ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ಅನುವಾದಗಳನ್ನು ಒದಗಿಸಬಹುದು. ಒಟ್ಟಾರೆಯಾಗಿ, NLLB-200 BLEU ಸ್ಕೋರ್‌ಗಳು FLORES-44 ಮಾನದಂಡದ ಎಲ್ಲಾ 10k ದಿಕ್ಕುಗಳಲ್ಲಿ ಸರಾಸರಿ 101 ಪ್ರತಿಶತದಷ್ಟು ಕಲೆಯ ಹಿಂದಿನ ಸ್ಥಿತಿಯನ್ನು ಸುಧಾರಿಸುತ್ತದೆ. ಕೆಲವು ಆಫ್ರಿಕನ್ ಮತ್ತು ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ, ಇತ್ತೀಚಿನ ಭಾಷಾಂತರ ವ್ಯವಸ್ಥೆಗಳಿಗಿಂತ ಹೆಚ್ಚಳವು ಶೇಕಡಾ 70 ಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿದೆ.

ಇತರ ಯಂತ್ರ ಕಲಿಕೆ ಅನುವಾದ ವ್ಯವಸ್ಥೆಗಳಿಗಿಂತ ಭಿನ್ನವಾಗಿ, ಎಲ್ಲಾ 200 ಭಾಷೆಗಳಿಗೆ ಸಾಮಾನ್ಯ ಮಾದರಿಯನ್ನು ನೀಡಲು Facebook ನ ಪರಿಹಾರವು ಎದ್ದು ಕಾಣುತ್ತದೆ, ಇದು ಎಲ್ಲಾ ಭಾಷೆಗಳನ್ನು ಒಳಗೊಂಡಿದೆ ಮತ್ತು ಪ್ರತಿ ಭಾಷೆಗೆ ಪ್ರತ್ಯೇಕ ಮಾದರಿಗಳ ಅಗತ್ಯವಿರುವುದಿಲ್ಲ.

ಭಾಷಾಂತರವನ್ನು ಇಂಗ್ಲಿಷ್‌ಗೆ ಮಧ್ಯಂತರ ಅನುವಾದವಿಲ್ಲದೆಯೇ ಮೂಲ ಭಾಷೆಯಿಂದ ಗುರಿ ಭಾಷೆಗೆ ನೇರವಾಗಿ ಮಾಡಲಾಗುತ್ತದೆ. ಸಾರ್ವತ್ರಿಕ ಅನುವಾದ ವ್ಯವಸ್ಥೆಗಳನ್ನು ರಚಿಸಲು, ಹೆಚ್ಚುವರಿ LID (ಭಾಷಾ ಗುರುತಿಸುವಿಕೆ) ಮಾದರಿಯನ್ನು ಪ್ರಸ್ತಾಪಿಸಲಾಗಿದೆ, ಇದು ಬಳಸಿದ ಭಾಷೆಯನ್ನು ನಿರ್ಧರಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ಆ. ಮಾಹಿತಿಯನ್ನು ಒದಗಿಸಿದ ಭಾಷೆಯನ್ನು ಸಿಸ್ಟಮ್ ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಗುರುತಿಸಬಹುದು ಮತ್ತು ಅದನ್ನು ಬಳಕೆದಾರರ ಭಾಷೆಗೆ ಅನುವಾದಿಸಬಹುದು.

ಅನುವಾದವನ್ನು ಎರಡೂ ದಿಕ್ಕಿನಲ್ಲಿ ಬೆಂಬಲಿಸಲಾಗುತ್ತದೆ, ಯಾವುದೇ 200 ಬೆಂಬಲಿತ ಭಾಷೆಗಳ ನಡುವೆ. ಯಾವುದೇ ಭಾಷೆಯ ನಡುವಿನ ಅನುವಾದದ ಗುಣಮಟ್ಟವನ್ನು ದೃಢೀಕರಿಸಲು, FLORES-200 ಬೆಂಚ್‌ಮಾರ್ಕ್ ಪರೀಕ್ಷಾ ಸೆಟ್ ಅನ್ನು ಸಿದ್ಧಪಡಿಸಲಾಗಿದೆ, ಇದು NLLB-200 ಮಾದರಿಯು ಭಾಷಾಂತರದ ಗುಣಮಟ್ಟದಲ್ಲಿ FLORES-44 ವ್ಯವಸ್ಥೆಗಳಿಗಿಂತ ಸರಾಸರಿ 70% ಉತ್ತಮವಾಗಿದೆ ಎಂದು ತೋರಿಸಿದೆ. ಯಂತ್ರ ಭಾಷಾಂತರವನ್ನು ಪ್ರಮಾಣಿತ ಮಾನವ ಅನುವಾದಕ್ಕೆ ಹೋಲಿಸುವ BLEU ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಬಳಸುವಾಗ ಯಂತ್ರ ಕಲಿಕೆಯ ಆಧಾರದ ಮೇಲೆ ಸಂಶೋಧನೆಯನ್ನು ಪ್ರಸ್ತಾಪಿಸಲಾಗಿದೆ. ಅಪರೂಪದ ಆಫ್ರಿಕನ್ ಭಾಷೆಗಳು ಮತ್ತು ಭಾರತೀಯ ಉಪಭಾಷೆಗಳಿಗೆ, ಗುಣಮಟ್ಟದಲ್ಲಿ ಶ್ರೇಷ್ಠತೆಯು XNUMX% ತಲುಪುತ್ತದೆ. ನೀವು ವಿಶೇಷವಾಗಿ ಸಿದ್ಧಪಡಿಸಿದ ಡೆಮೊ ಸೈಟ್‌ನಲ್ಲಿ ಅನುವಾದ ಗುಣಮಟ್ಟವನ್ನು ದೃಷ್ಟಿಗೋಚರವಾಗಿ ನಿರ್ಣಯಿಸಬಹುದು.

ಯೋಜನೆಯಲ್ಲಿ ಆಸಕ್ತಿ ಹೊಂದಿರುವವರಿಗೆ, ಅವರು ತಿಳಿದಿರಬೇಕು ಮಾದರಿಯು ಕ್ರಿಯೇಟಿವ್ ಕಾಮನ್ಸ್ BY-NC 4.0 ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ಲಭ್ಯವಿದೆ, ಇದು ನಿಮ್ಮ ಪ್ರಾಜೆಕ್ಟ್‌ಗಳಲ್ಲಿ ನಕಲು, ವಿತರಣೆ, ಸೇರ್ಪಡೆ ಮತ್ತು ವ್ಯುತ್ಪನ್ನ ಕೃತಿಗಳ ರಚನೆಗೆ ಅನುಮತಿ ನೀಡುತ್ತದೆ, ಆದರೆ ಗುಣಲಕ್ಷಣ, ಪರವಾನಗಿ ಧಾರಣ ಮತ್ತು ವಾಣಿಜ್ಯೇತರ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಮಾತ್ರ ಬಳಕೆಗೆ ಒಳಪಟ್ಟಿರುತ್ತದೆ. ಮಾಡೆಲಿಂಗ್ ಉಪಕರಣವು MIT ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ಪರವಾನಗಿ ಪಡೆದಿದೆ. NLLB ಮಾದರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಅಭಿವೃದ್ಧಿಯನ್ನು ಉತ್ತೇಜಿಸಲು, ಸಂಶೋಧಕರಿಗೆ ವಿದ್ಯಾರ್ಥಿವೇತನವನ್ನು ನೀಡಲು $200 ಅನ್ನು ನಿಯೋಜಿಸಲು ನಿರ್ಧರಿಸಲಾಯಿತು.

ಅಂತಿಮವಾಗಿ ನೀವು ಅದರ ಬಗ್ಗೆ ಇನ್ನಷ್ಟು ತಿಳಿದುಕೊಳ್ಳಲು ಆಸಕ್ತಿ ಹೊಂದಿದ್ದರೆ ಟಿಪ್ಪಣಿಯ ಬಗ್ಗೆ, ನೀವು ಮೂಲ ಪೋಸ್ಟ್ ಅನ್ನು ಉಲ್ಲೇಖಿಸಬಹುದು ಕೆಳಗಿನ ಲಿಂಕ್‌ನಲ್ಲಿ.


ನಿಮ್ಮ ಅಭಿಪ್ರಾಯವನ್ನು ಬಿಡಿ

ನಿಮ್ಮ ಈಮೇಲ್ ವಿಳಾಸ ಪ್ರಕಟವಾದ ಆಗುವುದಿಲ್ಲ. ಅಗತ್ಯವಿರುವ ಜಾಗ ಗುರುತಿಸಲಾಗಿದೆ *

*

*

  1. ಡೇಟಾಗೆ ಜವಾಬ್ದಾರಿ: ಮಿಗುಯೆಲ್ ಏಂಜೆಲ್ ಗಟಾನ್
  2. ಡೇಟಾದ ಉದ್ದೇಶ: ನಿಯಂತ್ರಣ SPAM, ಕಾಮೆಂಟ್ ನಿರ್ವಹಣೆ.
  3. ಕಾನೂನುಬದ್ಧತೆ: ನಿಮ್ಮ ಒಪ್ಪಿಗೆ
  4. ಡೇಟಾದ ಸಂವಹನ: ಕಾನೂನುಬದ್ಧ ಬಾಧ್ಯತೆಯನ್ನು ಹೊರತುಪಡಿಸಿ ಡೇಟಾವನ್ನು ಮೂರನೇ ವ್ಯಕ್ತಿಗಳಿಗೆ ಸಂವಹನ ಮಾಡಲಾಗುವುದಿಲ್ಲ.
  5. ಡೇಟಾ ಸಂಗ್ರಹಣೆ: ಆಕ್ಸೆಂಟಸ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು (ಇಯು) ಹೋಸ್ಟ್ ಮಾಡಿದ ಡೇಟಾಬೇಸ್
  6. ಹಕ್ಕುಗಳು: ಯಾವುದೇ ಸಮಯದಲ್ಲಿ ನೀವು ನಿಮ್ಮ ಮಾಹಿತಿಯನ್ನು ಮಿತಿಗೊಳಿಸಬಹುದು, ಮರುಪಡೆಯಬಹುದು ಮತ್ತು ಅಳಿಸಬಹುದು.