PolyCoder, ಕೋಡೆಕ್ಸ್ ಅನ್ನು ಮೀರಿಸುವ AI ಅನ್ನು ಉತ್ಪಾದಿಸುವ ಮುಕ್ತ ಮೂಲ ಕೋಡ್ 

ಲೇಖಕ: @Laurent - Fotolia.com

ಪ್ರಸ್ತುತ, ನಾವು ಹೆಚ್ಚಳವನ್ನು ನೋಡಲು ಪ್ರಾರಂಭಿಸಿದ್ದೇವೆ ಗೆ ಸಂಬಂಧಿಸಿದಂತೆ ಅವರು ನೀಡಲು ಪ್ರಾರಂಭಿಸಿರುವ ವಿಭಿನ್ನ ಪರಿಹಾರಗಳು ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಕೋಡ್ ಉತ್ಪಾದನೆ (AI) ಮತ್ತು ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣೆಯ ಕ್ಷೇತ್ರವು (NLP) ವಿವಿಧ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಗಳಲ್ಲಿ ಕೋಡ್-ಉತ್ಪಾದಿಸುವ AI ಗಳ ಸರಣಿಗೆ ದಾರಿ ಮಾಡಿಕೊಟ್ಟಿದೆ.

ಅವುಗಳಲ್ಲಿ ನಾವು ಉದಾಹರಣೆಗೆ GitHub Copilot, AlphaCode ಮತ್ತು ಕೋಡೆಕ್ಸ್ ಅನ್ನು ಹೈಲೈಟ್ ಮಾಡಬಹುದು ಮತ್ತು ನಾವು ಈಗ ಕೈಯಿಂದ ಹೊಸ ಪರಿಹಾರವನ್ನು ಸೇರಿಸಬಹುದು ಕಾರ್ನೆಗೀ ಮೆಲಾನ್ ವಿಶ್ವವಿದ್ಯಾಲಯದ ಸಂಶೋಧಕರು ಯಾರು ಇತ್ತೀಚೆಗೆ ಪರಿಚಯಿಸಲಾದ "ಪಾಲಿಕೋಡರ್", 2 ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಗಳಲ್ಲಿ 249 GB ಕೋಡ್ ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿ ತರಬೇತಿ ಪಡೆದ OpenAI ನ GPT-12 ಭಾಷಾ ಮಾದರಿಯನ್ನು ಆಧರಿಸಿದ ಕೋಡ್ ಜನರೇಟರ್.

ಪಾಲಿಕೋಡರ್ ಬಗ್ಗೆ

PolyCoder ನ ಲೇಖಕರು ಇದು ಎಂದು ಹೇಳಿಕೊಳ್ಳುತ್ತಾರೆ ಕೋಡೆಕ್ಸ್ ಸೇರಿದಂತೆ ಯಾವುದೇ ತಿಳಿದಿರುವ ಮಾದರಿಗಿಂತ ಹೆಚ್ಚು ನಿಖರವಾಗಿ ಸಿ ಬರೆಯುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿದೆ.

ಕೋಡ್ ಉತ್ಪಾದಿಸುವ AI, ವಿವಿಧ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಗಳಲ್ಲಿ ಮೂಲ ಕೋಡ್ ಬರೆಯಬಹುದು ಬ್ಯಾಟ್‌ನಿಂದಲೇ, ಡೆವಲಪರ್‌ಗಳು ಕಡಿಮೆ ಪುನರಾವರ್ತಿತ, ಸೃಜನಾತ್ಮಕ ಕಾರ್ಯಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುವಾಗ ಸಾಫ್ಟ್‌ವೇರ್ ಅಭಿವೃದ್ಧಿ ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಇದು ಭರವಸೆ ನೀಡುತ್ತದೆ.

PolyCoder ವಿವಿಧ GitHub ರೆಪೊಸಿಟರಿಗಳಿಂದ ದತ್ತಾಂಶದಿಂದ ಚಾಲಿತವಾಗಿದ್ದು, 12 ಜನಪ್ರಿಯ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಗಳನ್ನು ಒಳಗೊಂಡಿದೆ: C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala, ಮತ್ತು TypeScript.

ಫಿಲ್ಟರ್ ಮಾಡದ ಡೇಟಾ ಸೆಟ್ ಒಟ್ಟು 631 GB ಡೇಟಾ ಮತ್ತು 38,9 ಮಿಲಿಯನ್ ಫೈಲ್‌ಗಳನ್ನು ಹೊಂದಿದೆ. ಎಂದು ತಂಡ ಹೇಳಿದೆ ಬಜೆಟ್ ನಿರ್ಬಂಧಗಳ ಕಾರಣದಿಂದಾಗಿ GPT-2 ನೊಂದಿಗೆ PolyCoder ಅನ್ನು ತರಬೇತಿ ಮಾಡಲು ಆಯ್ಕೆಮಾಡಿದೆ. PolyCoder ಮುಕ್ತ ಮೂಲವಾಗಿ ಲಭ್ಯವಿದೆ, ಮತ್ತು ಸಂಶೋಧಕರು ಇದು AI ಕೋಡ್ ಉತ್ಪಾದನೆಯ ಕ್ಷೇತ್ರದಲ್ಲಿ ಸಂಶೋಧನೆಯನ್ನು ಪ್ರಜಾಪ್ರಭುತ್ವಗೊಳಿಸಬಹುದು ಎಂದು ಭಾವಿಸುತ್ತಾರೆ, ಇದು ಇಲ್ಲಿಯವರೆಗೆ ಉತ್ತಮ-ಧನಸಹಾಯದ ಕಂಪನಿಗಳಿಂದ ಪ್ರಾಬಲ್ಯ ಹೊಂದಿದೆ.

ಪಾಲಿಕೋಡರ್ ಎಂದು ಸಂಶೋಧಕರು ನಂಬಿದ್ದಾರೆ ಸಿ ಭಾಷೆಯಲ್ಲಿ ಕೋಡ್ ಅನ್ನು ರಚಿಸುವಲ್ಲಿ ಇದು ಇತರ ಮಾದರಿಗಳಿಗಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಆದಾಗ್ಯೂ, ಕೋಡೆಕ್ಸ್ ಯಾವಾಗಲೂ ಇತರ ಭಾಷೆಗಳಲ್ಲಿ ಅದನ್ನು ಮೀರಿಸಿದೆ. "PolyCoder ನಾಟಕೀಯವಾಗಿ C ಭಾಷೆಯಲ್ಲಿ ಕೋಡೆಕ್ಸ್ ಮತ್ತು ಎಲ್ಲಾ ಇತರ ಮಾದರಿಗಳನ್ನು ಮೀರಿಸುತ್ತದೆ.

"ಕಳೆದ ಬೇಸಿಗೆಯಲ್ಲಿ Copilot GitHub ನಲ್ಲಿ ಹೊರಬಂದಾಗ, ಈ ದೊಡ್ಡ ಭಾಷಾ ಕೋಡ್ ಮಾದರಿಗಳು ಡೆವಲಪರ್‌ಗಳಿಗೆ ಸಹಾಯ ಮಾಡಲು ಮತ್ತು ಅವರ ಉತ್ಪಾದಕತೆಯನ್ನು ಹೆಚ್ಚಿಸಲು ತುಂಬಾ ಉಪಯುಕ್ತವಾಗಿದೆ ಎಂಬುದು ಸ್ಪಷ್ಟವಾಯಿತು. ಆದರೆ ಆ ಪ್ರಮಾಣಕ್ಕೆ ಹತ್ತಿರವಿರುವ ಯಾವುದೇ ಮಾದರಿ ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿಲ್ಲ" ಎಂದು ಸಂಶೋಧಕರು ವೆಂಚರ್‌ಬೀಟ್‌ಗೆ ಇಮೇಲ್ ಮೂಲಕ ತಿಳಿಸಿದ್ದಾರೆ. "ಆದ್ದರಿಂದ [ಪಾಲಿಕೋಡರ್] ​​ವಿನ್ಸೆಂಟ್ ನಮ್ಮ ಲ್ಯಾಬ್ ಸರ್ವರ್‌ನಲ್ಲಿ ತರಬೇತಿ ನೀಡಬಹುದಾದ ಅತಿದೊಡ್ಡ ಮಾದರಿ ಯಾವುದು ಎಂದು ಲೆಕ್ಕಾಚಾರ ಮಾಡಲು ಪ್ರಾರಂಭಿಸಿತು, ಅದು 2700 ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳಾಗಿ ಕೊನೆಗೊಂಡಿತು ... ಮತ್ತು ಆ ಮಾದರಿಯು ನಾವು ಹೊಂದಿದ್ದ ಇತರ ಕೋಡ್-ಆಧಾರಿತ ಮಾದರಿಗಳಿಗಿಂತ ಮುಂದಿದೆ. ಆ ಸಮಯದಲ್ಲಿ ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿತ್ತು.

ತೆರೆದ ಮೂಲ ಮಾದರಿಗಳನ್ನು ಮಾತ್ರ ಹೋಲಿಸಿದಾಗ, ಪಾಲಿಕೋಡರ್ ಸಿ, ಜಾವಾಸ್ಕ್ರಿಪ್ಟ್, ರಸ್ಟ್, ಸ್ಕಾಲಾ ಮತ್ತು ಟೈಪ್‌ಸ್ಕ್ರಿಪ್ಟ್‌ನಲ್ಲಿ ಅದೇ ಗಾತ್ರದ ಜಿಪಿಟಿ-ನಿಯೋ 2.7 ಬಿ ಮಾದರಿಯನ್ನು ಮೀರಿಸುತ್ತದೆ." ಅವರು ಸೂಚಿಸುತ್ತಾರೆ "ಇತರ 11 ಭಾಷೆಗಳಲ್ಲಿ, ನಮ್ಮದೇ ಸೇರಿದಂತೆ ಎಲ್ಲಾ ಇತರ ಮುಕ್ತ ಮೂಲ ಮಾದರಿಗಳು ಕೋಡೆಕ್ಸ್‌ಗಿಂತ ಗಮನಾರ್ಹವಾಗಿ ಕೆಟ್ಟದಾಗಿದೆ (ಹೆಚ್ಚಿನ ಗೊಂದಲ)" ಎಂದು CMU ಸಂಶೋಧಕರು ಸೇರಿಸಿದ್ದಾರೆ.

ಇದರೊಂದಿಗೆ, PolyCoder ಅನ್ನು ಬಹಳ ಆಸಕ್ತಿದಾಯಕ ಪರಿಹಾರವಾಗಿ ಇರಿಸಲಾಗಿದೆ, ಏಕೆಂದರೆ Elon Musk's OpenAI ಮತ್ತು Alphabet's DeepMind ನಂತಹ ಸಂಶೋಧನಾ ಪ್ರಯೋಗಾಲಯಗಳು ಶಕ್ತಿಯುತವಾದ ಕೋಡ್-ಉತ್ಪಾದಿಸುವ AI ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿವೆ, ಅನೇಕ ಯಶಸ್ವಿ ವ್ಯವಸ್ಥೆಗಳು ತೆರೆದ ಮೂಲದಲ್ಲಿ ಲಭ್ಯವಿಲ್ಲ. ಕಡಿಮೆ ಆದಾಯದ ಕಂಪನಿಗಳು ಇದಕ್ಕೆ ಪ್ರವೇಶವನ್ನು ಹೊಂದಿಲ್ಲ ಮತ್ತು ಈ ಪರಿಸ್ಥಿತಿಯು ಕ್ಷೇತ್ರದಲ್ಲಿ ಅವರ ಸಂಶೋಧನೆಯನ್ನು ಮಿತಿಗೊಳಿಸುತ್ತದೆ.

ಉದಾಹರಣೆಗೆ, ಗಿಟ್‌ಹಬ್‌ನ ಕಾಪಿಲೋಟ್ ವೈಶಿಷ್ಟ್ಯಕ್ಕೆ ಶಕ್ತಿ ನೀಡುವ OpenAI ಕೋಡೆಕ್ಸ್‌ನಿಂದ ತರಬೇತಿ ಡೇಟಾವನ್ನು ಸಾರ್ವಜನಿಕಗೊಳಿಸಲಾಗಿಲ್ಲ, ಸಂಶೋಧಕರು AI ಮಾದರಿಯನ್ನು ಪರಿಷ್ಕರಿಸುವುದರಿಂದ ಅಥವಾ ಅದರ ಕೆಲವು ಅಂಶಗಳನ್ನು ಅಧ್ಯಯನ ಮಾಡುವುದನ್ನು ತಡೆಯುತ್ತದೆ, ಉದಾಹರಣೆಗೆ ಇಂಟರ್‌ಆಪರೇಬಿಲಿಟಿ.

"ದೊಡ್ಡ ಟೆಕ್ ಕಂಪನಿಗಳು ತಮ್ಮ ಮಾದರಿಗಳನ್ನು ಸಾರ್ವಜನಿಕವಾಗಿ ಬಿಡುಗಡೆ ಮಾಡುತ್ತಿಲ್ಲ, ಇದು ನಿಜವಾಗಿಯೂ ವೈಜ್ಞಾನಿಕ ಸಂಶೋಧನೆ ಮತ್ತು ಅಂತಹ ದೊಡ್ಡ ಭಾಷಾ ಕೋಡ್ ಮಾದರಿಗಳ ಪ್ರಜಾಪ್ರಭುತ್ವೀಕರಣವನ್ನು ತಡೆಹಿಡಿಯುತ್ತಿದೆ" ಎಂದು ಸಂಶೋಧಕರು ಹೇಳಿದ್ದಾರೆ. "ಸ್ವಲ್ಪ ಮಟ್ಟಿಗೆ, ನಮ್ಮ ತೆರೆದ ಮೂಲ ಪ್ರಯತ್ನಗಳು ಇತರರನ್ನು ಅದೇ ರೀತಿ ಮಾಡಲು ಮನವೊಲಿಸುತ್ತದೆ ಎಂದು ನಾವು ಭಾವಿಸುತ್ತೇವೆ. ಆದರೆ ದೊಡ್ಡ ಚಿತ್ರವೆಂದರೆ ಸಮುದಾಯವು ಈ ಮಾದರಿಗಳನ್ನು ಸ್ವಂತವಾಗಿ ತರಬೇತಿ ಮಾಡಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ. ನಮ್ಮ ಮಾದರಿಯು ಒಂದೇ ಸರ್ವರ್‌ನಲ್ಲಿ ನೀವು ತರಬೇತಿ ನೀಡಬಹುದಾದ ಮಿತಿಯನ್ನು ತಳ್ಳಿದೆ - ಯಾವುದಕ್ಕೂ ದೊಡ್ಡದಾದ ಸರ್ವರ್‌ಗಳ ಪೂಲ್ ಅಗತ್ಯವಿರುತ್ತದೆ, ಇದು ನಾಟಕೀಯವಾಗಿ ವೆಚ್ಚವನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.

ಅಂತಿಮವಾಗಿ ನೀವು ಅದರ ಬಗ್ಗೆ ಇನ್ನಷ್ಟು ತಿಳಿದುಕೊಳ್ಳಲು ಆಸಕ್ತಿ ಹೊಂದಿದ್ದರೆ, ನೀವು ವಿವರಗಳನ್ನು ಪರಿಶೀಲಿಸಬಹುದು ಕೆಳಗಿನ ಲಿಂಕ್.


ನಿಮ್ಮ ಅಭಿಪ್ರಾಯವನ್ನು ಬಿಡಿ

ನಿಮ್ಮ ಈಮೇಲ್ ವಿಳಾಸ ಪ್ರಕಟವಾದ ಆಗುವುದಿಲ್ಲ. ಅಗತ್ಯವಿರುವ ಜಾಗ ಗುರುತಿಸಲಾಗಿದೆ *

*

*

  1. ಡೇಟಾಗೆ ಜವಾಬ್ದಾರಿ: ಮಿಗುಯೆಲ್ ಏಂಜೆಲ್ ಗಟಾನ್
  2. ಡೇಟಾದ ಉದ್ದೇಶ: ನಿಯಂತ್ರಣ SPAM, ಕಾಮೆಂಟ್ ನಿರ್ವಹಣೆ.
  3. ಕಾನೂನುಬದ್ಧತೆ: ನಿಮ್ಮ ಒಪ್ಪಿಗೆ
  4. ಡೇಟಾದ ಸಂವಹನ: ಕಾನೂನುಬದ್ಧ ಬಾಧ್ಯತೆಯನ್ನು ಹೊರತುಪಡಿಸಿ ಡೇಟಾವನ್ನು ಮೂರನೇ ವ್ಯಕ್ತಿಗಳಿಗೆ ಸಂವಹನ ಮಾಡಲಾಗುವುದಿಲ್ಲ.
  5. ಡೇಟಾ ಸಂಗ್ರಹಣೆ: ಆಕ್ಸೆಂಟಸ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು (ಇಯು) ಹೋಸ್ಟ್ ಮಾಡಿದ ಡೇಟಾಬೇಸ್
  6. ಹಕ್ಕುಗಳು: ಯಾವುದೇ ಸಮಯದಲ್ಲಿ ನೀವು ನಿಮ್ಮ ಮಾಹಿತಿಯನ್ನು ಮಿತಿಗೊಳಿಸಬಹುದು, ಮರುಪಡೆಯಬಹುದು ಮತ್ತು ಅಳಿಸಬಹುದು.