પોલીકોડર, એક ઓપન સોર્સ કોડ જે AI જનરેટ કરે છે જે કોડેક્સને પાછળ રાખી શકે છે 

લેખક: @Laurent - Fotolia.com

હાલમાં, અમે વધારો જોવાનું શરૂ કર્યું છે ના સંબંધમાં તેઓ ઓફર કરવા લાગ્યા છે તે વિવિધ ઉકેલો આર્ટિફિશિયલ ઇન્ટેલિજન્સનો ઉપયોગ કરીને કોડ જનરેશન (AI) અને તે એ છે કે નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP) ના ક્ષેત્રે વિવિધ પ્રોગ્રામિંગ ભાષાઓમાં કોડ-જનરેટિંગ AI ની શ્રેણી માટે માર્ગ મોકળો કર્યો છે.

જેમાંથી અમે GitHub Copilot, AlphaCode અને Codex ઉદાહરણ તરીકે હાઇલાઇટ કરી શકીએ છીએ અને જેમાં હવે આપણે ના હાથમાંથી એક નવું સોલ્યુશન ઉમેરી શકીએ છીએ કાર્નેગી મેલોન યુનિવર્સિટીના સંશોધકો કોણ તાજેતરમાં "પોલીકોડર" રજૂ કર્યું, OpenAI ના GPT-2 ભાષા મોડેલ પર આધારિત કોડ જનરેટર કે જેને 249 પ્રોગ્રામિંગ ભાષાઓમાં 12 GB કોડ ડેટાબેઝ પર તાલીમ આપવામાં આવી હતી.

પોલીકોડર વિશે

પોલીકોડરના લેખકો દાવો કરે છે કે તે છે કોડેક્સ સહિત કોઈપણ જાણીતા મોડલ કરતાં વધુ સચોટ રીતે C લખવામાં સક્ષમ.

AI જનરેટ કરતો કોડ, વિવિધ પ્રોગ્રામિંગ ભાષાઓમાં સોર્સ કોડ લખી શકે છે બેટથી જ, તે સોફ્ટવેર ડેવલપમેન્ટ ખર્ચ ઘટાડવાનું વચન આપે છે જ્યારે વિકાસકર્તાઓને ઓછા પુનરાવર્તિત, સર્જનાત્મક કાર્યો પર ધ્યાન કેન્દ્રિત કરવાની મંજૂરી આપે છે.

PolyCoder વિવિધ GitHub ભંડારમાંથી ડેટા દ્વારા સંચાલિત હતું, જેમાં 12 લોકપ્રિય પ્રોગ્રામિંગ ભાષાઓ આવરી લેવામાં આવી હતી: C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala, અને TypeScript.

અનફિલ્ટર કરેલ ડેટા સેટમાં કુલ 631 GB ડેટા અને 38,9 મિલિયન ફાઇલો હતી. તેમ ટીમે જણાવ્યું હતું બજેટની મર્યાદાઓને કારણે પોલીકોડરને GPT-2 સાથે તાલીમ આપવાનું પસંદ કર્યું. પોલીકોડર ઓપન સોર્સ તરીકે ઉપલબ્ધ છે અને સંશોધકોને આશા છે કે તે AI કોડ જનરેશનના ક્ષેત્રમાં સંશોધનનું લોકશાહીકરણ કરી શકે છે, જે અત્યાર સુધી સારી રીતે ભંડોળ ધરાવતી કંપનીઓ દ્વારા પ્રભુત્વ ધરાવે છે.

સંશોધકો માને છે કે પોલીકોડર તે C ભાષામાં કોડ જનરેટ કરવામાં અન્ય મોડલ કરતાં વધુ સારી રીતે કામ કરે છે. જો કે, કોડેક્સે હંમેશા અન્ય ભાષાઓમાં તેને પાછળ છોડી દીધું છે. "પોલીકોડર નાટકીય રીતે C ભાષામાં કોડેક્સ અને અન્ય તમામ મોડલ્સને પાછળ રાખી દે છે.

“જ્યારે કોપાયલોટ ગયા ઉનાળામાં GitHub પર આવ્યા, ત્યારે તે સ્પષ્ટ થઈ ગયું કે આ ખૂબ મોટા ભાષા કોડ મોડલ વિકાસકર્તાઓને મદદ કરવા અને તેમની ઉત્પાદકતા વધારવામાં ખૂબ જ ઉપયોગી થઈ શકે છે. પરંતુ તે સ્કેલની નજીકનું કોઈ મોડેલ પણ સાર્વજનિક રૂપે ઉપલબ્ધ નહોતું," સંશોધકોએ વેન્ચરબીટને ઇમેઇલ દ્વારા જણાવ્યું હતું. “તેથી [PolyCoder] વિન્સેન્ટે અમારા લેબ સર્વર પર પ્રશિક્ષિત કરી શકાય તેવું સૌથી મોટું મોડેલ કયું હતું તે શોધવાનો પ્રયાસ કર્યો, જે 2700 બિલિયન પેરામીટર્સ સાથે સમાપ્ત થયું… અને તે મોડેલ અમારી પાસે હતા તેવા અન્ય કોડ-ઓરિએન્ટેડ મોડલ્સ કરતાં આગળ હતું. તે સમયે સાર્વજનિક રૂપે ઉપલબ્ધ હતા."

માત્ર ઓપન સોર્સ મોડલની સરખામણી કરતી વખતે, PolyCoder C, JavaScript, Rust, Scala અને TypeScript માં સમાન કદના GPT-Neo 2.7B મોડલને પાછળ રાખી દે છે." તેઓ નિર્દેશ કરે છે "અન્ય 11 ભાષાઓમાં, અમારા પોતાના સહિત અન્ય તમામ ઓપન સોર્સ મોડલ, કોડેક્સ કરતાં નોંધપાત્ર રીતે ખરાબ (વધુ મૂંઝવણ) છે," CMU સંશોધકોએ ઉમેર્યું.

આ સાથે, પોલિકોડરને ખૂબ જ રસપ્રદ ઉકેલ તરીકે સ્થાન આપવામાં આવ્યું છે, કારણ કે જ્યારે એલોન મસ્કની ઓપનએઆઈ અને આલ્ફાબેટની ડીપમાઇન્ડ જેવી સંશોધન પ્રયોગશાળાઓએ શક્તિશાળી કોડ-જનરેટિંગ AI વિકસાવી છે, ત્યારે ઘણી સફળ સિસ્ટમો ઓપન સોર્સમાં ઉપલબ્ધ નથી. ઓછી આવક ધરાવતી કંપનીઓ પાસે તેની ઍક્સેસ નથી અને આ પરિસ્થિતિ તેમના ક્ષેત્રમાં સંશોધનને મર્યાદિત કરે છે.

ઉદાહરણ તરીકે, ઓપનએઆઈ કોડેક્સનો તાલીમ ડેટા, જે ગિટહબની કોપાયલોટ સુવિધાને શક્તિ આપે છે, તેને સાર્વજનિક કરવામાં આવ્યો નથી, જે સંશોધકોને AI મોડલને રિફાઈન કરવાથી અથવા તેના અમુક પાસાઓનો અભ્યાસ કરતા અટકાવે છે, જેમ કે આંતર કાર્યક્ષમતા.

"મોટી ટેક કંપનીઓ તેમના મોડલને સાર્વજનિક રીતે બહાર પાડી રહી નથી, જે ખરેખર વૈજ્ઞાનિક સંશોધન અને આવા મોટા ભાષા કોડ મોડલના લોકશાહીકરણને રોકી રહી છે," સંશોધકોએ જણાવ્યું હતું. "કેટલાક અંશે, અમે આશા રાખીએ છીએ કે અમારા ઓપન સોર્સ પ્રયાસો અન્ય લોકોને પણ આવું કરવા માટે સહમત કરશે. પરંતુ મોટું ચિત્ર એ છે કે સમુદાયે આ મોડેલોને પોતાની રીતે તાલીમ આપવા સક્ષમ હોવા જોઈએ. અમારા મૉડેલે તમે એક સર્વર પર શું તાલીમ આપી શકો તેની મર્યાદાને આગળ ધપાવી છે - કોઈપણ મોટા માટે સર્વર્સના પૂલની જરૂર છે, જે નાટકીય રીતે ખર્ચમાં વધારો કરે છે.

છેલ્લે જો તમને તેના વિશે વધુ જાણવામાં રસ છે, તમે માં વિગતો ચકાસી શકો છો નીચેની કડી


તમારી ટિપ્પણી મૂકો

તમારું ઇમેઇલ સરનામું પ્રકાશિત કરવામાં આવશે નહીં. આવશ્યક ક્ષેત્રો સાથે ચિહ્નિત થયેલ છે *

*

*

  1. ડેટા માટે જવાબદાર: મિગ્યુએલ gelંજેલ ગેટóન
  2. ડેટાનો હેતુ: નિયંત્રણ સ્પામ, ટિપ્પણી સંચાલન.
  3. કાયદો: તમારી સંમતિ
  4. ડેટાની વાતચીત: કાયદાકીય જવાબદારી સિવાય ડેટા તૃતીય પક્ષને આપવામાં આવશે નહીં.
  5. ડેટા સ્ટોરેજ: cસેન્ટસ નેટવર્ક્સ (ઇયુ) દ્વારા હોસ્ટ કરેલો ડેટાબેઝ
  6. અધિકાર: કોઈપણ સમયે તમે તમારી માહિતીને મર્યાદિત, પુન recoverપ્રાપ્ત અને કા deleteી શકો છો.