አውቶማቲክ የንግግር ማወቂያ ስርዓት የሆነውን የሹክሹክታ ምንጭ ኮድ አውጥተዋል።

አሾከሾከ

ሹክሹክታ አውቶማቲክ የንግግር ማወቂያ ስርዓት ነው።

ፕሮጀክቱ በቅርቡ OpenAIበአርቴፊሻል ኢንተለጀንስ መስክ የህዝብ ፕሮጀክቶችን የሚያዳብር ፣ ዜና አውጥቷል። ከድምጽ ማወቂያ ስርዓት ጋር የተያያዘ ሹክሹክታ፣ ይህም ሀ ራስ-ሰር የንግግር ማወቂያ ስርዓት (ASR) በ680.000 ሰአታት የብዙ ቋንቋ ተናጋሪዎች፣ ከድር በተሰበሰቡ ብዙ ተግባራት ክትትል የሚደረግበት መረጃ ላይ የሰለጠኑ።

ለእንግሊዘኛ ንግግር ስርዓቱ በራስ-ሰር የማወቂያ አስተማማኝነት እና ለሰው እውቅና ቅርብ የሆኑ ትክክለኛነትን ደረጃ ይሰጣል ተብሏል።

ይህን የመሰለ ትልቅ እና የተለያየ የውሂብ ስብስብ መጠቀማችን ወደ ዘዬዎች፣ ከበስተጀርባ ጫጫታ እና ቴክኒካዊ ቋንቋ የበለጠ ጥንካሬ እንደሚያመጣ እናሳያለን። በተጨማሪም፣ በተለያዩ ቋንቋዎች መገልበጥ፣ እንዲሁም እነዚያን ቋንቋዎች ወደ እንግሊዝኛ መተርጎም ያስችላል። ጠቃሚ አፕሊኬሽኖችን ለመገንባት እና በጠንካራ የንግግር ሂደት ላይ ለወደፊቱ ምርምር መሰረት የሚሆኑ ክፍት ምንጭ ሞዴሎች እና የማጣቀሻ ኮድ ነን።

ስለ ሞዴሉ (ቀደም ሲል እንደተጠቀሰው) 680 ሰአታት በመጠቀም የሰለጠኑ የተለያዩ ቋንቋዎችን እና ርዕሰ ጉዳዮችን የሚሸፍኑ ከተለያዩ ስብስቦች የተሰበሰበ የድምፅ መረጃ። በስልጠና ውስጥ ከሚሳተፉት የድምጽ መረጃዎች ውስጥ 1/3 ያህሉ ከእንግሊዝኛ ውጪ ባሉ ቋንቋዎች ነው።

የታቀደው ስርዓት እንደ አነጋገር አጠራር ያሉ ሁኔታዎችን በትክክል ይቆጣጠራል ፣ የጀርባ ጫጫታ መገኘት እና የቴክኒካዊ ጃርጎን አጠቃቀም. ስርዓቱ ንግግርን ወደ ጽሑፍ ከመገልበጥ በተጨማሪ ንግግርን በዘፈቀደ ቋንቋ ወደ እንግሊዘኛ መተርጎም እና የንግግርን ገጽታ በድምጽ ዥረቱ ውስጥ መለየት ይችላል።

ሞዴሎች በሁለት ውክልና የሰለጠኑ ናቸው፡ የእንግሊዝኛ ቋንቋ ሞዴል እና ስፓኒሽ፣ ሩሲያኛ፣ ጣሊያንኛ፣ ጀርመንኛ፣ ጃፓንኛ፣ ዩክሬንኛ፣ ቤላሩስኛ፣ ቻይንኛ እና ሌሎች ቋንቋዎችን የሚደግፍ ባለብዙ ቋንቋ ሞዴል። በምላሹ, እያንዳንዱ እይታ በ 5 አማራጮች ይከፈላል, ይህም በአምሳያው ውስጥ በተሸፈነው መጠን እና ብዛት ይለያያል.

የዊስፐር አርክቴክቸር እንደ ኢንኮደር ዲኮደር ትራንስፎርመር የሚተገበረ ቀላል ከጫፍ እስከ ጫፍ አቀራረብ ነው። የግብአት ኦዲዮው ወደ 30 ሰከንድ ክፍሎች ተከፍሏል፣ ወደ ሎግ-ሜል ስፔክትሮግራም ይቀየራል እና ወደ ኢንኮደር ይተላለፋል። ዲኮደር ተጓዳኙን የጽሑፍ ንዑስ ርዕስ ለመተንበይ የሰለጠነው፣ ልዩውን ሞዴል የሚመሩ እንደ ቋንቋ መለየት፣ የዓረፍተ ነገር ደረጃ የጊዜ ማህተም፣ የብዙ ቋንቋ የንግግር ግልባጭ እና የእንግሊዘኛ ንግግር ትርጉም ያሉ ተግባራትን እንዲፈጽም በሚያደርጉ ልዩ ምልክቶች የተጠላለፈ ነው።

ትልቅ መጠን, የመታወቂያው ትክክለኛነት እና ጥራት ከፍ ያለ ነው, ነገር ግን ለጂፒዩ ቪዲዮ ማህደረ ትውስታ መጠን ከፍተኛ መስፈርቶች እና አፈፃፀሙ ይቀንሳል. ለምሳሌ ዝቅተኛው አማራጭ 39 ሚሊዮን መለኪያዎችን ያካተተ ሲሆን 1 ጂቢ የቪዲዮ ማህደረ ትውስታ ያስፈልገዋል, ከፍተኛው አማራጭ 1550 ቢሊዮን መለኪያዎችን ያካተተ እና 10 ጂቢ የቪዲዮ ማህደረ ትውስታ ያስፈልገዋል. ዝቅተኛው ተለዋጭ ከከፍተኛው 32 ጊዜ ፈጣን ነው።

ስርዓቱ "ትራንስፎርመር" የነርቭ አውታረ መረብ አርክቴክቸር ይጠቀማል, እርስ በርስ የሚገናኙ ኢንኮደር እና ዲኮደርን ያካትታል. ኦዲዮው በ30 ሰከንድ ክፍሎች የተከፈለ ነው፣ እነዚህም ወደ ሎግ-ሜል ስፔክትሮግራም ተለውጠው ወደ ኢንኮደር ይላካሉ።

የመቀየሪያው ሥራ ውጤት ወደ ዲኮደር ይላካልእንደ ቋንቋ ፈልጎ፣ የዓረፍተ ነገር አጠራር የጊዜ ቅደም ተከተላቸው፣ በተለያዩ ቋንቋዎች የንግግር ግልባጭ እና የእንግሊዝኛ ትርጉም ያሉ ሥራዎችን ለመፍታት ከሚያስችሉ ልዩ ምልክቶች ጋር የተቀላቀለ የጽሑፍ ውክልና ይተነብያል።

የሹክሹክታ አፈጻጸም እንደ ቋንቋው በእጅጉ እንደሚለያይ መጥቀስ ተገቢ ነው፣ ስለዚህ የተሻለ ግንዛቤን የሚያቀርበው እንግሊዘኛ ነው፣ በእንግሊዝኛ ብቻ አራት ቅጂዎች ያሉት፣ ይህም እንደሌሎች ቋንቋዎች ሞዴሎች ጥቅሙንና ጉዳቱን የሚያቀርብ ነው። ፍጥነት እና ትክክለኛነት.

በመጨረሻ ስለእሱ የበለጠ ለማወቅ ፍላጎት ካለዎት ፣ ውስጥ የመጀመሪያውን ህትመት ማረጋገጥ ይችላሉ ይህ አገናኝየምንጭ ኮድ እና የሰለጠኑ ሞዴሎች ላይ ፍላጎት ካሎት እነሱን ማማከር ይችላሉ። ይህ አገናኝ

በፓይቶርች ማዕቀፍ ላይ የተመሰረተ የማጣቀሻ ትግበራ ኮድ እና ቀደም ሲል የሰለጠኑ ሞዴሎች ክፍት ናቸው, ለመጠቀም ዝግጁ ናቸው. ኮዱ በ MIT ፈቃድ ስር ክፍት ምንጭ ነው እና የffmpeg ቤተ-መጽሐፍትን መጠቀም እንደሚያስፈልግ መጥቀስ ተገቢ ነው።


የጽሑፉ ይዘት የእኛን መርሆዎች ያከብራል የአርትዖት ሥነ ምግባር. የስህተት ጠቅ ለማድረግ እዚህ.

አስተያየት ለመስጠት የመጀመሪያው ይሁኑ

አስተያየትዎን ይተው

የእርስዎ ኢሜይል አድራሻ ሊታተም አይችልም.

*

*

  1. ለመረጃው ኃላፊነት ያለው: ሚጌል Áንጌል ጋቶን
  2. የመረጃው ዓላማ-ቁጥጥር SPAM ፣ የአስተያየት አስተዳደር ፡፡
  3. ህጋዊነት-የእርስዎ ፈቃድ
  4. የመረጃው ግንኙነት-መረጃው በሕጋዊ ግዴታ ካልሆነ በስተቀር ለሶስተኛ ወገኖች አይተላለፍም ፡፡
  5. የውሂብ ማከማቻ በኦክሴንትስ አውታረመረቦች (አውሮፓ) የተስተናገደ የውሂብ ጎታ
  6. መብቶች-በማንኛውም ጊዜ መረጃዎን መገደብ ፣ መልሰው ማግኘት እና መሰረዝ ይችላሉ ፡፡