მათ გამოუშვეს Whisper-ის წყაროს კოდი, მეტყველების ავტომატური ამოცნობის სისტემა

ჩურჩული

Whisper არის მეტყველების ამოცნობის ავტომატური სისტემა

პროექტი ცოტა ხნის წინ OpenAI, რომელიც ავითარებს საჯარო პროექტებს ხელოვნური ინტელექტის სფეროში, გამოაქვეყნა ახალი ამბები ხმის ამოცნობის სისტემასთან დაკავშირებული ჩურჩული, რომელიც არის ა მეტყველების ავტომატური ამოცნობის სისტემა (ASR) გაწვრთნილი იყო 680.000 საათის განმავლობაში ინტერნეტიდან შეგროვებული მრავალენოვანი, მრავალფუნქციური ზედამხედველობითი მონაცემებით.

ირწმუნებიან, რომ ინგლისური მეტყველებისთვის სისტემა უზრუნველყოფს ავტომატური ამოცნობის სანდოობას და სიზუსტეს, რომელიც ახლოსაა ადამიანის ამოცნობასთან.

ჩვენ ვაჩვენებთ, რომ ასეთი დიდი და მრავალფეროვანი მონაცემთა ნაკრების გამოყენება იწვევს აქცენტების, ფონური ხმაურის და ტექნიკური ენის უფრო მეტ გამძლეობას. გარდა ამისა, ის იძლევა ტრანსკრიფციას სხვადასხვა ენაზე, ასევე ამ ენების ინგლისურად თარგმნას. ჩვენ ვართ ღია კოდის მოდელები და დასკვნის კოდი, რომელიც ემსახურება საფუძველს სასარგებლო აპლიკაციების შესაქმნელად და მეტყველების ძლიერი დამუშავების შესახებ მომავალი კვლევისთვის.

მოდელის შესახებ (როგორც უკვე აღვნიშნეთ) ვარჯიშობდა 680 საათის განმავლობაში ხმოვანი მონაცემების შეგროვება სხვადასხვა კოლექციებიდან, რომლებიც მოიცავს სხვადასხვა ენას და საგნობრივ სფეროებს. ტრენინგში ჩართული ხმოვანი მონაცემების დაახლოებით 1/3 არის ინგლისურის გარდა სხვა ენებზე.

შემოთავაზებული სისტემა სწორად უმკლავდება სიტუაციებს, როგორიცაა აქცენტირებული გამოთქმა, ფონის ხმაურის არსებობა და ტექნიკური ჟარგონის გამოყენება. მეტყველების ტექსტში გადაწერის გარდა, სისტემას ასევე შეუძლია თარგმნოს მეტყველება თვითნებური ენიდან ინგლისურად და აღმოაჩინოს მეტყველების გამოჩენა აუდიო ნაკადში.

მოდელები სწავლობენ ორ წარმოდგენაში: მოდელი ინგლისური ენისთვის და მრავალენოვანი მოდელი, რომელიც მხარს უჭერს ესპანური, რუსული, იტალიური, გერმანული, იაპონური, უკრაინული, ბელორუსული, ჩინური და სხვა ენებს. თავის მხრივ, თითოეული ხედი დაყოფილია 5 ვარიანტად, რომლებიც განსხვავდებიან მოდელში დაფარული ზომით და პარამეტრების რაოდენობით.

Whisper-ის არქიტექტურა არის მარტივი მიდგომა ბოლოდან ბოლომდე, დანერგილი, როგორც ენკოდერ-დეკოდერი ტრანსფორმატორი. შეყვანის აუდიო იყოფა 30 წამიან ნაწილებად, გარდაიქმნება log-Mel სპექტროგრამაში და შემდეგ გადაეცემა ენკოდერს. დეკოდერს გაწვრთნილი აქვს შესაბამისი ტექსტის ქვესათაურის პროგნოზირება, სპეციალური ჟეტონებით გადაჭედილი, რომლებიც მიმართავენ უნიკალურ მოდელს ისეთი ამოცანების შესასრულებლად, როგორიცაა ენის იდენტიფიკაცია, წინადადების დონის დროის ანაბეჭდები, მრავალენოვანი მეტყველების ტრანსკრიფცია და მეტყველების თარგმნა ინგლისურად.

რაც უფრო დიდია ზომა, მით უფრო მაღალია ამოცნობის სიზუსტე და ხარისხი, მაგრამ ასევე უფრო მაღალია მოთხოვნები GPU ვიდეო მეხსიერების ზომაზე და უფრო დაბალია შესრულება. მაგალითად, მინიმალური ვარიანტი მოიცავს 39 მილიონ პარამეტრს და მოითხოვს 1 GB ვიდეო მეხსიერებას, ხოლო მაქსიმალური ვარიანტი მოიცავს 1550 მილიარდ პარამეტრს და მოითხოვს 10 GB ვიდეო მეხსიერებას. მინიმალური ვარიანტი მაქსიმუმზე 32-ჯერ უფრო სწრაფია.

სისტემა იყენებს "ტრანსფორმერის" ნერვული ქსელის არქიტექტურას, რომელიც მოიცავს ენკოდერს და დეკოდერს, რომლებიც ურთიერთქმედებენ ერთმანეთთან. აუდიო დაყოფილია 30 წამიან ნაწილებად, რომლებიც გარდაიქმნება log-Mel სპექტროგრამაში და იგზავნება ენკოდერში.

შიფრატორის მუშაობის შედეგი იგზავნება დეკოდერში, რომელიც პროგნოზირებს ტექსტის წარმოდგენას შერეულ სპეციალურ ჟეტონებთან, რომლებიც საშუალებას გაძლევთ გადაჭრას ამოცანები, როგორიცაა ენის ამოცნობა, წინადადების გამოთქმის ქრონოლოგიური აღრიცხვა, მეტყველების ტრანსკრიფცია სხვადასხვა ენაზე და ინგლისური თარგმანი ზოგად მოდელში.

აღსანიშნავია, რომ Whisper-ის შესრულება მნიშვნელოვნად განსხვავდება ენიდან გამომდინარე, ამიტომ უკეთესი გაგება არის ინგლისური, რომელსაც აქვს ოთხი ვერსია მხოლოდ ინგლისურ ენაზე, რომელიც, სხვა ენების სხვა მოდელების მსგავსად, გვთავაზობს უპირატესობებსა და ნაკლოვანებებს. სიჩქარე და სიზუსტე.

საბოლოოდ თუ თქვენ დაინტერესებული ხართ ამის შესახებ უფრო მეტის ცოდნით, შეგიძლიათ შეამოწმოთ ორიგინალური პუბლიკაცია ამ ბმულს, ხოლო თუ გაინტერესებთ წყაროს კოდი და გაწვრთნილი მოდელები შეგიძლიათ მიმართოთ მათ მისამართზე ამ ბმულზე.

PyTorch ჩარჩოზე დაფუძნებული მითითების განხორციელების კოდი და უკვე გაწვრთნილი მოდელების ნაკრები ღიაა, მზად არის გამოსაყენებლად. კოდი არის ღია კოდი MIT ლიცენზიით და აღსანიშნავია, რომ საჭიროა ffmpeg ბიბლიოთეკის გამოყენება.


სტატიის შინაარსი იცავს ჩვენს პრინციპებს სარედაქციო ეთიკა. შეცდომის შესატყობინებლად დააჭირეთ ღილაკს აქ.

იყავი პირველი კომენტარი

დატოვე კომენტარი

თქვენი ელფოსტის მისამართი გამოქვეყნებული არ იყო.

*

*

  1. მონაცემებზე პასუხისმგებელი: მიგელ ანგელ გატონი
  2. მონაცემთა მიზანი: სპამის კონტროლი, კომენტარების მართვა.
  3. ლეგიტიმაცია: თქვენი თანხმობა
  4. მონაცემთა კომუნიკაცია: მონაცემები არ გადაეცემა მესამე პირებს, გარდა სამართლებრივი ვალდებულებისა.
  5. მონაცემთა შენახვა: მონაცემთა ბაზა, რომელსაც უმასპინძლა Occentus Networks (EU)
  6. უფლებები: ნებისმიერ დროს შეგიძლიათ შეზღუდოთ, აღადგინოთ და წაშალოთ თქვენი ინფორმაცია.