ਉਹਨਾਂ ਨੇ ਵਿਸਪਰ ਦਾ ਸਰੋਤ ਕੋਡ ਜਾਰੀ ਕੀਤਾ, ਇੱਕ ਆਟੋਮੈਟਿਕ ਬੋਲੀ ਪਛਾਣ ਪ੍ਰਣਾਲੀ

ਫੁਸਲਾ

ਵਿਸਪਰ ਇੱਕ ਆਟੋਮੈਟਿਕ ਬੋਲੀ ਪਛਾਣ ਪ੍ਰਣਾਲੀ ਹੈ

ਪ੍ਰੋਜੈਕਟ ਹਾਲ ਹੀ ਵਿੱਚ ਓਪਨਏਆਈ, ਜੋ ਨਕਲੀ ਬੁੱਧੀ ਦੇ ਖੇਤਰ ਵਿੱਚ ਜਨਤਕ ਪ੍ਰੋਜੈਕਟਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਦਾ ਹੈ, ਖਬਰ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤੀ ਹੈ ਆਵਾਜ਼ ਪਛਾਣ ਸਿਸਟਮ ਨਾਲ ਸਬੰਧਤ ਘੁਸਰ-ਮੁਸਰ, ਜੋ ਕਿ ਏ ਆਟੋਮੈਟਿਕ ਸਪੀਚ ਰਿਕੋਗਨੀਸ਼ਨ ਸਿਸਟਮ (ASR) ਵੈੱਬ ਤੋਂ ਇਕੱਠੇ ਕੀਤੇ ਗਏ 680.000 ਘੰਟਿਆਂ ਦੇ ਬਹੁ-ਭਾਸ਼ਾਈ, ਮਲਟੀਟਾਸਕਿੰਗ ਨਿਰੀਖਣ ਕੀਤੇ ਡੇਟਾ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ।

ਇਹ ਦਾਅਵਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਕਿ ਅੰਗਰੇਜ਼ੀ ਬੋਲੀ ਲਈ, ਸਿਸਟਮ ਮਨੁੱਖੀ ਮਾਨਤਾ ਦੇ ਨੇੜੇ ਆਟੋਮੈਟਿਕ ਮਾਨਤਾ ਭਰੋਸੇਯੋਗਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਦੇ ਪੱਧਰ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਇੰਨੇ ਵੱਡੇ ਅਤੇ ਵੰਨ-ਸੁਵੰਨੇ ਡੇਟਾਸੈਟ ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲ ਲਹਿਜ਼ੇ, ਪਿਛੋਕੜ ਦੇ ਰੌਲੇ ਅਤੇ ਤਕਨੀਕੀ ਭਾਸ਼ਾ ਨੂੰ ਵਧੇਰੇ ਮਜ਼ਬੂਤੀ ਮਿਲਦੀ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਹ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਦੇ ਨਾਲ-ਨਾਲ ਉਨ੍ਹਾਂ ਭਾਸ਼ਾਵਾਂ ਦਾ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਅਸੀਂ ਓਪਨ ਸੋਰਸ ਮਾਡਲ ਅਤੇ ਅਨੁਮਾਨ ਕੋਡ ਹਾਂ ਜੋ ਉਪਯੋਗੀ ਐਪਲੀਕੇਸ਼ਨਾਂ ਬਣਾਉਣ ਅਤੇ ਮਜ਼ਬੂਤ ​​ਸਪੀਚ ਪ੍ਰੋਸੈਸਿੰਗ 'ਤੇ ਭਵਿੱਖੀ ਖੋਜ ਲਈ ਬੁਨਿਆਦ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹਨ।

ਮਾਡਲ ਬਾਰੇ (ਜਿਵੇਂ ਪਹਿਲਾਂ ਹੀ ਦੱਸਿਆ ਗਿਆ ਹੈ) 680 ਘੰਟੇ ਵਰਤ ਕੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਵਿਸ਼ਾ ਖੇਤਰਾਂ ਨੂੰ ਕਵਰ ਕਰਨ ਵਾਲੇ ਵੱਖ-ਵੱਖ ਸੰਗ੍ਰਹਿਆਂ ਤੋਂ ਇਕੱਤਰ ਕੀਤੇ ਵੌਇਸ ਡੇਟਾ ਦਾ। ਸਿਖਲਾਈ ਵਿੱਚ ਸ਼ਾਮਲ ਵੌਇਸ ਡੇਟਾ ਦਾ ਲਗਭਗ 1/3 ਅੰਗਰੇਜ਼ੀ ਤੋਂ ਇਲਾਵਾ ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਹੈ।

ਪ੍ਰਸਤਾਵਿਤ ਸਿਸਟਮ ਸਹੀ ਢੰਗ ਨਾਲ ਸਥਿਤੀਆਂ ਨੂੰ ਸੰਭਾਲਦਾ ਹੈ ਜਿਵੇਂ ਕਿ ਲਹਿਜ਼ੇ ਵਾਲੇ ਉਚਾਰਨ, ਪਿਛੋਕੜ ਦੇ ਰੌਲੇ ਦੀ ਮੌਜੂਦਗੀ ਅਤੇ ਤਕਨੀਕੀ ਸ਼ਬਦਾਵਲੀ ਦੀ ਵਰਤੋਂ. ਭਾਸ਼ਣ ਨੂੰ ਟੈਕਸਟ ਵਿੱਚ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕਰਨ ਤੋਂ ਇਲਾਵਾ, ਸਿਸਟਮ ਇੱਕ ਮਨਮਾਨੀ ਭਾਸ਼ਾ ਤੋਂ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਭਾਸ਼ਣ ਦਾ ਅਨੁਵਾਦ ਵੀ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਆਡੀਓ ਸਟ੍ਰੀਮ ਵਿੱਚ ਭਾਸ਼ਣ ਦੀ ਦਿੱਖ ਦਾ ਪਤਾ ਲਗਾ ਸਕਦਾ ਹੈ।

ਮਾਡਲਾਂ ਨੂੰ ਦੋ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਵਿੱਚ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ: ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਾ ਲਈ ਇੱਕ ਮਾਡਲ ਅਤੇ ਇੱਕ ਬਹੁ-ਭਾਸ਼ਾਈ ਮਾਡਲ ਜੋ ਸਪੈਨਿਸ਼, ਰੂਸੀ, ਇਤਾਲਵੀ, ਜਰਮਨ, ਜਾਪਾਨੀ, ਯੂਕਰੇਨੀ, ਬੇਲਾਰੂਸੀ, ਚੀਨੀ ਅਤੇ ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ। ਬਦਲੇ ਵਿੱਚ, ਹਰੇਕ ਦ੍ਰਿਸ਼ ਨੂੰ 5 ਵਿਕਲਪਾਂ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਹੈ, ਜੋ ਮਾਡਲ ਵਿੱਚ ਸ਼ਾਮਲ ਕੀਤੇ ਗਏ ਮਾਪਦੰਡਾਂ ਦੇ ਆਕਾਰ ਅਤੇ ਸੰਖਿਆ ਵਿੱਚ ਭਿੰਨ ਹਨ।

ਵਿਸਪਰ ਆਰਕੀਟੈਕਚਰ ਇੱਕ ਸਧਾਰਨ ਐਂਡ-ਟੂ-ਐਂਡ ਪਹੁੰਚ ਹੈ, ਜੋ ਇੱਕ ਏਨਕੋਡਰ-ਡੀਕੋਡਰ ਟ੍ਰਾਂਸਫਾਰਮਰ ਵਜੋਂ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਨਪੁਟ ਆਡੀਓ ਨੂੰ 30-ਸਕਿੰਟ ਦੇ ਭਾਗਾਂ ਵਿੱਚ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ, ਇੱਕ ਲੌਗ-ਮੇਲ ਸਪੈਕਟ੍ਰੋਗ੍ਰਾਮ ਵਿੱਚ ਬਦਲਿਆ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਫਿਰ ਇੱਕ ਏਨਕੋਡਰ ਨੂੰ ਪਾਸ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਇੱਕ ਡੀਕੋਡਰ ਨੂੰ ਸੰਬੰਧਿਤ ਟੈਕਸਟ ਉਪਸਿਰਲੇਖ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਵਿਸ਼ੇਸ਼ ਟੋਕਨਾਂ ਦੇ ਨਾਲ ਇੰਟਰਸਪਰਸ ਕੀਤੀ ਜਾਂਦੀ ਹੈ ਜੋ ਵਿਲੱਖਣ ਮਾਡਲ ਨੂੰ ਭਾਸ਼ਾ ਦੀ ਪਛਾਣ, ਵਾਕ-ਪੱਧਰ ਦੀਆਂ ਟਾਈਮਸਟੈਂਪਾਂ, ਬਹੁ-ਭਾਸ਼ਾਈ ਸਪੀਚ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ, ਅਤੇ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਭਾਸ਼ਣ ਅਨੁਵਾਦ ਵਰਗੇ ਕਾਰਜ ਕਰਨ ਲਈ ਨਿਰਦੇਸ਼ਿਤ ਕਰਦੇ ਹਨ।

ਆਕਾਰ ਜਿੰਨਾ ਵੱਡਾ ਹੋਵੇਗਾ, ਮਾਨਤਾ ਦੀ ਸ਼ੁੱਧਤਾ ਅਤੇ ਗੁਣਵੱਤਾ ਉਨੀ ਹੀ ਉੱਚੀ ਹੋਵੇਗੀ, ਪਰ ਨਾਲ ਹੀ GPU ਵੀਡੀਓ ਮੈਮੋਰੀ ਆਕਾਰ ਲਈ ਉੱਚ ਲੋੜਾਂ ਅਤੇ ਕਾਰਗੁਜ਼ਾਰੀ ਘੱਟ ਹੋਵੇਗੀ। ਉਦਾਹਰਨ ਲਈ, ਘੱਟੋ-ਘੱਟ ਵਿਕਲਪ ਵਿੱਚ 39 ਮਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ ਅਤੇ 1 GB ਵੀਡੀਓ ਮੈਮੋਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜਦੋਂ ਕਿ ਵੱਧ ਤੋਂ ਵੱਧ ਵਿਕਲਪ ਵਿੱਚ 1550 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ ਅਤੇ 10 GB ਵੀਡੀਓ ਮੈਮੋਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਨਿਊਨਤਮ ਵੇਰੀਐਂਟ ਅਧਿਕਤਮ ਨਾਲੋਂ 32 ਗੁਣਾ ਤੇਜ਼ ਹੈ।

ਸਿਸਟਮ "ਟ੍ਰਾਂਸਫਾਰਮਰ" ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਆਰਕੀਟੈਕਚਰ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਇੱਕ ਏਨਕੋਡਰ ਅਤੇ ਇੱਕ ਡੀਕੋਡਰ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ ਜੋ ਇੱਕ ਦੂਜੇ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਦੇ ਹਨ। ਆਡੀਓ ਨੂੰ 30-ਸਕਿੰਟ ਦੇ ਭਾਗਾਂ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਹੈ, ਜੋ ਇੱਕ ਲੌਗ-ਮੇਲ ਸਪੈਕਟ੍ਰੋਗ੍ਰਾਮ ਵਿੱਚ ਬਦਲਿਆ ਜਾਂਦਾ ਹੈ ਅਤੇ ਏਨਕੋਡਰ ਨੂੰ ਭੇਜਿਆ ਜਾਂਦਾ ਹੈ।

ਏਨਕੋਡਰ ਦੇ ਕੰਮ ਦਾ ਨਤੀਜਾ ਡੀਕੋਡਰ ਨੂੰ ਭੇਜਿਆ ਜਾਂਦਾ ਹੈ, ਜੋ ਕਿ ਵਿਸ਼ੇਸ਼ ਟੋਕਨਾਂ ਦੇ ਨਾਲ ਮਿਲਾਏ ਗਏ ਟੈਕਸਟ ਪ੍ਰਤੀਨਿਧਤਾ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ ਜੋ ਭਾਸ਼ਾ ਖੋਜ, ਵਾਕ ਉਚਾਰਨ ਕਾਲਕ੍ਰਮ ਲੇਖਾਕਾਰੀ, ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਭਾਸ਼ਣ ਪ੍ਰਤੀਲਿਪੀ ਅਤੇ ਇੱਕ ਆਮ ਮਾਡਲ ਵਿੱਚ ਅੰਗਰੇਜ਼ੀ ਅਨੁਵਾਦ ਵਰਗੇ ਕੰਮਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।

ਵਰਨਣ ਯੋਗ ਹੈ ਕਿ ਵਿਸਪਰ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਭਾਸ਼ਾ ਦੇ ਅਧਾਰ ਤੇ ਬਹੁਤ ਵੱਖਰੀ ਹੁੰਦੀ ਹੈ, ਇਸਲਈ ਇੱਕ ਜੋ ਬਿਹਤਰ ਸਮਝ ਪੇਸ਼ ਕਰਦਾ ਹੈ ਉਹ ਅੰਗਰੇਜ਼ੀ ਹੈ, ਜਿਸਦੇ ਚਾਰ ਸੰਸਕਰਣ ਕੇਵਲ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਹਨ, ਜੋ ਕਿ ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਦੇ ਹੋਰ ਮਾਡਲਾਂ ਵਾਂਗ, ਇਸਦੇ ਫਾਇਦੇ ਅਤੇ ਨੁਕਸਾਨ ਪੇਸ਼ ਕਰਦੇ ਹਨ। ਗਤੀ ਅਤੇ ਸ਼ੁੱਧਤਾ.

ਅੰਤ ਵਿੱਚ ਜੇ ਤੁਸੀਂ ਇਸ ਬਾਰੇ ਹੋਰ ਜਾਣਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਤੁਸੀਂ ਮੂਲ ਪ੍ਰਕਾਸ਼ਨ ਦੀ ਜਾਂਚ ਕਰ ਸਕਦੇ ਹੋ ਇਹ ਲਿੰਕ, ਜਦੋਂ ਕਿ ਜੇਕਰ ਤੁਸੀਂ ਸਰੋਤ ਕੋਡ ਅਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲਾਂ ਵਿੱਚ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹੋ ਤਾਂ ਤੁਸੀਂ ਉਹਨਾਂ ਨਾਲ ਸਲਾਹ ਕਰ ਸਕਦੇ ਹੋ ਇਹ ਲਿੰਕ

PyTorch ਫਰੇਮਵਰਕ 'ਤੇ ਆਧਾਰਿਤ ਹਵਾਲਾ ਲਾਗੂਕਰਨ ਕੋਡ ਅਤੇ ਪਹਿਲਾਂ ਤੋਂ ਹੀ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਖੁੱਲ੍ਹਾ ਹੈ, ਵਰਤਣ ਲਈ ਤਿਆਰ ਹੈ। ਕੋਡ MIT ਲਾਇਸੰਸ ਦੇ ਤਹਿਤ ਓਪਨ ਸੋਰਸ ਹੈ ਅਤੇ ਇਹ ਜ਼ਿਕਰਯੋਗ ਹੈ ਕਿ ffmpeg ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਦੀ ਲੋੜ ਹੈ।


ਲੇਖ ਦੀ ਸਮੱਗਰੀ ਸਾਡੇ ਸਿਧਾਂਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦੀ ਹੈ ਸੰਪਾਦਕੀ ਨੈਤਿਕਤਾ. ਇੱਕ ਗਲਤੀ ਦੀ ਰਿਪੋਰਟ ਕਰਨ ਲਈ ਕਲਿੱਕ ਕਰੋ ਇੱਥੇ.

ਟਿੱਪਣੀ ਕਰਨ ਲਈ ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਹੋਵੋ

ਆਪਣੀ ਟਿੱਪਣੀ ਛੱਡੋ

ਤੁਹਾਡਾ ਈਮੇਲ ਪਤਾ ਪ੍ਰਕਾਸ਼ਿਤ ਨਹੀਂ ਕੀਤਾ ਜਾਵੇਗਾ.

*

*

  1. ਡੇਟਾ ਲਈ ਜ਼ਿੰਮੇਵਾਰ: ਮਿਗੁਏਲ Áੰਗਲ ਗੈਟਨ
  2. ਡੇਟਾ ਦਾ ਉਦੇਸ਼: ਨਿਯੰਤਰਣ ਸਪੈਮ, ਟਿੱਪਣੀ ਪ੍ਰਬੰਧਨ.
  3. ਕਾਨੂੰਨੀਕਰਨ: ਤੁਹਾਡੀ ਸਹਿਮਤੀ
  4. ਡੇਟਾ ਦਾ ਸੰਚਾਰ: ਡੇਟਾ ਤੀਜੀ ਧਿਰ ਨੂੰ ਕਾਨੂੰਨੀ ਜ਼ਿੰਮੇਵਾਰੀ ਤੋਂ ਇਲਾਵਾ ਨਹੀਂ ਸੂਚਿਤ ਕੀਤਾ ਜਾਵੇਗਾ.
  5. ਡਾਟਾ ਸਟੋਰੇਜ: ਓਸੇਂਟਸ ਨੈਟਵਰਕ (ਈਯੂ) ਦੁਆਰਾ ਮੇਜ਼ਬਾਨੀ ਕੀਤਾ ਡੇਟਾਬੇਸ
  6. ਅਧਿਕਾਰ: ਕਿਸੇ ਵੀ ਸਮੇਂ ਤੁਸੀਂ ਆਪਣੀ ਜਾਣਕਾਰੀ ਨੂੰ ਸੀਮਤ, ਮੁੜ ਪ੍ਰਾਪਤ ਅਤੇ ਮਿਟਾ ਸਕਦੇ ਹੋ.