Whisper system rozpoznawania mowy (ASR)

Whisper system rozpoznawania mowy. W dzisiejszym świecie, gdzie technologia stanowi nieodłączną część naszego codziennego życia, innowacyjne rozwiązania mają moc rewolucjonizować nasze doświadczenia. Dlatego jednym z najnowszych kroków w tej fascynującej podróży jest Whisper, zaawansowany system automatycznego rozpoznawania mowy (ASR) opracowany przez OpenAI. Whisper nie tylko reprezentuje kolejny kamień milowy w dziedzinie sztucznej inteligencji, ale także otwiera przed nami nowe horyzonty interakcji z technologią.

Whisper system rozpoznawania mowy OpenAi

Stworzony z myślą o tym, aby umożliwiać przekształcanie mowy ludzkiej w tekst w sposób precyzyjny i skuteczny. Ponieważ jego zastosowania są zróżnicowane i obejmują szeroki zakres dziedzin życia, od usprawniania codziennych interakcji z urządzeniami elektronicznymi po wprowadzanie innowacyjnych rozwiązań w biznesie i edukacji. W niniejszym artykule przyjrzymy się oczywiście bliżej temu fascynującemu systemowi, odkrywając, w jaki sposób Whisper może rewolucjonizować nasze doświadczenia cyfrowe i wpływać pozytywnie na różne aspekty naszego życia.

Whisper to model rozpoznawania mowy ogólnego przeznaczenia. Jest trenowany na dużym zestawie danych różnorodnego dźwięku, a także jest modelem wielozadaniowym, który może wykonywać wielojęzyczne rozpoznawanie mowy, tłumaczenie mowy i identyfikację języka.

Whisper system rozpoznawania mowy

Model Transformer sekwencja-sekwencja jest oczywiście szkolony w zakresie różnych zadań przetwarzania mowy, w tym rozpoznawania mowy wielojęzycznej, tłumaczenia mowy, identyfikacji języka mówionego i wykrywania aktywności głosowej. Te zadania są wspólnie reprezentowane jako sekwencja tokenów, które mają być przewidywane przez dekoder, dzięki czemu pojedynczy model może zastąpić wiele etapów tradycyjnego potoku przetwarzania mowy. Format trenowania wielozadaniowego używa zestawu specjalnych tokenów, które służą jako specyfikatory zadań lub cele klasyfikacji.

Whisper system rozpoznawania mowy

Whisper to system automatycznego rozpoznawania mowy (ASR) przeszkolony na 680 000 godzin wielojęzycznych i wielozadaniowych nadzorowanych danych zebranych z sieci. Dlatego wykorzystanie tak dużego i zróżnicowanego zbioru danych prowadzi do poprawy odporności na akcenty, szumy tła i język techniczny. Ponadto umożliwia transkrypcję w wielu językach, a także tłumaczenie z tych języków na język angielski. Modele typu open source i kod wnioskowania, które służą jako podstawa do tworzenia użytecznych aplikacji i dalszych badań nad niezawodnym przetwarzaniem mowy.

Architektura Whisper to proste, kompleksowe podejście, zaimplementowane jako transformator enkoder-dekoder. Dźwięk wejściowy dzielimy na 30-sekundowe fragmenty, konwertowany na spektrogram log-Mel, a następnie przekazywany do kodera.

Dekoder szkolimy w celu przewidywania odpowiedniego podpisu tekstowego, zmieszanego ze specjalnymi tokenami, które kierują pojedynczym modelem do wykonywania zadań, takich jak identyfikacja języka. Sygnatury czasowe na poziomie frazy, wielojęzyczna transkrypcja mowy i tłumaczenie mowy na język angielski.

Whisper system rozpoznawania mowy

Jak możemy wykorzystać program Whisper od OpenAi

Whisper to system automatycznego rozpoznawania mowy (ASR) opracowany przez OpenAI to zaawansowany model przetwarzania języka naturalnego, który może przekształcać mowę ludzką na tekst. Poniżej przedstawiam kilka zastosowań i pomysłów wykorzystania ASR, takiego jak Whisper:

Whisper system rozpoznawania mowy

Systemy do zamawiania głosem:

Implementacja ASR w systemach zamawiania głosem w restauracjach, kawiarniach czy sklepach, co pozwala klientom składać zamówienia bez konieczności pisania czy używania interfejsu graficznego.

Transkrypcja i redakcja tekstu:

Umożliwienie użytkownikom tworzenia tekstów i dokumentów poprzez dyktowanie zamiast pisania, co może być szczególnie przydatne dla osób, które mają trudności z korzystaniem z klawiatury.

Asystenci w samochodach:

Integracja ASR w systemy nawigacyjne i multimedialne samochodów, aby umożliwić kierowcom sterowanie funkcjami pojazdu oraz uzyskiwanie informacji za pomocą mowy.

Podróże i tłumaczenia:

Wykorzystanie ASR do natychmiastowego tłumaczenia wypowiedzi na inne języki, co może być przydatne w podróży lub w sytuacjach międzynarodowych.

Asystenci domowi:

Implementacja ASR w asystentach domowych, takich jak Amazon Alexa czy Google Assistant, aby umożliwić interakcję za pomocą mowy.
Sterowanie urządzeniami w domu oraz uzyskiwanie informacji.

Wsparcie dla osób niepełnosprawnych:

Stworzenie narzędzi wspomagających, które umożliwiają osobom niepełnosprawnym korzystanie z komputerów i urządzeń mobilnych za pomocą mowy.

Automatyczne transkrypcje dla firm i instytucji:

Wykorzystanie ASR do automatycznego tworzenia transkrypcji spotkań biznesowych, wykładów czy konferencji, co może ułatwić zarządzanie informacjami.

Edukacja online:

Implementacja ASR w platformach edukacyjnych, aby umożliwić studentom automatyczną transkrypcję lekcji, notatek czy dyskusji.

Rozpoznawanie poleceń w grach wideo:

Zastosowanie ASR w grach wideo do umożliwienia interakcji z postaciami i sterowania grą za pomocą mowy.

Automatyczne logowanie rozmów telefonicznych:
- Wykorzystanie ASR do automatycznego tworzenia transkrypcji rozmów telefonicznych, co może być przydatne w celach monitorowania jakości obsługi klienta czy szkoleń personelu.

Te przykłady pokazują szeroki zakres możliwości zastosowania Whisper i innych systemów ASR w różnych dziedzinach życia.

Instalacja z źródła Linux – Whisper system rozpoznawania mowy

pip install -U openai-whisper

Alternatywnie następujące polecenie ściągnie i zainstaluje najnowsze zatwierdzenie z tego repozytorium wraz z jego zależnościami języka Python:

pip install git+https://github.com/openai/whisper.git

Wymaga również zainstalowania w systemie narzędzia wiersza poleceń ffmpeg, które jest dostępne w większości menedżerów pakietów:

sudo apt update && sudo apt install ffmpeg

Instalacja gotowe skompilowane programy Windows, Linux, Mac

Samodzielne pliki wykonywalne Whisper & Faster-Whisper firmy OpenAI. Dla tych, którzy nie chcą zawracać sobie głowy Pythonem i nie wiedzą jak kompilować.

Pliki wykonywalne Faster-Whisper są kompatybilne z systemami Windows 7 x64, Linux v5.4, macOS v10.15 i nowszymi.

Gotowy skompilowany program bezpośrednio do użycia:

Faster Whisper transcription with CTranslate2

Przykłady użycia – Whisper system rozpoznawania mowy :

Transkrypcja pliku videofile.mkv – język angielski – model medium

whisper-faster.exe "D:\videofile.mkv" --language=English --model=medium

Transkrypcja pliku Norbi.mp3 – język polski – model medium – tłumaczenie na angielski – 16 rdzeni

whisper-faster.exe Norbi.mp3 --language=Polish --model=medium --task transcribe --language=English --threads 16

Pamiętaj !

Uruchom interfejs wiersza polecenia jako administrator.
Nie kopiuj programów do folderów systemu Windows!
Automatyzacja pracy na GPU, jeśli zostaną wykryte sterowniku CUDA.
Aby uzyskać przyzwoitą transkrypcję, użyj model MEDIUM.

Informacje o samodzielnym programie Faster-Whisper

Niektóre ustawienia domyślne zostały zmienione pod kątem transkrypcji filmów i aby były przenośne.
– Pokazuje pasek postępu na pasku tytułu interfejsu wiersza poleceń.
– Domyślnie szuka modeli w tym samym folderze, w ścieżce.
– Modele są pobierane automatycznie lub można je pobrać ręcznie z: https://huggingface.co/Systran