Skip to content
Menu
Gisz.pl
  • Galeria
  • Serwis komputerowy
  • Cyfrowa naprawa obrazu
  • Linux
Gisz.pl
Whisper system rozpoznawania mowy (ASR)

Whisper system rozpoznawania mowy (ASR)

Opublikowano 22 grudnia 20239 stycznia 2025

Whisper system rozpoznawania mowy. W dzisiejszym świecie, gdzie technologia stanowi nieodłączną część naszego codziennego życia, innowacyjne rozwiązania mają moc rewolucjonizować nasze doświadczenia. Dlatego jednym z najnowszych kroków w tej fascynującej podróży jest Whisper, zaawansowany system automatycznego rozpoznawania mowy (ASR) opracowany przez OpenAI. Whisper nie tylko reprezentuje kolejny kamień milowy w dziedzinie sztucznej inteligencji, ale także otwiera przed nami nowe horyzonty interakcji z technologią.

Whisper system rozpoznawania mowy OpenAi

Stworzony z myślą o tym, aby umożliwiać przekształcanie mowy ludzkiej w tekst w sposób precyzyjny i skuteczny. Ponieważ jego zastosowania są zróżnicowane i obejmują szeroki zakres dziedzin życia, od usprawniania codziennych interakcji z urządzeniami elektronicznymi po wprowadzanie innowacyjnych rozwiązań w biznesie i edukacji. W niniejszym artykule przyjrzymy się oczywiście bliżej temu fascynującemu systemowi, odkrywając, w jaki sposób Whisper może rewolucjonizować nasze doświadczenia cyfrowe i wpływać pozytywnie na różne aspekty naszego życia.

Whisper to model rozpoznawania mowy ogólnego przeznaczenia. Jest trenowany na dużym zestawie danych różnorodnego dźwięku, a także jest modelem wielozadaniowym, który może wykonywać wielojęzyczne rozpoznawanie mowy, tłumaczenie mowy i identyfikację języka.

Whisper system rozpoznawania mowy

Model Transformer sekwencja-sekwencja jest oczywiście szkolony w zakresie różnych zadań przetwarzania mowy, w tym rozpoznawania mowy wielojęzycznej, tłumaczenia mowy, identyfikacji języka mówionego i wykrywania aktywności głosowej. Te zadania są wspólnie reprezentowane jako sekwencja tokenów, które mają być przewidywane przez dekoder, dzięki czemu pojedynczy model może zastąpić wiele etapów tradycyjnego potoku przetwarzania mowy. Format trenowania wielozadaniowego używa zestawu specjalnych tokenów, które służą jako specyfikatory zadań lub cele klasyfikacji.

Whisper system rozpoznawania mowy

Whisper to system automatycznego rozpoznawania mowy (ASR) przeszkolony na 680 000 godzin wielojęzycznych i wielozadaniowych nadzorowanych danych zebranych z sieci. Dlatego wykorzystanie tak dużego i zróżnicowanego zbioru danych prowadzi do poprawy odporności na akcenty, szumy tła i język techniczny. Ponadto umożliwia transkrypcję w wielu językach, a także tłumaczenie z tych języków na język angielski. Modele typu open source i kod wnioskowania, które służą jako podstawa do tworzenia użytecznych aplikacji i dalszych badań nad niezawodnym przetwarzaniem mowy.

Whisper system rozpoznawania mowy (ASR)

Architektura Whisper to proste, kompleksowe podejście, zaimplementowane jako transformator enkoder-dekoder. Dźwięk wejściowy dzielimy na 30-sekundowe fragmenty, konwertowany na spektrogram log-Mel, a następnie przekazywany do kodera.

Dekoder szkolimy w celu przewidywania odpowiedniego podpisu tekstowego, zmieszanego ze specjalnymi tokenami, które kierują pojedynczym modelem do wykonywania zadań, takich jak identyfikacja języka. Sygnatury czasowe na poziomie frazy, wielojęzyczna transkrypcja mowy i tłumaczenie mowy na język angielski.

Whisper system rozpoznawania mowy

Whisper system rozpoznawania mowy (ASR)

Jak możemy wykorzystać program Whisper od OpenAi

Whisper to system automatycznego rozpoznawania mowy (ASR) opracowany przez OpenAI to zaawansowany model przetwarzania języka naturalnego, który może przekształcać mowę ludzką na tekst. Poniżej przedstawiam kilka zastosowań i pomysłów wykorzystania ASR, takiego jak Whisper:

Whisper system rozpoznawania mowy

  1. Systemy do zamawiania głosem:
  • Implementacja ASR w systemach zamawiania głosem w restauracjach, kawiarniach czy sklepach, co pozwala klientom składać zamówienia bez konieczności pisania czy używania interfejsu graficznego.
  1. Transkrypcja i redakcja tekstu:
  • Umożliwienie użytkownikom tworzenia tekstów i dokumentów poprzez dyktowanie zamiast pisania, co może być szczególnie przydatne dla osób, które mają trudności z korzystaniem z klawiatury.
  1. Asystenci w samochodach:
  • Integracja ASR w systemy nawigacyjne i multimedialne samochodów, aby umożliwić kierowcom sterowanie funkcjami pojazdu oraz uzyskiwanie informacji za pomocą mowy.
  1. Podróże i tłumaczenia:
  • Wykorzystanie ASR do natychmiastowego tłumaczenia wypowiedzi na inne języki, co może być przydatne w podróży lub w sytuacjach międzynarodowych.
  1. Asystenci domowi:
  • Implementacja ASR w asystentach domowych, takich jak Amazon Alexa czy Google Assistant, aby umożliwić interakcję za pomocą mowy.
  • Sterowanie urządzeniami w domu oraz uzyskiwanie informacji.
  1. Wsparcie dla osób niepełnosprawnych:
  • Stworzenie narzędzi wspomagających, które umożliwiają osobom niepełnosprawnym korzystanie z komputerów i urządzeń mobilnych za pomocą mowy.
  1. Automatyczne transkrypcje dla firm i instytucji:
  • Wykorzystanie ASR do automatycznego tworzenia transkrypcji spotkań biznesowych, wykładów czy konferencji, co może ułatwić zarządzanie informacjami.
  1. Edukacja online:
  • Implementacja ASR w platformach edukacyjnych, aby umożliwić studentom automatyczną transkrypcję lekcji, notatek czy dyskusji.
  1. Rozpoznawanie poleceń w grach wideo:
  • Zastosowanie ASR w grach wideo do umożliwienia interakcji z postaciami i sterowania grą za pomocą mowy.
  1. Automatyczne logowanie rozmów telefonicznych:
    • Wykorzystanie ASR do automatycznego tworzenia transkrypcji rozmów telefonicznych, co może być przydatne w celach monitorowania jakości obsługi klienta czy szkoleń personelu.

Te przykłady pokazują szeroki zakres możliwości zastosowania Whisper i innych systemów ASR w różnych dziedzinach życia.

Instalacja z źródła Linux – Whisper system rozpoznawania mowy

pip install -U openai-whisper

Alternatywnie następujące polecenie ściągnie i zainstaluje najnowsze zatwierdzenie z tego repozytorium wraz z jego zależnościami języka Python:

pip install git+https://github.com/openai/whisper.git 

Wymaga również zainstalowania w systemie narzędzia wiersza poleceń ffmpeg, które jest dostępne w większości menedżerów pakietów:

sudo apt update && sudo apt install ffmpeg

Instalacja gotowe skompilowane programy Windows, Linux, Mac

Samodzielne pliki wykonywalne Whisper & Faster-Whisper firmy OpenAI. Dla tych, którzy nie chcą zawracać sobie głowy Pythonem i nie wiedzą jak kompilować.

Pliki wykonywalne Faster-Whisper są kompatybilne z systemami Windows 7 x64, Linux v5.4, macOS v10.15 i nowszymi.

Gotowy skompilowany program bezpośrednio do użycia:

Faster Whisper transcription with CTranslate2

Przykłady użycia – Whisper system rozpoznawania mowy :

Transkrypcja pliku videofile.mkv – język angielski – model medium

whisper-faster.exe "D:\videofile.mkv" --language=English --model=medium

Transkrypcja pliku Norbi.mp3 – język polski – model medium – tłumaczenie na angielski – 16 rdzeni

whisper-faster.exe Norbi.mp3 --language=Polish --model=medium --task transcribe --language=English --threads 16
Whisper system rozpoznawania mowy (ASR)

Pamiętaj !

Uruchom interfejs wiersza polecenia jako administrator.
Nie kopiuj programów do folderów systemu Windows!
Automatyzacja pracy na GPU, jeśli zostaną wykryte sterowniku CUDA.
Aby uzyskać przyzwoitą transkrypcję, użyj model MEDIUM.

Informacje o samodzielnym programie Faster-Whisper

Niektóre ustawienia domyślne zostały zmienione pod kątem transkrypcji filmów i aby były przenośne.
– Pokazuje pasek postępu na pasku tytułu interfejsu wiersza poleceń.
– Domyślnie szuka modeli w tym samym folderze, w ścieżce.
– Modele są pobierane automatycznie lub można je pobrać ręcznie z: https://huggingface.co/Systran

Prosta Instrukcja Video – Youtube, jak w prosty sposób pobrać gotowy program Whisper , skonfigurować i uruchomić transkrypcje w systemie Windows

Źródła:

Przyspiesz działanie komputera

OpenAi Whisper

OpenAi Faster Whisper

Faster Whisper – Samodzielne pliki wykonywalne

Zachęcam do innych poradników:

Whisper system automatycznego rozpoznawania mowy

Serwis Komputerowy Katowice

Cyfrowa naprawa obrazu

Blokada reklam Pi-Hole

ESP32-CAM-MB monitoring

 Bezpieczeństwo komputera

Raspi-config instrukcja

Przekierowywanie Portów na Routerze

Serwis komputerowy Katowice

Popraw bezpieczeństwo komputera

Sztuczna inteligencja – ChaptGPT

Porozmawiaj z Dokumentami

Serwis komputerowy Katowice

Serwis – Gisz.pl

Anonimowość w sieci – Topowe programy

Transformers = sztuczna inteligencja

Dodaj komentarz Anuluj pisanie odpowiedzi

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

12 + 13 =

Ostatnie wpisy

  • DeepSeek-R1 lokalnie: Jak uruchomić ogromny model językowy bez chmury?
  • Transformers = sztuczna inteligencja
  • Awaria Windows CrowdStrike BSOD – naprawa
  • Przyspiesz działanie komputera
  • Whisper system rozpoznawania mowy (ASR)

Najnowsze komentarze

    Archiwa

    • styczeń 2025
    • lipiec 2024
    • kwiecień 2024
    • grudzień 2023
    • październik 2023
    • wrzesień 2023
    • sierpień 2023
    • lipiec 2023
    • maj 2023
    • marzec 2023
    • luty 2023
    • styczeń 2023
    • grudzień 2022
    • październik 2022
    • wrzesień 2022
    • kwiecień 2021

    Kategorie

    • Giszowiec
    • Linux Help
    • Serwis

    Meta

    • Zaloguj się
    • Kanał wpisów
    • Kanał komentarzy
    • WordPress.org
    ©2025 Gisz.pl | Powered by SuperbThemes