Whishper - lokální, open source a zdarma přepisy rozhovorů včetně češtiny

Ahojte! :waving_hand:

Vím, že hodně z vás, ať už jako jednotlivci nebo organizace řešíte přepisy různých callů/rozhovorů do textu a tak jsem chtěl sdílet open source nástroj Whishper, který pod pokličkou využívá model Whisper, je zdarma, open source a lze ho hostovat na vlastním počítači či VPS pomocí Dockeru.


Přepis hlavních funkcionalit z GitHub repozitáře:

:speaking_head: Přepis jakéhokoli média na text: audio, video atd.
Přepis z URL (jakýkoli zdroj podporovaný yt-dlp).
Nahrajte soubor k přepisu.
:inbox_tray: Stahujte přepisy v mnoha formátech: TXT, JSON, VTT, SRT nebo zkopírujte čistý text do schránky.
:globe_with_meridians: Přeložte své přepisy do jakéhokoli jazyka podporovaného Libretranslate.
:writing_hand: Výkonný editor titulků, takže nemusíte opouštět uživatelské rozhraní!
~ Zvýraznění přepisu na základě pozice média.
~ Upozornění na CPS (znaky za sekundu).
~ Rozdělení segmentů.
~ Vložení segmentů.
~ Výběr jazyka titulků.
:house: 100% lokální: přepis, překlad a úprava titulků probíhá 100% na vašem počítači (může fungovat i offline!).
:rocket: Rychlé: používá FasterWhisper jako backend Whisper: získejte mnohem rychlejší časy přepisu na CPU!
:+1: Rychlé a snadné nastavení: použijte skript pro rychlý start, nebo projděte několika kroky!
:fire: Podpora GPU: použijte svou NVIDIA GPU k získání ještě rychlejších časů přepisu!
:horse: Podpora CPU: nemáte GPU? Žádný problém! Whishper může běžet i na CPU.


V případě, že neznáte ani Whisper, doporučuju zkusit třeba lokálně pomocí jednoduchého Python/Bash skriptu, co vám vygeneruju ChatGPT, poradí si dobře i s češtinou u špatné kvality hovoru.

Zkoušel jsem klientský call na relativně technické téma, který měl 2 hodiny a model large to přelouskal za cca 30 minut na Apple M2 Max (bez GPU akcelerace, jen CPU) a to jsem u toho normálně pracoval (a asi by stačil i menší model medium).

:light_bulb: @Romana_Pokorna / @Iva-koordinatorka nevím, zda se ještě řeší transkripce v rámci Nezisk.Digital nebo už to máte plně vyřešené, ale napadlo mě, že by tohle byla zajímavá možnost k prozkoumání v případě, že jsou stávající řešení problematická (cena, výkon, UI atd.).

Snad tohle někomu poslouží a přeju prima letní týden všem!

5 Líbí se

Ahoj ahoj, Tome!

To zní náramně! Moc díky, určitě vyzkouším - vyřešené to nemáme - žádný z dostupných nástrojů neumí česky tak, aby ten přepis byl čitelný :frowning:

Na toto jsem velmi zvědavá!

1 Líbí se

Určitě zkus, Ivi, i kdyby první lokálně, zda vůbec by mohl Whisper vyhovovat jako model. Netroufnu si tvrdit úspěšnost přepisu v %, určitě to nebylo 100% a něco se přepsalo špatně, ale drtivá většina byla u 4 účastníků v pohodě tak, aby se s tím pracovalo a dalo se to i automatizovat ve smyslu LLM-souhrnu a nějakého uložení do složky.

Whisper jsme používali běžně v novinách zhruba před rokem pro přepis podcastů a byli jsme spokojeni, poprvé bylo pro nás rychlejší srovnat automatický přepis než to dělat celé ručně (podrobněji tady ve starším tématu včetně ukázky nekorigovaného přepisu).

1 Líbí se

Mimochodem pokud vás někoho – jako mě – napadlo, že by bylo zajímavé strčit Whishper na nějaký levný VPS, tak zatím nebylo :sweat_smile: Zkusil jsem laciný server od Hetzneru a přepisuje strašně pomalu, hůř než v reálném čase. Osobně zatím zůstávám u beey, je to sice drahé, ale rozumně kvalitní a pohodlné.

1 Líbí se

Já nad tím přemýšlel a vlastně je otázkou, zda se zaměřit na CPU nebo GPU akceleraci a následně to VPS nastavit přesně na ty potřeby toho přepisu a nic moc jiného. Pokud člověk má nějaké general-purpose VPS, tak to bude dost pomalé, jak píšeš.

Já zatím jedu lokálně přes Python skripty a je to v pohodě, ale samozřejmě není tam GUI komfort.

2 Líbí se