Přepisy záznamů a porad pomocí AI

Ve vedlejším vlákně o nahrávání webinářů padla zajímavá varianta externích nástrojů, které do té konverzace prostě přizveš, doporučuju tam mrknout:

To mně přijde jako docela elegantní řešení. Ale zatím jsem nezkoušel (náš use case v novinách jsou přepisy podcastů, tak to jsme úplně jinde).

2 Líbí se

nápadají vypadají fajn, ale po zběžném zkoumání je patrné, že nepodporují češtinu, jsou placené, nebo ta funkce tam imho není (Jumpshare, kde údajně můžu transkripci jen sdílet s týmem).

1 Líbí se

ahoj,

mám podobnou prosbu. Potřeboval bych nástroj, který by z youtube videa (bez nutnosti stahovat jen zvukovou stopu) vyplivl čistý text (přepis). A pak také nástroj, který z youtube videa umí vytvořit summary (což zřejmě zvládne i chatgpt, když mu naleju ten přepis). Ideálně bezplatně :slight_smile: Dík!

Zkoušel jsem teď nástroj getrecall.ai, který umí dělat ono summary. Vložit lze jen url videa. Když jsem to udělal s naším záznamem Festivalu kreativní byrokracie, napsal mi, že video nemá titulky, takže smolík. Já právě doufal, že ten transcript dělá na základě audia, ne titulků-)

Bylo by to fakt velké ušetření času. Hodně se to vyvíjí tak třeba jste v poslední době na něco narazili. Dík.-)

1 Líbí se

Zatím jsem nenašel lepší řešení než toto:

  1. Pomocí nástroje https://en.y2mate.is/v54/youtube-to-mp3.html (který je opravdu free a zpracuje i moje 8hodinové youtube video) jsem získal kompletní audio stopu v mp3.

  2. V desktopovém programu Audacity jsem vyřízl hodinovou přednášku, kterou chci převést na text (to kvůli objemovým/časovým limitům dalších nástrojů)

  3. Tuto zvukovou stopu jsem nahrál do nástroje https://turboscribe.ai. Výsledek vypadá skvěle (obsahuje i časové značky a kliknutím na text se přehraje příslušná část audia - pro kontrolu, jestli AI přepis sedí). Jediný háček je, že tento nástroj není úplně free. Dovolí jen 30 minut a to jen 3x do měsíce. Kdybyste věděli o něčem velkorysejším, dejte vědět-)

1 Líbí se

Pokud máš macOS nebo Linux, můžu doporučit yt-dlp, umí stahovat videa i jen zvukové stopy a je to open source. V případě zájmu rád ukážu :slight_smile:

2 Líbí se

buhužel mám Windowsy -) Ale ještě jsem našel něco, co je zdarma, není nijak omezené a taky funguje dobře, co se týká kvalty přepisu. Návod tady: https://www.youtube.com/watch?v=1DsrniDGOJQ&t=120s.

A pak vidím i novější návod od toho samého člověka, který jsem taky otestoval (s Whisper), ale ta přesnost je o dost horší: https://www.youtube.com/watch?v=8SQV-B83tPU

1 Líbí se

On tam používá ten otevřený Whisper model běžící v Google Colab, proto jsou ty výsledky horší – nejnovější Whisper používaný přímo přes API má myslím kvalitu přepisu vyšší.

Je to tak. Použil jsem Colab a přes příkazové řádky nainstaloval Whisper. Je fajn, že výsledek má timestampy a vyplivne i formát .srt, ale samotný přepis není moc použitelný pro můj učel (přesnost vidím tak na 70 %).

Přesnost Virtual audio cable (VB-Audio Virtual Apps) v kombinaci s Windowsovským Psaní hlasem (win+H) a libovolným textovým editorem je tak 98 %. Nevýhodou je, že nedostanu timestampy a 1h přednášku musím nahrávat 1hodinu :slight_smile: Ale pořád lepší než nic.

K tomu API Whisperu bych se mohl nějak dostat?

Vyzkouset lze tu:

Diskuze kolem toho tu:

1 Líbí se

Dík. Vyzkoušel jsem modul Nova 2 i Whisper Cloud, ale není to moc použitelné. Možná hraje roli místy ne úplně kvalitní stopa (ovšem windowsovský Poslech ji přepíše skoro bezchybně). Zbývá tedy Whisper přes API. Tuto možnost tam nevidím, resp. nevím, jak na to. Nejsem žádný ajťák. Máte nějaký návod, jak na to?

Ten Deepgram myslím na pozadí používá právě API Whisperu (tak aspoň čtu to „Whisper Cloud“). Překvapuje mě, že s tím ty Windows pracujou líp – ale víc tomu nerozumím.

Ted kdyz jsem se k tomu vratil me napadlo, ze vyhoda MS a jeho nastroju pro cestinu je dlouhodoba spoluprace s UJC vyzkumniky. Oni maji strukturovanou databazi zjednodusene receno: co se v cestine nepouziva a diky tehle negativni databazi dokazi opravovat cestinu v Officech a Windows obecne. To muze hrat roli i pri kvalite ceskeho prepisu.

1 Líbí se

My jsme teď v novinách narazili na beey. Je to relativně drahé (ve flexi tarifu řádově 100 Kč za půl hodiny), ale v češtině je to o dost lepší než Whisper, který jsme používali doposud, má to relativně pěkný vestavěný editor s možností poslouchání s textem a umí to diarizaci (rozlišování mluvčích). Uvidíme, jestli už to bude tak dobré, aby se nám to vyplatilo.