nápadají vypadají fajn, ale po zběžném zkoumání je patrné, že nepodporují češtinu, jsou placené, nebo ta funkce tam imho není (Jumpshare, kde údajně můžu transkripci jen sdílet s týmem).
mám podobnou prosbu. Potřeboval bych nástroj, který by z youtube videa (bez nutnosti stahovat jen zvukovou stopu) vyplivl čistý text (přepis). A pak také nástroj, který z youtube videa umí vytvořit summary (což zřejmě zvládne i chatgpt, když mu naleju ten přepis). Ideálně bezplatně Dík!
Zkoušel jsem teď nástroj getrecall.ai, který umí dělat ono summary. Vložit lze jen url videa. Když jsem to udělal s naším záznamem Festivalu kreativní byrokracie, napsal mi, že video nemá titulky, takže smolík. Já právě doufal, že ten transcript dělá na základě audia, ne titulků-)
Bylo by to fakt velké ušetření času. Hodně se to vyvíjí tak třeba jste v poslední době na něco narazili. Dík.-)
V desktopovém programu Audacity jsem vyřízl hodinovou přednášku, kterou chci převést na text (to kvůli objemovým/časovým limitům dalších nástrojů)
Tuto zvukovou stopu jsem nahrál do nástroje https://turboscribe.ai. Výsledek vypadá skvěle (obsahuje i časové značky a kliknutím na text se přehraje příslušná část audia - pro kontrolu, jestli AI přepis sedí). Jediný háček je, že tento nástroj není úplně free. Dovolí jen 30 minut a to jen 3x do měsíce. Kdybyste věděli o něčem velkorysejším, dejte vědět-)
On tam používá ten otevřený Whisper model běžící v Google Colab, proto jsou ty výsledky horší – nejnovější Whisper používaný přímo přes API má myslím kvalitu přepisu vyšší.
Je to tak. Použil jsem Colab a přes příkazové řádky nainstaloval Whisper. Je fajn, že výsledek má timestampy a vyplivne i formát .srt, ale samotný přepis není moc použitelný pro můj učel (přesnost vidím tak na 70 %).
Přesnost Virtual audio cable (VB-Audio Virtual Apps) v kombinaci s Windowsovským Psaní hlasem (win+H) a libovolným textovým editorem je tak 98 %. Nevýhodou je, že nedostanu timestampy a 1h přednášku musím nahrávat 1hodinu Ale pořád lepší než nic.
Dík. Vyzkoušel jsem modul Nova 2 i Whisper Cloud, ale není to moc použitelné. Možná hraje roli místy ne úplně kvalitní stopa (ovšem windowsovský Poslech ji přepíše skoro bezchybně). Zbývá tedy Whisper přes API. Tuto možnost tam nevidím, resp. nevím, jak na to. Nejsem žádný ajťák. Máte nějaký návod, jak na to?
Ten Deepgram myslím na pozadí používá právě API Whisperu (tak aspoň čtu to „Whisper Cloud“). Překvapuje mě, že s tím ty Windows pracujou líp – ale víc tomu nerozumím.
Ted kdyz jsem se k tomu vratil me napadlo, ze vyhoda MS a jeho nastroju pro cestinu je dlouhodoba spoluprace s UJC vyzkumniky. Oni maji strukturovanou databazi zjednodusene receno: co se v cestine nepouziva a diky tehle negativni databazi dokazi opravovat cestinu v Officech a Windows obecne. To muze hrat roli i pri kvalite ceskeho prepisu.
My jsme teď v novinách narazili na beey. Je to relativně drahé (ve flexi tarifu řádově 100 Kč za půl hodiny), ale v češtině je to o dost lepší než Whisper, který jsme používali doposud, má to relativně pěkný vestavěný editor s možností poslouchání s textem a umí to diarizaci (rozlišování mluvčích). Uvidíme, jestli už to bude tak dobré, aby se nám to vyplatilo.