Zakládám vlákno pro zaměstnance a zaměstnankyně z úřadů, které AI nadchla a hledají pro ni efektivní využití pro svoji práci a zároveň zodpovědně domyslí rizika jejího využívání pro tento sektor. Na radnici, kde pracuji, ji zatím (vedle mnohem intenzivnějšího využití ajťáky) používají jednotky lidí a to zejména práce s texty (odborné, návrhy, propagační posty, struktury prezentací). Zvažujeme zkoušení nahrávání porad => přepis na text => vytvoření zápisu z porady. Část kolegů a kolegyň z úřadu si chce prozkoumávat možnosti sama, část by ocenila workshop s doporučeními. Vnímám toto vlákno jako příležitost si sdílet tipy, v jakých agendách se vám nástroje AI osvědčily a případně které nástroje konkrétně.
Už jste nějak prakticky zkoušeli to nahrávání a přepisy porad?
My v novinách používáme pro přepis podcastu do textu OpenAI Whisper (na krátkých ukázkách možno vyzkoušet tady) a funguje to velmi dobře. Ten hrubý přepis je samozřejmě plný chyb, ale pokud jde třeba jen o to, aby si člověk našel v zápisu, o čem se kde zhruba mluvilo, tak to určitě funguje dobře. Jen – a to je podstatná výhrada – je potřeba mít kvalitní zvukový záznam. Jak kvalita záznamu klesá, rychle klesá i kvalita a užitečnost přepisu.
Ideální by byl nějaký hotový produkt nad tímhle postavený – máte někdo tip?
PS. Pro představu jsem nechal Whisper přepsat poslední epizodu našeho podcastu, nekorigovaný výstup vypadá takhle.
Ještě ne; jen při úvodním setkání přes mobil a to nedopadlo dobře Přepis ze záznamu nedopadl dobře. Díky za tip na Whisper.
Nahrávka poslední porady má 800MB, takže Whisper na to není vhodný. Nějaké tipy?
To je strašně moc. Kolik je to minut či hodin? Pro účely strojového přepisu to jde zkomprimovat na výrazně menší velikost, řádově desítky MB maximálně. Můžeme si ten záznam nějak předat? Zkusím, na kolik by šel zmenšit, a můžu nechat část na ukázku přepsat. (Nebudu to poslouchat.)
Nejsem sice z úřadu, ale přepisy schůzek používáme dlouho. Funguje to v rámci Teams schůzky. Dá se spustit nahrávání, čímž se spustí i přepis v češtině. Výsledek je ve Wordu včetně jmen a časů, co kdo kdy. Samozřejmě, aby to odlišilo osobu, musí být připojena samostatně do schůzky s vlastním mikrofonem, jinak jsou všichni pod tím, z jakého mikrofonu je to snímáno. Přepis je součástí tarifu Teams, není třeba nic připlácet.
Tohle ale funguje jen pro videokonference, že? (Tedy ne pro osobní schůzku.) Jaká je kvalita toho přepisu?
Přepis z videocallu je jedna věc, záznam ze setkání s podnikateli v sále druhá. Nějaký nástroj na zmenšování velikosti záznamu?
Zdarma například Audacity. Má docela šílené UI, ale na tu konverzi do menšího formátu to jde přežít File / Export as MP3, Bit Rate Mode: Variable, Quality: 65–105 kbps, mono bych zkusil.
@zoul Pro každou schůzku spouštíme Teams schůzku, i když jsme všichni na místě a schůzku nahráváme. Má to výhodu, že se člověk k tomu může vrátit a samozřejmě ten přepis je bezva. Když se navíc něco prezentuje, pustí se to do schůzky a je to součástí nahrávky. Kvalita přepisu je přímo úměrná kvalitě zvuku, doporučuji něco jako Jabra pro kvalitní záznam.
@chalupinka Takováto velikost spíš znamená, že jde o videozáznam ne? Zvuk by byl takto velký pouze v případě, že nepoužíváte žádnou kompresi, tedy buď WAV, nebo FLAC. Doporučuji zjistit, protože tam někde musí být nastavení komprese, buď použít AAC nebo MP3.
Zjistím. Nebyla jsem u toho, díky za nasměrování.
Díky za tohle téma a budu ráda, pokud bude možné sdílet dál další vývoj, nyní pro češtinu asi není nějaké ideální řešení. Testovali jsem na přepisy rozhovorů - Whisper vs přespis v rámci Teams - stejné audio - aktuálně výrazně lepší Teams - rozlišuje jednotlivé mluvčí, jsou tam časy, Whisper na stejném audiu měl problém s CZ gramatikou a část hovoru vůbec nepřepsal. Asi nyní lepší zapnout Teams schůzku pro účel přepisu, i když jde o osobní schůzku.
Nevíte, co přesně to bylo za Whisper? Použili jste OpenAI API, anebo některý z těch stáhnutelných modelů? U těch stažených modelů je na výběr podle kvality a rychlosti, zatímco přes API se myslím automaticky použije ten, co preferuje maximální kvalitu přepisu.
Díky za reakci, postupovala jsem podle návodu tady: OpenAI Whisper —AI pro přepis audia na text | by Martin Jurica | Medium Testovala jsem v listopadu, je možné, že už je to nyní lepší. Pokud máte tip na nějakou lepší cestu, budu ráda za sdílení.
Já nevím, jestli za tím API neběží něco o fous lepšího, než je v těch stáhnutých modelech – viz tohle téma na fóru OpenAI, kde někdo říká, že přes API dostává lepší výsledky než od staženého modelu. Je v tom trochu hokej
Já používám Whisper právě přes API tímhle skriptem:
#!/bin/bash
API_TOKEN="(soukromý token pro přístup k API)"
curl --request POST \
--url https://api.openai.com/v1/audio/transcriptions \
--header "Authorization: Bearer $API_TOKEN" \
--header 'Content-Type: multipart/form-data' \
--form file="@$1" \
--form model=whisper-1 \
--form response_format=text \
--form language=cs
Skriptu jako první parametr předám název souboru s nahrávkou a za moment dostanu přepsaný text. Funguje to rychle, dobře a levně. Akorát nevím, jestli je pro vás tahle cesta schůdná, tohle počítá s macOS nebo Linuxem. Ve Windows by to šlo nějak udělat taky, ale tam se v tom skriptování nevyznám.
Udělal jsem k tomu pohodlné webové rozhraní, kde si to může vyzkoušet každý – ale z technických důvodů je tam bohužel omezená velikost nahrávky zhruba na 4 MB a zatím jsem nenašel dost času, abych tohle omezení překlenul. (Čekám, jestli OpenAI neudělá nějaké změny ve svém API, které by to hodně zjednodušily.)
Směřujeme k zakoupení tohoto nástroje https://www.noota.io/. , neb umí dělat i export klíčových informací z textu dle zadání uživatele.
Kdyby někoho zajímalo téma generativní AI nad přepisem v Teams, včera jsem testovala na Cimrmanech
V kontextu té scénky mně přijde vtipný, že „vědro s kitem“ píše s měkkým i!
To je skvělá diskuze! Díky za ni . Dostala jsem také tip na Teamsy, ale č.d celé jede na Google Meets
Máte někdo podobnout zkušenost? Dívala jsem se, že Google nemá ani češtinu při zapnutí captions. Zkusím mrknout na tip od @chalupinka. Už jste zkoušeli? Díky!