GPTs a citlivé informace

yen · prosinec 20, 2024, 12:19odp.

Hello, obdobně jako u internetových prohlížečů přemýšlím nad bezpečností dat v use casech, kdy nechci jejich provozovateli předávat citlivé informace – nemluvím o konkrétních údajích jako datum narození, jako spíše obecně o mém stylu uvažování atd.

Máte tipy ať už na konkrétní, „bezpečnější” GPTs, nebo kombinaci kroků (nelogovat se, zakázat učení na mých promptech, psát prompty specifickým způsobem, …)? Díky!

tomnavratil · prosinec 20, 2024, 6:45odp.

Hodně záleží na tom, o jaká data se jedná (tzn. jaká je jejich klasifikace, jak citlivá jsou, kdo je klientem atd.), ale obecně jsem u klientů řešil následující:

1. Minimalizace dat → odebrání dat, co nejsou potřeba ke zpracování
2. Anonymizace dat → nahrazení dat jinými daty - A > B, B > F a podobně s tím, že legenda je offline nebo použití rozsahů
3. Maskování dat → v případě, že člověk řeší třeba regex nebo funkci, třeba pro kreditní kartu použije XXXX-XXXX-XXXX-1234
4. Odebrání nebo nahodilost metadat → v případě, že se nahrává soubor, odeberou se všechna metadata anebo se záměrně upraví na chybná
5. Používání dočasných chatů/chatů bez spojitosti s profilem → pokud to jde použít dočasný chat anebo nenavazovat chat na profil používaný na něco jiného

Pak už jsou tady pokročilejší věci, které jsem řešil na pár HIPAA a více citlivých projektech, tam se řešilo třeba:

a) Opt-out z toho, aby daná služba mohla použít ta data pro trénink
b) Vlastní modely vycházející z veřejně dostupných modelů
c) Tvorba kompletně vlastních modelů od začátku do konce
d) Podrobnější logging a auditing toho, co se děje a jak dlouho se vše uchovává
e) Korporáty si často tohle hlídají skrz DLP procesy a nástroje tak, aby se zabránilo lidské chybě

TL;DR → je důležitý si (buď jako jednotlivce nebo organizace) vyhodnotit celkový rámec v rámci bezpečnosti a soukromí těch dat a jaký s tím souvisí rizika a dle toho pak upravit ten proces tak, ať je tam korelace mezi citlivostí/typem dat a stráveným časem nad tím procesem samotným.

zoul · prosinec 21, 2024, 5:30odp.

Super téma! Přijde mně hodně důležitý se o tom bavit, lidi strkají do různých AI chatů věci hlava nehlava, je to trochu časovaná bomba.

Obecně mně ty současné AI technologie přijdou bezpečnostně jako velmi křehké prostředí. Je v nich nainvestovaná strašná hromada peněz (jen OpenAI prodělává miliony dolarů denně), nervozita stoupá, všichni zuřivě hledají další trénovací data a není to zrovna obor, který by proslul velkým respektem k autorským právům. Proto jsem obecně hodně opatrný, co jim dávám za data, a beru je spíš jako nedůvěryhodného hráče – jsem hodně defenzivní a radši počítám s tím, že ta data můžou někde uváznout v tréninkové sadě víceméně bez ohledu na uživatelské nastavení. Lokální modely mají v tomhle velkou výhodu.

Filip_Oscadal · prosinec 22, 2024, 6:21am

Gemini, like many large language models, processes information within its active session. This means that while it can access and process a vast amount of information from its training data, it doesn’t store individual user inputs or conversations beyond the current interaction.

zoul · prosinec 22, 2024, 6:56am

To říká ten model, nebo dokumentace? Pokud to říká ten model, tak je ta informace prakticky bezcenná. Pokud dokumentace, je to o něco lepší, ale pořád je tu možnost leaknout ta data například omylem, kreativním výkladem podmínek služby a podobně. (Viz reklamní průmysl a jeho nakládání se soukromím uživatelů.)

tomnavratil · prosinec 22, 2024, 9:25am

A ještě doplním:

Gemini doesn’t use your prompts or its responses as data to train its models.

Nicméně jak píše @zoul, tohle samo o sobě řeší jen jedno riziko a nějakou rovinu; navíc pokud je člověk skeptickej, otázkou je, zda je tohle statement, kterýmu může člověk důvěřovat, kór s citlivými daty.

+1, tohle je přesně ono. Navíc prostě OpenAI a její non-profit status a cíle jsou taky na dost komplexní diskuzi. Na konci dne velcí hráči budou řešit, jak v post-AI době dosáhnout co největšího profitu a podílu na trhu.

Hel · prosinec 26, 2024, 8:37odp.

Tohle je nástroj, přes který jde zadávat prompty bez registrace a bez tréninku na vstupech - na tři různé AI nástroje.
Doporučuju pracovat jako s defaultním rozhraním, krásně jsou i vidět rozdíly ve výstupech, nemluvě o privacy důvodech

HonzaPoboril · prosinec 27, 2024, 1:42odp.

Ahoj, sám používám službu ppq.ai, psal jsem o tom tady:

Jinak pak lokální modely, nejlepší je LLAMA a na češtinu Mixtral. Ale musíš mít vhodný HW, typicky novější Mac s hodně RAM nebo herní grafiky.

yen · leden 29, 2025, 7:58am

Ahoj, vřelé díky všem. Na mou potřebu nejvíc sedí tohle: chápu, že je to limitováno důvěrou v ten nástroj a že s tím skutečně pracují, jak slibují)