GPTs a citlivé informace

Hello, obdobně jako u internetových prohlížečů přemýšlím nad bezpečností dat v use casech, kdy nechci jejich provozovateli předávat citlivé informace – nemluvím o konkrétních údajích jako datum narození, jako spíše obecně o mém stylu uvažování atd.

Máte tipy ať už na konkrétní, „bezpečnější” GPTs, nebo kombinaci kroků (nelogovat se, zakázat učení na mých promptech, psát prompty specifickým způsobem, …)? Díky!

2 Likes

Hodně záleží na tom, o jaká data se jedná (tzn. jaká je jejich klasifikace, jak citlivá jsou, kdo je klientem atd.), ale obecně jsem u klientů řešil následující:

1. Minimalizace dat → odebrání dat, co nejsou potřeba ke zpracování
2. Anonymizace dat → nahrazení dat jinými daty - A > B, B > F a podobně s tím, že legenda je offline nebo použití rozsahů
3. Maskování dat → v případě, že člověk řeší třeba regex nebo funkci, třeba pro kreditní kartu použije XXXX-XXXX-XXXX-1234
4. Odebrání nebo nahodilost metadat → v případě, že se nahrává soubor, odeberou se všechna metadata anebo se záměrně upraví na chybná
5. Používání dočasných chatů/chatů bez spojitosti s profilem → pokud to jde použít dočasný chat anebo nenavazovat chat na profil používaný na něco jiného


Pak už jsou tady pokročilejší věci, které jsem řešil na pár HIPAA a více citlivých projektech, tam se řešilo třeba:

a) Opt-out z toho, aby daná služba mohla použít ta data pro trénink
b) Vlastní modely vycházející z veřejně dostupných modelů
c) Tvorba kompletně vlastních modelů od začátku do konce
d) Podrobnější logging a auditing toho, co se děje a jak dlouho se vše uchovává
e) Korporáty si často tohle hlídají skrz DLP procesy a nástroje tak, aby se zabránilo lidské chybě


TL;DR → je důležitý si (buď jako jednotlivce nebo organizace) vyhodnotit celkový rámec v rámci bezpečnosti a soukromí těch dat a jaký s tím souvisí rizika a dle toho pak upravit ten proces tak, ať je tam korelace mezi citlivostí/typem dat a stráveným časem nad tím procesem samotným.

1 Like

Super téma! Přijde mně hodně důležitý se o tom bavit, lidi strkají do různých AI chatů věci hlava nehlava, je to trochu časovaná bomba.

Obecně mně ty současné AI technologie přijdou bezpečnostně jako velmi křehké prostředí. Je v nich nainvestovaná strašná hromada peněz (jen OpenAI prodělává miliony dolarů denně), nervozita stoupá, všichni zuřivě hledají další trénovací data a není to zrovna obor, který by proslul velkým respektem k autorským právům. Proto jsem obecně hodně opatrný, co jim dávám za data, a beru je spíš jako nedůvěryhodného hráče – jsem hodně defenzivní a radši počítám s tím, že ta data můžou někde uváznout v tréninkové sadě víceméně bez ohledu na uživatelské nastavení. Lokální modely mají v tomhle velkou výhodu.

Gemini, like many large language models, processes information within its active session. This means that while it can access and process a vast amount of information from its training data, it doesn’t store individual user inputs or conversations beyond the current interaction.