Hello, obdobně jako u internetových prohlížečů přemýšlím nad bezpečností dat v use casech, kdy nechci jejich provozovateli předávat citlivé informace – nemluvím o konkrétních údajích jako datum narození, jako spíše obecně o mém stylu uvažování atd.
Máte tipy ať už na konkrétní, „bezpečnější” GPTs, nebo kombinaci kroků (nelogovat se, zakázat učení na mých promptech, psát prompty specifickým způsobem, …)? Díky!
Hodně záleží na tom, o jaká data se jedná (tzn. jaká je jejich klasifikace, jak citlivá jsou, kdo je klientem atd.), ale obecně jsem u klientů řešil následující:
1. Minimalizace dat → odebrání dat, co nejsou potřeba ke zpracování 2. Anonymizace dat → nahrazení dat jinými daty - A > B, B > F a podobně s tím, že legenda je offline nebo použití rozsahů 3. Maskování dat → v případě, že člověk řeší třeba regex nebo funkci, třeba pro kreditní kartu použije XXXX-XXXX-XXXX-1234 4. Odebrání nebo nahodilost metadat → v případě, že se nahrává soubor, odeberou se všechna metadata anebo se záměrně upraví na chybná 5. Používání dočasných chatů/chatů bez spojitosti s profilem → pokud to jde použít dočasný chat anebo nenavazovat chat na profil používaný na něco jiného
Pak už jsou tady pokročilejší věci, které jsem řešil na pár HIPAA a více citlivých projektech, tam se řešilo třeba:
a) Opt-out z toho, aby daná služba mohla použít ta data pro trénink
b) Vlastní modely vycházející z veřejně dostupných modelů
c) Tvorba kompletně vlastních modelů od začátku do konce
d) Podrobnější logging a auditing toho, co se děje a jak dlouho se vše uchovává
e) Korporáty si často tohle hlídají skrz DLP procesy a nástroje tak, aby se zabránilo lidské chybě
TL;DR → je důležitý si (buď jako jednotlivce nebo organizace) vyhodnotit celkový rámec v rámci bezpečnosti a soukromí těch dat a jaký s tím souvisí rizika a dle toho pak upravit ten proces tak, ať je tam korelace mezi citlivostí/typem dat a stráveným časem nad tím procesem samotným.
Super téma! Přijde mně hodně důležitý se o tom bavit, lidi strkají do různých AI chatů věci hlava nehlava, je to trochu časovaná bomba.
Obecně mně ty současné AI technologie přijdou bezpečnostně jako velmi křehké prostředí. Je v nich nainvestovaná strašná hromada peněz (jen OpenAI prodělává miliony dolarů denně), nervozita stoupá, všichni zuřivě hledají další trénovací data a není to zrovna obor, který by proslul velkým respektem k autorským právům. Proto jsem obecně hodně opatrný, co jim dávám za data, a beru je spíš jako nedůvěryhodného hráče – jsem hodně defenzivní a radši počítám s tím, že ta data můžou někde uváznout v tréninkové sadě víceméně bez ohledu na uživatelské nastavení. Lokální modely mají v tomhle velkou výhodu.
Gemini, like many large language models, processes information within its active session. This means that while it can access and process a vast amount of information from its training data, it doesn’t store individual user inputs or conversations beyond the current interaction.