V dnešní době lze v online prostoru najít obrovské množství dat, která lze využít jak pro výchovu AI, tak i pro parametrizaci základních procesů práce s daty.
Prakticky denně využíváme služby třetích stran, ať už jde o Google (Android především), nebo služby Microsoftu pro firemní účely, případně jiné cloudové služby s přidanou hodnotou.
Tím vzniká extrémně nebezpečné zlehčení bezpečnosti v hlášce typu: „Vždyť už všichni naše data mají.“ Pojďme se tedy zjednodušeně podívat, jak je to s daty a službami třetích stran. Z tohoto výčtu rovnou vynechme služby, které mají v licenčních podmínkách rovnou napsáno, že s daty pracují přímo a většina provedených akcí se přenáší přímo na platformu a platforma je vlastníkem dat i principů.
(Vyskakuje na vás stále reklama #Deeply? Přečtěte si raději licenční podmínky před plným využitím.)
Akt první… mají naše data…
Velká část korporátních firem ustoupila od provozu vlastních serverů a přešla na cloudové služby. Tím můžeme potvrdit, že naše data mají. Nemohou ale přistupovat k obsahu dat, pouze ke struktuře a metadatům, jako jsou například informace o typu dat, velikosti dat a frekvenčním využití. Jakékoliv využití obsahu dat je porušení práv firmy a hraničí s trestnou činností.
Akt druhý… pracují s našimi daty…
Pokud kromě cloudových služeb využijeme i zpracování obsahu dat, legalizujeme využití našich dat. To neznamená hned, že se naše data vyskytnou na internetu veřejně ani že je platforma využije pro vlastní přímé obohacení, ale již mohou být naše data využita pro výuku AI a výsledek poskytnut dalším. Toto již může být problém, rozdělme ho. Může jít pouze o obsahové zpracování, ale také může jít o předání našeho schématu práce nad daty. To už hraničí s předáním know-how třetí straně.
Akt třetí… pracují s naším pochopením dat…
Každý, kdo pochopí dosah, musí být zděšený, jak je dnes snadné přijít nejen o data, ale právě o know-how, jak s těmi daty pracovat.
Pro představu pojďme na platformu GPT a čtenáře prosím o toleranci v mém zjednodušení příkladu.
Kdo ještě nepodlehl fenoménu GPT, je krok pozadu jak ve svém vzdělávání, tak i ve zjednodušení mnoha denních činností. Nic co se nedá dohnat ;).
Já osobně se denně doptávám GPT (i lokálních LLM), ať už je to svět regulárních výrazů, generování článků, ale i obyčejné věci praktického života. Tyto informace vychází ze základního datasetu použitého pro výuku AI, tedy převážně veřejných dat, která jsou k dispozici běžně. Proti tomuto využití nelze nic namítat. AI pracuje se svými daty, přizpůsobuje se hovoru s uživatelem a postupně roste relevance vzájemnosti.
Pak pracuji s daty firmy a NIKDY bych je nepředal jiné platformě. Také s daty klientů firmy, a to je hodně horký kaštan. O těchto datech se ani nevypráví!
GPT například poskytuje určité možnosti uchlácholení uživatelů a poskytnutí zdání bezpečnosti. Lze si zvolit, aby AI nevyužívala data uživatele pro svůj rozvoj, aby se AI neučila z historie diskuze, a lze i neuchovávat historii. Na první pohled je to „bezpečné“, ale když půjdeme do hloubky tématu zpracování dat pomocí AI, vždy nalezneme díry.
Jednou z těchto děr je právě princip „vždyť už naše data mají“, jenže my učíme AI s těmi daty pracovat!
Tedy i když zdánlivě neposkytneme možnost AI data vstřebat do korpusu, tak pořád nad prací s daty vzniká princip užití dat, který poskytujeme.
Jakmile zadáme prompt, prompt se zpracuje, tedy AI uchopí a následně relevantně odpoví.
Nepotřebuje už obsah našich dat. Stačí výukový vzorec práce s daty. A ten proběhne vždy, i když anonymně a bez návaznosti na historii. My odpověď dále zpracujeme a často upřesníme. Takže AI, přestože nemá obsah dat, má Podnět a Reakci a také vztahovost mezi nimi. Tedy vzruch korpusu, který je součástí AI, nikoliv našeho chatu s AI. My tak vzděláváme platformu třetí strany, i když obsah našich dat neuchovává. Předali jsme klíč, jak na tato data (a typová metadata) relevantně nahlížet, a je jen otázkou času, kdy jedinečnost našeho Know-how se stane obecnou.
Josef Mareyi, CAT specialista