“Riservatezza delle conversazioni con l’IA – qual è la sorte dei dati utilizzati come prompt?” a cura dello Studio Legale Stefanelli&Stefanelli

Avv. Lenzi, Avv. Conditi

Molte delle questioni e delle criticità su cui ci si interroga legate all’utilizzo di sistemi di Intelligenza Artificiale riguardano la tutela della proprietà intellettuale, ed in particolare:

l’uso indiscriminato di informazioni che possono essere coperte da diritti di proprietà intellettuale per l’addestramento dei sistemi di AI;
la possibilità o meno di riconoscere tutela alle opere generate dai sistemi di AI.

Abbiamo già affrontato le menzionate questioni in due nostri approfondimenti precedenti, rispettivamente “Tutela della proprietà intellettuale e sviluppo dei sistemi di AI: due posizioni inconciliabili?” e “Chi è l’autore? L’intelligenza umana o quella artificiale?“.
Il presente contributo intende ampliare proprio questo ambito di indagine, e dunque analizzare quale sia la sorte dei dati di input che fornisce l’utente nel momento in cui interagisce con l’algoritmo, e se (ed eventualmente come) questi vengano utilizzati dopo essergli stati forniti.
Analizziamo la questione.

Il prompting e la RAG (Retrieval Augmented Generation)

I modelli di IA c.d. conversazionali, come ChatGPT, Claude, Gemini, così come quelli utilizzati per la creazione di immagini o musiche come Midjourney e Suno, ci stanno abituando a dialogare con un software. L’intento di tale “conversazione” è quello di ottenere un certo output desiderato dall’utente, formulando delle domande o dando istruzioni particolari, le quali, entrambe, sono input che contengono dati o informazioni.

Gli attuali sistemi di IA possono accogliere ed elaborare qualsiasi input, partendo dalle normali stringhe testuali fornite dall’utente, come ad esempio nel caso in cui venga data un’istruzione o posta una domanda, fino ad arrivare anche a documenti, immagini, file audio, fogli di calcolo.

Tali informazioni di input utilizzate per generare l’output dal modello di IA, sono generalmente note come prompt (per quanto di questo termine non esista una definizione universalmente concordata)[1]. Sono proprio i prompt, dunque, che indirizzano la risposta (output) fornita dal sistema di IA, influenzandola in modo determinante. È possibile, infatti, che una imprecisa formulazione di tale input da parte dell’utente porti l’algoritmo a fornire output altrettanto impreciso, sia in termini oggettivi (quindi contenenti ad esempio errori), che soggettivi (perché invece non rispondenti ai desiderata dell’utente).

In alcuni settori, quindi, il semplice prompting non è sufficiente e, al fine di ottenere risposte più attinenti ed evitare le c.d. allucinazioni dei modelli, è necessario ricorrere a tecniche più complesse come la Retrieval Augmented Generation (RAG). Tale tecnica fornisce al modello preaddestrato altre informazioni prese da una fonte esterna ed ulteriore rispetto all’utente stesso, come ad esempio una banca dati o una raccolta di documenti. Il modello, dunque, per fornire l’output combinerà sia le informazioni fornite dall’utente che quelle reperite attraverso le altre fonti, mirando in questo modo ad essere più preciso e completo nella risposta.

Di conseguenza, un sistema di IA accede a documenti, dati e informazioni, sia reperiti in rete o nella fonte sussidiaria eventualmente utilizzata con la RAG che (soprattutto) forniti dall’utente al momento della formulazione del quesito. Analogamente, questi e altri tipi di dati sono a monte impiegati nell’allenamento del modello stesso.

Occorre pertanto chiederci qual è la sorte di tali informazioni ed in particolare:

Le informazioni e i dati che forniamo ai modelli di AI rimangono riservati?

È difficile dare una risposta a questa domanda in astratto valida per tutti i sistemi di IA.
Può essere utile primariamente analizzare i Termini e Condizioni di alcuni dei sistemi maggiormente utilizzati, documenti complessi che vengono dagli utenti accettati al momento della registrazione, spesso attraverso l’apposizione di semplici flag.

Prendiamo dunque ad esempio OPEN-AI (https://openai.com/it-IT/policies/eu-terms-of-use/) leggiamo che:

“Utilizzo dei Contenuti da parte nostra. Possiamo utilizzare i Contenuti dell’utente in tutto il mondo per fornire, mantenere, sviluppare e migliorare i nostri Servizi, rispettare la legge applicabile, applicare i nostri termini e le nostre politiche e mantenere i nostri Servizi sicuri”

oppure Anthropic (https://www.anthropic.com/legal/consumer-terms)

“Our use of Materials. We may use Materials to provide, maintain, and improve the Services and to develop other products and services”.

È chiaro, dunque, che l’accettazione di tali termini e condizioni comporta che il sistema di IA di volta in volta prescelto potrà utilizzare i dati forniti come input dall’utente per “fornire, sviluppare e migliorare” il servizio, qualunque sia la loro natura. Risulta pertanto fondamentale la lettura di tali condizioni, per poter

scegliere il sistema e/o il tipo di abbonamento che offre maggior tutela della riservatezza e della confidenzialità delle informazioni fornite, o in alternativa
essere comunque consapevoli di quali tipologie di dati ed informazioni non è opportuno inserire come prompt nell’utilizzo del sistema stesso.

Infatti, bisogna prestare particolare attenzione a cosa viene fornito come input al sistema, dal momento che potrebbero rivelarsi dati personali o informazioni riservate, e dunque informazioni protette dalla normativa in materia di dati personali (a livello sovranazionale, Regolamento 2016/679) quando riferite a persone fisiche identificate o identificabili, dal punto di vista della proprietà industriale o intellettuale, oppure su cui più in generale si possano vantare diritti c.d. escludenti. Potrebbero infatti contenere elementi protetti dal diritto d’autore, banche di dati, brevetti o segreti commerciali: tutti oggetto di diritti di privativa a tutela dei titolari dei diritti stessi.

Un ulteriore aspetto deve poi essere considerato. In molti casi, e soprattutto nello svolgimento di un’attività lavorativa, l’utilizzatore di un sistema di IA può dover trattare dati personali, e, di conseguenza, rispettare le applicabili norme in materia in qualità di Titolare o Responsabile ai sensi del GDPR, nell’ottica del bilanciamento dei diritti e degli interessi delle parti, in primis proprio quello alla riservatezza. Tali dati possono essere ad esempio di clienti, fornitori, collaboratori, ecc.

Cosa accade quindi se tale tipologia di dati viene fornita ad un sistema di IA come input?

Anche in questo caso, occorre riferirsi ai Termini e condizioni. Ad esempio, OPEN-AI precisa che:

“L’utente è responsabile per i Contenuti, anche per quanto riguarda la garanzia che essi non violino le leggi vigenti o i presenti Termini. L’utente dichiara e garantisce di essere in possesso di tutti i diritti, le licenze e i permessi necessari per fornire l’Input ai nostri Servizi”.

Di conseguenza, dal momento che i fornitori di sistemi di IA dichiarano di utilizzare i dati di input per fornire, mantenere, addestrare i loro servizi, il soggetto che fornisce dati personali come input al sistema potrebbe star commettendo una violazione della normativa privacy applicabile.

È presumibile, inoltre (ed in verità è spesso questo il caso) che l’utilizzatore sia anche sottoposto a vincoli contrattuali, quali la sottoscrizione di una Nomina in qualità di responsabile esterno ai sensi dell’art. 28 del GDPR o di un Non Disclosure Agreement oppure ad obblighi deontologici di riservatezza.
In questo caso, e nella circostanza sopra descritta, quindi, si starebbero anche violando tali accordi, oltre che, come detto, la normativa vigente in materia di protezione dei dati personali.

Nel particolare settore della sanità, infine, le problematiche ora rilevate risultano ulteriormente ampliate.
Possono presentarsi, infatti, i seguenti scenari.
Da un lato, è possibile che il professionista sanitario utilizzi un sistema come quelli in commento come aiuto alla diagnosi, sostegno per attività burocratiche nell’ordinaria pratica clinica oppure per la gestione di indagini cliniche.
Dall’altro, è comunque possibile ipotizzare situazioni in cui fabbricanti di dispositivi medici intendano integrare tali sistemi all’interno di un dispositivo medico-software (SAMD) come elemento cardine per raggiungere la sua destinazione d’uso medicale.

Lasciando per altra sede le enormi problematiche giuridiche (in termini regolatori, di responsabilità dell’utilizzatore e del fabbricante, nonché relativamente al trattamento dei dati personali) sollevate da quest’ultima ipotesi, anche il mero utilizzo di tali sistemi da parte del professionista sanitario per lo svolgimento dell’ordinaria pratica clinica solleva diversi interrogativi.

In particolare, occorrerà valutare attentamente che nell’individuazione del prompt da fornire al sistema non si includano dati personali dei pazienti (e dunque dati che in qualche modo permettano di riconoscere le persone fisiche che egli ha in cura), pena la violazione non soltanto della normativa in materia di privacy, ma anche quella che impone il rispetto del segreto professionale (o medico).
Ancora, non potranno essere inseriti dati in qualche modo protetti a favore della struttura di cura presso cui il medico svolge la propria attività, relativi ad esempio ad attività di ricerca scientifica.

Come comportarsi?

Il primo passo da fare sarà sicuramente quello di valutare attentamente i Termini e condizioni d’uso dei sistemi di IA e selezionare il sistema che dia le maggiori garanzie in merito all’utilizzazione e diffusione di dati, anche optando per abbonamenti a pagamento ove più idonei.

Nell’ambito lavorativo, la scelta di cui sopra dovrebbe essere fatta dal datore di lavoro o da suoi incaricati con istruzioni precise ai dipendenti e collaboratori di quali sistemi possono essere utilizzati per lo svolgimento delle attività lavorative.

Le medesime istruzioni dovrebbero contenere indicazioni anche in merito ai documenti, informazioni, file etc che possono essere utilizzati in fase di input e gli accorgimenti da porre in essere.

Certamente si tratta di valutazioni non semplici ma da cui i soggetti che utilizzano un sistema di IA difficilmente potranno esimersi se non vorranno esporsi al rischio di infrangere obblighi contrattuali o altri obblighi di riservatezza.

Un aiuto potrebbe arrivare dall’attuazione dell’art. 53 dell’AI ACT che prevede

L’adozione di politiche aziendali, codici di condotta che prevedano la tutela della proprietà intellettuale e, in particolare, garantiscano l’individuazione e il rispetto delle riserve espresse dai titolari dei diritti in modo appropriato, ad esempio attraverso strumenti che consentano lettura automatizzata in caso di contenuti resi pubblicamente disponibili online (art. 3 comma 4 Dir. UE 2019/790).
La redazione e pubblicazione di un documento di sintesi dei contenuti utilizzati per l’addestramento degli algoritmi.