Provocari legislative in cazul dezvoltarii unui chatbot

Cristiana Grigorescu, Partener Grigorescu Cristiana & Asociații

Material realizat de către Cristiana Grigorescu, Partner LegalSteps

Ce reprezinta un chatbot?

    Chatbotii sunt, in general, definiti ca un sistem informatic care functioneaza ca o interfata intre utilizatori umani si aplicatii software, folosind un limbaj natural scris sau vorbit ca si mijloc principal de comunicare.

    In prezent, utilizarea chatbotilor este din ce in ce mai raspandita, acestia perfectionandu-se si ajungand sa fie folositi in diverse domenii de activitate din ce in ce mai diverse. Rolul lor este sa simuleze o discutie purtata cu un partener uman, fiind unele dintre cele mai complexe aplicatii de procesare a limbajului (“Natural Language Processing” sau, pe scurt, “NLP”).

    Mai precis, NLP reprezinta o ramura a inteligentei artificiale (IA) care se focuseaza pe imitarea comportamentului uman in ceea ce priveste utilizarea limbajului.

    Utilizarea chatbotilor

    Prin dezvoltarea chatbotilor se urmareste imbunatatirea calitatii serviciilor precum si reducerea muncii umane, ceea ce va conduce, in timp, la reducerea costurilor legate de angajarea de personal.

    Companiile utilizeaza chatbotii atat pentru a gestiona mai usor si eficient relatiile cu clientii lor (prin chatboti externi, de ex: customer support pentru diferite domenii, precum: medical, bancar, asigurari, retail, turism, etc.) cat si pentru a indeplini anumite roluri in cadrul companiei (prin chatboti interni, precum: chatboti financiare, de HR, IT support, Reporting, etc.).

    Desi chatbotii au anumite limitari fata de interactiunea cu o persoana, utilizarea lor este extrem de utila pentru anumite operatiuni standard (de ex. efectuarea de programari, obtinerea de documente precum: adeverinte, extrase de cont, extragerea de informatii din documente nestructurate, generarea de documente, etc.).

    Astfel, din ce in ce mai multe companii inteleg sa investeasca in acest tip de solutii pentru a inlocui activitati umane, in special cele cu un grad de complexitate mai redus sau repetitive. Desi pe termen scurt o astfel de decizie implica o investitie financiara precum si un efort de timp pentru implementare si acomodare, cu siguranta ca, pe termen lung, rezultatele se pot materializa, pe de o parte, prin reducerea costurilor si, pe de alta parte, prin eliminarea unor erori firesti care apar in cazul activitatilor umane.

    Antrenarea modelului de limbaj si datele de training

    Pentru ca un chatbot sa poata fi utilizat in scopul pentru care a fost creat, aceasta trebuie sa fie antrenat prin expunerea la “date de training” relevante, astfel incat acesta sa poata in final identifica si extrage raspunsurile solicitate de utilizator in mod corect.

    Aceste date de training constau in text scris, inregistrari de limbaj, organizate intr-o baza structurata care poate fi completata (manual sau semi automat) cu noi seturi de informatii.

    In acest scop, dezvoltarea unui chatbot presupune ca dezvoltatorul acestuia sa utilizeze datele de training detinute sau achizitionate de acesta si/sau sa utilizeze date furnizate de terti (de ex. clienti/parteneri) pentru crearea modelului de limbaj (“language model”).

    Doar dupa finalizarea unui model de limbaj, acesta poate fi integrat in produsul software
    (in acest caz, chatbot). Un chatbot poate contine mai multe astfel de modele care indeplinesc functii diferite pentru intelegerea si generarea de limbaj (scris sau vorbit).

    Daca dezvoltatorul chatbotului opteaza pentru achizitia datelor de training de la un tert, dezvoltatorul va avea un rol in dezvoltarea ulterioara si/sau customizarea acestora precum si a tehnologiei utilizate, selectarea si pre-procesarea datelor de training, testarea modelelor si optimizarea lor permanenta.

    Chiar daca, in acest caz, datele de training furnizate de un tert aparțin acestuia din urma, algoritmii utilizați de dezvoltatorul chatbotului în formarea modelelor de limbaj, rezultate in procesul de training, raman ale dezvoltatorului. Totusi, tertul ar putea solicita sa dobandeasca un drept asupra acestor modele, atata timp cat ele sunt obtinute pe baza datelor furnizate de acesta.

    Prin urmare, pe langa crearea initiala a unui chatbot, care presupune dezvoltarea unui model de limbaj sau achizitionarea acestuia de la un tert, modelul creat sau, dupa caz, achizitionat, initial trebuie imbunatatit in permanenta.

    Or, in cazul in care datele utilizate pentru antrenarea modelului de limbaj sunt obtinute de la un tert  fara a fi achizitionate de la acesta (de ex. client), datele furnizate de terti sunt protejate de obligatia contractuala respectiv legala de mentinere a confidentialitatii. Totodata, in cazul in care datele de training contin lucrari protejate de drepturi de autor precum si date cu caracter personal, acestea beneficiaza si de protectia oferita de legislatia privind drepturile de autor si a celei privind protectia datelor cu caracter personal.

    Incidenta legislatiei privind drepturile de autor si protectia datelor cu caracter personal

    Faptul că datele de training, necesare pentru construirea unui chatbot, conțin adesea date cu caracter personal și conținut protejat de drepturi de autor si drepturi conexe, nu exclude utilizarea acestora, insa aceasta utilizare trebuie sa respecte cerintele stabilite de legislatia privind drepturile de autor si protectia datelor.

    Din punct de vedere legal, un chatbot reprezinta un program pentru calculator, acesta fiind protejat de legislatia privind drepturile de autor.

    Astfel, conform art. 73 din Legea 8/1996 privind drepturile de autor si drepturile conexe, cu modificarile ulterioare: “protectia programelor pentru calculator include orice expresie a unui program, programele de aplicaţie şi sistemele de operare, exprimate în orice fel de limbaj, fie în cod-sursă sau cod-obiect, materialul de concepţie pregătitor, precum şi manualele.”

    Asa cum se poate observa, definitia este cuprinzatoare, astfel incat cu siguranta sunt inclusi si chatbotii in aceasta categorie.

    Incidenta legislatiei privind drepturile de autor este relevanta atat din perspectiva modelelor de limbaj folosite cat si a datelor de training.

    Astfel, din perspectiva drepturilor de autor, principala problemă este dacă modelul de limbaj include conținut protejat de drepturi de autor. Ca regulă generală, modelele nu includ operele protejate de drepturi de autor utilizate pentru crearea lor, deoarece se bazează pe fragmente mici care nu sunt suficient de originale pentru a fi protejate de drepturi de autor. Totusi, in cazul în care modelele conțin elemente protejate de drepturi de autor, trebuie obținută permisiunea titularului dreptului de autor.

    Referitor la datele de training, pentru a evita restrictiile incidente impuse de legislatia privind drepturile de autor, un dezvoltator ar putea sa utilizeze conținut care nu este protejat din aceasta perspectiva. Totusi, avand in vedere tipul chatbotului, acest lucru nu este intotdeauna posibil, datele de training utilizate fiind adesea protejate prin drepturi de autor.

    Totodata, trasarea unei linii de demarcație între conținutul care poate fi protejat prin drepturi de autor și cel care nu beneficiaza de aceasta protectie poate fi de multe ori dificila, fapt ce ridica un semn de intrebare asupra restrictiilor aplicabile utilizarii acestora.

    Conținutul protejat prin drepturi de autor este uneori extras din baze de date, care pot fi publice sau protejate prin drepturi de autor.

    Extragerea de texte și date are un înțeles diferit în contextul protecției datelor cu caracter personal și al drepturilor de autor. Din perspectiva protecției datelor cu caracter personal, extragerea de texte și de date constituie, conform Regulamentului (UE) 2016/679 privind protecția datelor cu caracter personal (“GDPR”), o “prelucrare” a datelor cu caracter personal, care nu se poate realiza decat in baza unui temei juridic intemeiat conform GDPR.

    GDPR definește prelucrarea atât de extensiv încât orice operațiune efectuată asupra datelor cu caracter personal reprezintă o prelucrare (i.e colectarea, înregistrarea, organizarea, structurarea, stocarea, adaptarea sau modificarea, extragerea, consultarea, utilizarea, divulgarea prin transmitere, diseminarea sau punerea la dispoziție în alt mod, alinierea sau combinarea, restricționarea, ștergerea sau distrugerea).

    Pentru a evita aplicabilitatea legislatiei privind protectia datelor cu caracter personal, dezvoltatorul poate să utilizeze date care nu au restricții legale (precum datele anonimizate).

    Cu toate acestea, de multe ori este inevitabil să se utilizeze date care conțin informatii cu caracter personal sau continut protejat prin drepturi de autor. GDPR stabileste, de asemenea, categoriile speciale de date cu caracter personal, pentru care prelucrarea este și mai restrictiva (de ex. date privind starea de sanatate, datele privind originea rasiala sau etnica, opiniile politice).

    Definiția datelor cu caracter personal este destul de extinsă și acoperă o varietate de date potențial relevante pentru chatboti, cum ar fi numele unei persoane, identificatori direcți și indirecți și vocea unei persoane.

    In ceea ce priveste vocea, cu excepția cazului în care aceasta este utilizată pentru a identifica o persoană, caz in care vocea reprezinta o data cu caracter personal speciala conform GDPR (fiind inclusa in categoria datelor biometrice), aceasta nu face parte din categoriile speciale de date cu caracter personal, iar prelucrarea sa nu este supusă cerințelor mai stricte aplicabile categoriilor speciale de date cu caracter personal.

    Pentru comunicarea verbala, chatbotii au nevoie de inregistrari ale vocii umane pentru activitatea de training.

    Or, vocea reprezentand o data cu caracter personal, sunt in acest caz incidente prevederile legislatiei privind protectia datelor.

    In cazul in care vocea este transformata, comprimata sau modificata, in orice alt mod care face imposibila identificarea titularului vocii, singurele date cu caracter personal ar fi cele cuprinse in continutul inregistrarii verbale. Practic, in acest caz, se vor aplica aceleasi principii ca in cazul mostrelor de text, care sunt supuse prevederilor legislatiei privind drepturile de autor si a celor conexe.

    O alta problema legata de chatbotii activati in functie de voce este ca acestia trebuie sa proceseze in continuu conversatiile din jurul lor pentru a raspunde cand li se solicita interventia. Mai ales in spatiile private, o astfel de functionalitate poate ridica ingrijorari legate de protectia vietii private.

    Sistematizand prevederile legale aplicabile, impactul legislatiei privind protectia datelor cu caracter personal se materializeaza in special cu privire la: (a) necesitatea indicarii unui temei legal pentru procesarea datelor cu caracter personal; (b) obligatia de a informa persoanele vizate cu privire la: (i) posibilitatea utilizarii datelor acestora pentru a antrena un model; (ii) mecanismul utilizat (in cazul deciziilor automate); (iii) drepturile persoanelor vizate; si (c) posibilitatea ca persoanele vizate sa isi retraga consimtamantul sau sa obiecteze cu privire la procesare (daca temeiul procesarii a fost reprezentat de consimtamant).

    Temeiul utilizarii datelor cu caracter personal si al continutului protejat de drepturi de autor

    În general, utilizarea datelor cu caracter personal și a conținutului protejat de drepturi de autor poate fi utilizat in baza acordului prealabil sau a altor temeiuri juridice.

    Potrivit art. 6 alineatul (1) din GDPR, consimțământul este unul dintre temeiurile juridice pentru prelucrarea datelor cu caracter personal. Deși consimțământul prezinta potentiale garantii pentru protectia drepturilor și libertăților persoanei vizate, obținerea acestuia nu este întotdeauna posibilă. De exemplu, crearea modelelor de limbaj ar putea necesita utilizarea unui număr mare de date inclusiv date colectate cu mult timp in urma. Astfel, nu este realist să se obțină consimțământul persoanei vizate din cauza eforturilor excesive sau a lipsei datelor de contact. Prin urmare, in astfel de situatii, trebuie analizata posibilitatea invocarii unui alt temei juridic.

    GDPR prevede alte două temeiuri juridice în afară de consimțământ care ar putea fi invocate: îndeplinirea unei sarcini efectuate în interes public (specifica organizațiilor de cercetare și universităților care desfășoară activități de cercetare în interes public) precum si interesul legitim. Totusi, acesta din urma trebuie justificat in fiecare caz, in mod temeinic.

    Obținerea permisiunii de la titularul drepturilor de utilizare a conținutului protejat de drepturi de autor se confruntă cu provocări similare celor descrise mai sus cu privire la obținerea consimțământului pentru prelucrarea datelor cu caracter personal.

    In cazul in care un model de limbaj a fost creat utilizând date fără un temei juridic, partea vătămată are dreptul la despăgubiri, iar contravenientului i se pot aplica amenzi în cazul încălcarii prevederilor GDPR. Totodata, partea vătămată poate solicita încetarea procesarii ilegale a datelor cu caracter personal și, dupa caz, incetarea utilizarii ilegale a operelor protejate prin drepturi de autor.

    Cu toate acestea, este interesant sa analizam ce se întâmplă cu un model care a fost creat ilegal, dar modelul în sine nu conține date personale sau conținut protejat de drepturi de autor. Rămâne de văzut dacă cadrul de reglementare al UE va fi interpretat într-un mod care să permită să se solicite ștergerea modelelor create ilegal. Cel putin teoretic, măsura de a solicita ștergerea unui model ar putea fi aplicabilă în cazurile în care, din cauza lipsei de competențe juridice sau în mod intenționat, un model este creat fără un temei juridic adecvat.

    Din punct de vedere tehnic instruirea modelului de limbaj poate fi efectuată de obicei astfel încât este imposibil să se recreeze datele de formare din model, iar modelul nu conține părți originale ale operelor incluse în datele de antrenament. După îndeplinirea acestor condiții, modelul este o nouă lucrare independentă, separata de materialul de instruire în ceea ce privește drepturile de autor. De asemenea, modelele nu conțin date cu caracter personal, dacă potentialele elemente de identificare cum ar fi numele, codul numeric personal, numarul de telefon, adresa etc. sunt stocate numai în combinații care nu permit identificarea unei persoane reale. În cazul în care datele cu caracter personal rămân stocate în modele, trebuie să existe un temei pentru prelucrarea acestora.

    Concluzii

    Așa cum am menționat anterior, chatbotii funcționează pe baza unor modele avansate de limbaj, capabile să interpreteze și să genereze răspunsuri asemănătoare celor umane. Aceste modele sunt, de obicei, antrenate pe seturi vaste de date, care pot include o varietate de conținut, cum ar fi materiale protejate prin drepturi de autor și/sau date cu caracter personal. Având în vedere natura acestor seturi de date, implicațiile legale privind utilizarea lor trebuie analizate cu atenție.

    Prin urmare, este esențial ca dezvoltatorii de chatboți să respecte reglementările privind protecția datelor, în special GDPR. În plus, dezvoltatorii trebuie să se conformeze legislației relevante referitoare la drepturile de autor și proprietatea intelectuală.

    Acest lucru presupune obținerea acordurilor necesare pentru orice material protejat prin drepturi de autor și asigurarea că datele personale sunt procesate in baza unui temei juridic adecvat (de ex. consimtamantul, interesul legitim sau cercetarea in inters public) si gestionate conform standardelor de protecție a datelor.

    Nu in ultimul rand, modelele chatbotilor trebuie să fie constant optimizate, nu doar pentru a îmbunătăți performanța, ci și pentru a rămâne conforme cu cerințele legale în continuă schimbare.