TehnologijaVijestiZakon

Adobe optužen za zloporabu autorskih djela: prijedlog klasne tužbe…

Uvod: zašto ovaj slučaj mijenja igru oko umjetne inteligencije i autorskih pravaKao što mnoge tehnološke tvrtke rade zadnjih godina, Adobe je posljednjih godina snažno usmjerio svoje poslovanje prema umjetnoj inteligenciji.

Uvod: zašto ovaj slučaj mijenja igru oko umjetne inteligencije i autorskih prava

Kao što mnoge tehnološke tvrtke rade zadnjih godina, Adobe je posljednjih godina snažno usmjerio svoje poslovanje prema umjetnoj inteligenciji. U ponudi ima Firefly—AI-alate za generiranje medija i sadržaja—ali nova prijedloga klasne tužbe baca sjenku na ovu strategiju. Optužba tvrdi da su piratska izdanja knjiga, uključujući djela jedne autorice iz Oregona, korištena za treniranje modela SlimLM, dijela obitelji SlimPajama—dataset koji Adobe pripisuje za neki svojevrstan “dokument helper” na mobilnim uređajima. Ovaj slučaj simbolizira sve češći konflikt između brzog razvoja AI-tehnologije i zaštite autorskih prava, licenciranja i transparencije u korištenju podataka za treniranje. U nastavku ćemo razmotriti što točno stoji u tužbi, što su SlimLM i SlimPajama, zašto su takvi optužbi važni za cijeli industrijski ekosustav te koje su konsekvence za autore, izdavače i developere AI alata.


Što se točno optužuje? Ključne točke iz tužbe protiv Adobea

Prema prijedlogu klasne tužbe, Elizabeth Lyon, autorica iz države Oregon, tvrdi da su Adobe i njegovi partneri koristili piratska izdanja brojnih knjiga—uključujući i njenu književnu ostvarenja—kao dio skupa podataka koji je poslužio za pretrening SlimLM-a. Adobe opisuje SlimLM kao “nisku veliku jezičnu modelu” (small language model) seriju koja bi se mogla optimizirati za zadatke pomoći s dokumentima na mobilnim uređajima. Navodi se da je SlimLM pre-treniran na SlimPajama-627B, dedupliciranom, višudržavnim (multi-corpora) otvorenog koda skupu podataka koji je objavio Cerebras u lipnju 2023. Žaliteljica Lyon tvrdi da su neka od njezinih djela uključena u tretirani podskup manipuliranog skupa podataka koji je temelj Adobeova programa.

U optužbi se navodi sekvencijalni lanac: Books3 je velika zbirka od 191.000 knjiga koje se koriste za treniranje GenAI sustava; RedPajama je još uvijek spominjana kao važna komponenta uz dodatak Books3. Sukladno tužbi, SlimPajama je nastao kopiranjem i modificiranjem RedPajama skupa, po navodima tužitelja. Budući da je SlimPajama derivat RedPajama, tvrdi se da sadrži i zaštićena djela, uključujući ona koja pripadaju tužiteljima i drugim članovima klase.

Ova priča nije izolirana. U posljednjih nekoliko godina slične su se optužbe i tužbe proširile po tehnološkom sektoru. U nekim slučajevima, sudski spisi navode da su tvrtke koristile sadržaje “bez dopuštenja i bez zasluge ili kompenzacije” za treniranje njihovih AI-modela. U ovom kontekstu, slučajevi protiv Adobea, Applea i Salesforcea dodatno naglašavaju problem legitimnosti korištenja piratskih ili neautoriziranih materijala u procesu treniranja modela AI.

Predmet ove tužbe također ukazuje na šire teme koje su odoput preplavile industriju: transparentnost porijekla podataka, licenciranje i primjena etičkih standarda u izgradnji modela, te rizik od pravne nestabilnosti za tvrtke koje se oslone na masivne skupove podataka iz otvorenih ili poluotvorenih izvora. Dok traju sudski postupci, postoji značajan pritisak na industriju da razjasni “pravni okvir” oko korištenja autorskih djela u treniranju AI-modela—posebice onih koji su namijenjeni komercijalnoj primjeni. Udaljeni su rizici, ali i prilike: tvrtke koje uspostave jasne politike licenciranja, transparentnosti i etičkih kriterija mogle bi postići veći povjerenje korisnika i investitora.


Što su SlimLM i SlimPajama? Tehnički kontekst i zašto su važni

Što je SlimLM?

SlimLM se opisuje kao “mala” jezična mreža koja bi bila prilagođena za pomoć u dokumentima na mobilnim uređajima. U kontekstu istraživanja i komercijalne primjene, takvi modeli često služe za brz odgovor na upite, uređivanje teksta, rezimiranje dokumenata i generiranje sažetaka. Osnovni koncept je da se složenost velikih jezičnih mreža smanji kako bi se omogućila upotreba u uređajima s ograničenim resursima, poput pametnih telefona ili uređaja za poslovnu mobilnost. SlimLM-u su opisani korijeni u širem skupu podataka i pretrenjolima, što podiže pitanja o tome koje su točno informacije bile korištene i pod kojim uvjetima.

Što je SlimPajama?

SlimPajama je navedena kao skup podataka otvorenog koda, opisan kao dedupliciran i višedržavni (multi-corpora) skup podataka. Prema objavama koje se često citiraju u industriji, SlimPajama je izveden iz skupa podataka zvanog RedPajama, koji je, pak, povezan s Books3. Reduction i deduplikacija ovakvih skupova podataka često su potrebni kako bi se uklonili duplicirani sadržaji i što je moguće više upotrijebilo for training. No, kako tvrdi tužba, ovaj proces nije bio dovoljno transparentan, a sadržaj koji je uključivao zaštićena djela mogao je ostati neautoriziran.

Zaključno, SlimLM i SlimPajama ilustriraju dvije strane istog procesa: pokušaj izrade efikasnih, mobilno prilagodljivih AI rješenja kroz pretrening na velikim skupovima podataka, i istovremeno složen problem vlasništva, autorskih prava i etike u kontekstu umjetne inteligencije. Ovakav spoj tehničke ambicije i pravnih rizika postavlja temelje za buduće standarde u načinu na koji se podaci prikupljaju, označavaju i koriste u industriji AI-a.


Koji su pravni i poslovni rizici za tvrtke koje treniraju AI modele na ovakvim podacima?

Rizici su podijeljeni na nekoliko razina: pravni, reputacijski, operativni i regulatorni. Pravno, vlasnici autorskih prava traže kompenzacije i zaštitu od korištenja svojih djela bez dopuštenja. Prema dosadašnjim slučajevima, sudovi bi mogli tražiti financijske odštete i zahtjeve za zamjenu ili uklanjanje materijala iz budućih datasetova. Reputacijski rizik također je značajan; tvrtke koje su povezane s upotrebom piratskih ili neautoriziranih materijala mogle bi izgubiti povjerenje korisnika i partnera, što može utjecati na tržišni udio i investicije. Operativni rizici uključuju potrebu za rigoroznijom dokumentacijom porijekla podataka, izradom jasnih politika licenciranja i uspostavom mehanizama za provjeru podataka prije njihovog korištenja u treniranju. Regulatorni rizici brzo se mijenjaju; različite države i regije propisuju različite standarde o autorskim pravima, pravu na privatnost i transparentnosti algoritmo, a to može voditi do dodatnih troškova usklađivanja i izmjena u praksi prikupljanja podataka.

Potpuno je očito da ovaj slučaj ne ide samo o individualnom sporu. U savremenom AI-ekosustavu, mnoge firme razmišljaju o novim “policy-by-design” pristupima: zamišljaju i ugrađuju mehanizme za licenciranje u sam proces treniranja, stvaranje registriranih repozitorija s jasno označenim autorima i opsegom korištenja, te transparentnost algoritamskih odluka koje proizlaze iz njihovih modela. Primjeri koje spominjemo—Apple, Salesforce, Anthropic—pokazuju koliko su takvi problemi postali industrijski standard: trenutačna pravna bitka i potencijalne odštete prisiljavaju tehnološke kompanije da redefiniraju svoje prakse i ugovorne okvire. U nekim slučajevima, to vodi prema većoj transparentnosti i boljem licenciranju, ali i do mogućeg smanjenja brzine inovacije ako se složene potrebe za provjerama i suglasnostima studentima i autorima predugo protežu.


Pregled trenutnog konteksta u industriji: paralelni slučajevi i njihove implikacije

Najnoviji val tužbi nije izoliran fenomen. Kao što smo spomenuli, slične situacije dogodile su se i ranije—Apple Intelligence, Salesforce, pa čak i Anthropic. U rujnu su sudski postupci protiv Applea navodili da je tvrtka koristila zaštićeni sadržaj bez dopuštenja i bez zasluge. U listopadu je slična optužba išla protiv Salesforcea. Zajedno, ovi slučajevi pokazuju trend: sve više autorskih prava i izdavači koriste pravne mehanizme za zaštitu svojih interesa kada se njihove knjige i treći autori koriste u treniranju AI modela. U tom kontekstu, Anthropic je u rujnu pristao platiti 1,5 milijardi dolara autorima koji su tvrdili da su njihove knjige korištene za treniranje Claudea. Ovaj iznos nije samo brojčani podatak; on simbolizira prekretnicu koja može promijeniti način na koji se definira “dopušteno korištenje” i kako se nagrađuje autorska prava u digitalnom dobu. Takvi impulsi ostavljaju posljedice na sve sudionike u AI ekosustavu: istraživače, startup-ove, velike IT kompanije i, naravno, autore i izdavače.

Industrija sada razmišlja o tri ključna pitanja: kako osigurati transparentnost porijekla podataka, kako učinkovito licencirati i platiti autorska prava te kako stvoriti harmonizirane standarde za treniranje i evaluaciju modela. Krucijalno je da ovakvi slučajevi potaknuti jače okvirne politike za korištenje skupa podataka u AI-tehnologijama, uključujući jasnu evidenciju izvora, dozvole i uvjeta korištenja. U tom okviru, tvrtke koje uspješno demonstriraju etičniji i transparentniji pristup mogu opstati i rasti u budućim regulatornim okruženjima, dok će druge morati brže prilagoditi svoje prakse ili riskirati pravne komplikacije i gubitak povjerenja tržišta.


Praktični savjeti za autore, izdavače i DEVELOPERE AI alata

Za autore i izdavače

  • Potražite jasne licencne ugovore i autorska prava koja pokrivaju uporabu vašeg sadržaja u AI treningu.
  • Razmislite o stvaranju i promoviranju “registriranih sadržaja” s jasnim identifikatorima koji olakšavaju provjeru autorizacije.
  • Podržite inicijative za transparentnost: tražite od izdavača i tehnoloških partnera da otvoreno komuniciraju koje podatke koriste i pod kojim uvjetima.
  • Razmislite o modelima suradnje s AI tvrtkama koji uključuju licenciranje za specifične primjene, umjesto općeg pretreninga na širokom spektru podataka.

Za developere AI alata

  • Uvedite jasne politike o porijeklu podataka prije treniranja modela i dokumentirajte svaki korak—od prikupljanja do obrade i filtriranja.
  • Posvetite pažnju procesu deduplikacije i provjeri kvalitete podataka kako biste smanjili rizik od neželjenih kopija ili zaštićenih materijala.
  • Gradite okvire za licenciranje: razvijte transparentne kataloge punovažnih dataset-a i uvjete korištenja koje se mogu lako provjeriti i slijediti.
  • Razmotrite tehničke mehanizme za zaštitu vlasništva, poput watermarkinga teksta ili automatskih alata za prepoznavanje zaštićenih djela u treniranju i modelima.

Pros i cons u kontekstu ove vrste slučaja

  • : ubrzanje inovacija kroz korištenje velikih skupova podataka, stvaranje sofisticiranijih alata i poboljšanje učinkovitosti u obradi dokumenata; poticanje javnosti na bolju transparentnost i licenciranje autorskih sadržaja; poticanje razvoja standarda koji štite autorska prava.
  • : pravni rizici i visoki troškovi mogućih odšteta; potencijalno zastoj u razvoju dok se problemi licenciranja i etičkih pitanja ne riješe; veće administrativne zapreke koje mogu usporiti inovacije, naročito za manje tvrtke i istraživačke centre.

Zaključak: put naprijed za industriju AI i zaštitu autorskih prava

Ova priča nije samo pravni slučaj protiv tog ili onog giganta. Ona otvara dilemu koju industrija mora rješavati: kako uravnotežiti napredak umjetne inteligencije s legitimnim interesima autora i izdavača, uz istovremeno očuvanje inovativnosti i konkurentnosti. U svijetu gdje će se AI alati i modeli sve više integrirati u svakodnevne poslovne procese, važno je izgraditi jasne okvire: legalne, tehničke i etičke. To znači uspostaviti transparentne procese za prikupljanje podataka, licenci i referenciranje autorstva, izgraditi robustne mehanizme za otkrivanje i uklanjanje zaštićenih sadržaja te kreirati konsenzus o tome što se može koristiti bez izričite dozvole, a što zahtijeva posebnu licencu. Ako industrija uspije uspostaviti te standarde, korisnici će imati veće povjerenje u AI alate, a autore i izdavače očekivanu sigurnost i kompenzaciju za njihova djela. U konačnici, cilj nije usporiti inovacije, već ih kanalizirati u odgovornom, transparentnom i pravednom okruženju koje koristi cijeloj zajednici.


FAQ: često postavljana pitanja o Adobe slučaju i širem kontekstu

Što se točno događa s Adobeom u ovom slučaju?

Trenutačno postoji prijedlog klasne tužbe koji optužuje Adobe da je koristio piratske knjige za treniranje dijela svog AI modela SlimLM (u kontekstu SlimPajama-627B). Tužba tvrdi da su neke od autora, uključujući Elizabeth Lyon, čije su knjige dio tih skupova podataka, korištene bez dopuštenja. Adobe je navodno implementirao SlimLM kako bi poboljšao svoje sposobnosti u obradi dokumenata i generiranju sadržaja na mobilnim uređajima. Slučaj je u fazi pravne rasprave i postavlja temelj za buduće sudske odluke o tome kako se autorska prava primjenjuju na AI trening podatke.

Što su Books3 i RedPajama, i zašto su važni?

Books3 je zbirka od oko 191.000 knjiga koja se često spominje kao izvor za treniranje AI sustava. RedPajama je drugi važan skup koji se koristi u industriji, a spominje se kao izvor koji je korišten u mnogim otvorenim datasetima. Kritična točka je kako su ti skupovi reproducirani, modificirani i koji su autorski sadržaji ostali u njima nakon deduplikacije i obrade. Ovo postavlja pitanje licenciranja, autorskih prava i transparentnosti u procesu treniranja velikih modela.

Kako bi se moglo riješiti ovakve situacije u praksi?

Postoji nekoliko mogućih pristupa: unapređenje licenciranja s jasnim ugovorima o korištenju djela u treningu AI modela, stvaranje registara podataka s vidljivim identifikatorima autora i djela, te jačanje procedura provjere autorskih prava prije uklapanja sadržaja u skupove podataka. Također, industrija bi mogla promovirati standarde za transparentnost i odgovornost koji bi olakšali identifikaciju i rješavanje spornih slučajeva. U konačnici, javni i privatni sektor treba surađivati kako bi se izgradili mehanizmi koji omogućavaju inovacije uz poštivanje prava stvaratelja sadržaja.

Kakav je utjecaj na korisnike AI alata?

Korisnici bi trebali imati jasnije informacije o tome kako su njihovi alati trenirani i na kojim su podacima temeljeni; to povećava povjerenje i sigurnost korištenja AI. Isto tako, pravilno licencirani i transparentno objašnjeni AI alati manje su podsjetnik na rizike po privatnost i plagijat, što u konačnici potiče širu adopciju i prihvaćanje od strane poslovnih i javnih sektora. Uvođenje jasnih regula i praksi može pomoći u smanjenju rizika za tvrtke, autorima i krajnje korisnike.


Na kraju, ovi događaji nas podsjećaju da tehnologija ne živi u vakuumu. Porijeklo podataka, etička pravila i pravni okvir jednako su važni kao tehnološki napredak. Adobeov slučaj nije kraj priče: on je početak novog razdoblja u kojem će inovacije i zaštita autorskih prava morati rasti rame uz rame, uz jasniju komunikaciju i odgovoran pristup svim dionicima. Upravo kroz to ravnotežno razmišljanje možemo imati ne samo napredak u AI tehnologiji, već i očuvanje kreativnog bogatstva koje pokreće književnost, znanost i kulturu.

Povezano

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)