Ciència

Drets d’autor i la lluita per controlar les dades

Les tecnològiques afronten la creixent escassetat de dades per entrenar la IA i els reptes legals

La demanda de dades podria superar l’oferta disponible abans del 2028 i posa en risc la IA

OpenAI va utilitzar més d’un milió d’hores de vídeos de YouTube per entrenar GPT-4

Inter­net s’ha con­ver­tit en el camp de bata­lla d’una nova guerra: la lluita pel con­trol de les dades que ali­men­ten les intel·ligències arti­fi­ci­als (IA). Les grans tec­nològiques han posat l’ull en els con­tin­guts que mili­ons de per­so­nes publi­quen diària­ment, però aquesta car­rera per entre­nar les IA xoca fron­tal­ment amb els drets d’autor. Què passa quan la neces­si­tat de dades col·lideix amb la pro­tecció de la cre­a­ti­vi­tat humana?

Quan es parla d’entre­na­ment de models d’IA, ens refe­rim al procés pel qual els algo­ris­mes ana­lit­zen grans quan­ti­tats de dades per apren­dre patrons, gene­rar pre­dic­ci­ons o crear con­tin­guts. Aquest procés depèn fona­men­tal­ment de la dis­po­ni­bi­li­tat de grans volums de tex­tos, imat­ges, vídeos i àudios. El pro­blema sor­geix quan aques­tes dades estan pro­te­gi­des per drets d’autor, fet que ha conduït a un con­flicte crei­xent entre les tec­nològiques i els cre­a­dors de con­tin­gut.

Mus­tafa Suley­man, direc­tor d’intel·ligència arti­fi­cial a Micro­soft, va afir­mar recent­ment que tot el que es publica a inter­net des dels anys noranta esdevé “software lliure” que pot ser uti­lit­zat per entre­nar IA. Aques­tes decla­ra­ci­ons han gene­rat polèmica, espe­ci­al­ment entre cre­a­dors i edi­tors que veuen en aques­tes pràcti­ques una vio­lació dels seus drets. Les empre­ses tec­nològiques com Ope­nAI i Goo­gle han estat acu­sa­des en nom­bro­ses oca­si­ons de no res­pec­tar els drets d’autor a l’hora d’entre­nar els seus models, i han arri­bat a ser deman­da­des per orga­nit­za­ci­ons com Getty Ima­ges i The New York Times.

Sam Alt­man, CEO d’Ope­nAI, ha admès que seria “impos­si­ble” entre­nar els models d’IA més avançats sense uti­lit­zar mate­ri­als pro­te­gits per drets d’autor, argu­men­tant que la majo­ria d’expres­si­ons huma­nes estan cober­tes per aquesta legis­lació. Aquests mate­ri­als són essen­ci­als per crear sis­te­mes d’IA capaços de satis­fer les neces­si­tats actu­als, fet que ha por­tat la com­pa­nyia a uti­lit­zar dades acces­si­bles en línia, inclo­sos con­tin­guts pro­te­gits per copy­right, sense dema­nar permís o pagar als autors.

La manca de dades fia­bles i noves és un pro­blema crei­xent per a les empre­ses d’IA. Els experts avi­sen que la demanda de dades podria superar l’oferta dis­po­ni­ble abans del 2028, fet posa­ria en risc el desen­vo­lu­pa­ment de nous models. Ja s’estan explo­rant mètodes alter­na­tius com l’ús de dades sintètiques gene­ra­des per les matei­xes IA o el cir­cu­lar lear­ning, que implica ali­men­tar els sis­te­mes amb infor­mació d’alta qua­li­tat d’una manera més estruc­tu­rada.

Aquests mètodes encara no han demos­trat ser tan efec­tius com les dades reals. Ope­nAI va uti­lit­zar més d’un milió d’hores de vídeos de You­Tube per entre­nar GPT-4, incom­plint les polítiques de la pla­ta­forma i els drets d’autor dels cre­a­dors de con­tin­gut. Aquesta pràctica ha estat dura­ment cri­ti­cada i ha des­en­ca­de­nat deman­des legals.

Arran d’aquesta situ­ació, el debat sobre la regu­lació de l’entre­na­ment de models d’IA està més viu que mai. Als Estats Units, els legis­la­dors estan con­si­de­rant la pos­si­bi­li­tat d’obli­gar les tec­nològiques a pagar per les llicències dels arti­cles i altres dades uti­lit­za­des en els seus pro­jec­tes d’IA. Figu­res com Ric­hard Blu­ment­hal, sena­dor demòcrata, defen­sen que aques­tes pràcti­ques no només són moral­ment cor­rec­tes, sinó també legal­ment obli­gatòries.

En aquest con­text, algu­nes empre­ses han començat a bus­car solu­ci­ons col·labo­ra­ti­ves. Un exem­ple des­ta­cat és l’acord entre Asso­ci­a­ted Press i Ope­nAI, que per­met a l’agència de notícies nord-ame­ri­cana uti­lit­zar la tec­no­lo­gia d’IA a canvi de per­me­tre que els algo­ris­mes d’Ope­nAI s’entre­nin amb el seu arxiu de tex­tos des del 1985. Aquests acords podrien esde­ve­nir un model a seguir per altres empre­ses que bus­quin evi­tar con­flic­tes legals men­tre acce­dei­xen a dades valu­o­ses.

Un altre aspecte crític és la qua­li­tat de les dades uti­lit­za­des per entre­nar les IA. Si es basen en con­tin­guts de baixa qua­li­tat o gene­rats per altres IA, es corre el risc d’entrar en un cer­cle viciós on els models esde­ve­nen cada cop menys fia­bles. A més, la crei­xent tendència a uti­lit­zar dades sintètiques o d’ori­gen incert pot com­pro­me­tre la vali­desa dels resul­tats obtin­guts per aquests sis­te­mes.

A Europa, el regla­ment de la IA pretén garan­tir la trans­parència dels sis­te­mes d’IA, exi­gint que es pugui detec­tar si un con­tin­gut ha estat gene­rat per una màquina i que es deta­lli qui­nes dades han estat uti­lit­za­des per a l’entre­na­ment de models. Tot i que és un pas en la bona direcció, la seva imple­men­tació encara plan­teja incògni­tes.

El futur de l’entre­na­ment de models d’IA sem­bla divi­dir-se entre l’opor­tu­ni­tat de rei­vin­di­car el valor de l’auto­ria i el risc d’explo­tar indis­cri­mi­na­da­ment els con­tin­guts digi­tals. Els cre­a­dors i les empre­ses d’IA es tro­ben en un moment clau per rede­fi­nir les regles del joc, esta­blint un nou equi­li­bri entre la inno­vació tec­nològica i la pro­tecció dels drets d’autor.

A mesura que les empre­ses d’IA con­ti­nuen expan­dint els seus horit­zons, sor­gei­xen noves ini­ci­a­ti­ves que bus­quen un enfo­ca­ment més ètic en l’entre­na­ment de models. Un exem­ple és l’empresa emer­gent 273 Ven­tu­res, que ha desen­vo­lu­pat el pri­mer model d’IA cer­ti­fi­cat per no infrin­gir drets d’autor, ano­me­nat KL3M. Aquesta cer­ti­fi­cació, con­ce­dida per l’orga­nit­zació Fairly Trai­ned, demos­tra que és pos­si­ble crear models d’IA uti­lit­zant única­ment dades legals, pro­vi­nents de fonts pro­pi­e­tat de la com­pa­nyia o de domini públic.

La situ­ació actual també ha impul­sat la cre­ació de grans con­junts de dades de domini públic. És el cas de Com­mon Cor­pus, un pro­jecte coor­di­nat per l’emer­gent fran­cesa Ple­ias amb el suport del Minis­teri de Cul­tura. Aquest con­junt de dades, com­post ínte­gra­ment per mate­rial de domini públic, ofe­reix una alter­na­tiva als models d’entre­na­ment tra­di­ci­o­nals, ja que per­met a inves­ti­ga­dors i empre­ses emer­gents acce­dir a dades veri­fi­ca­des i lliu­res de pre­o­cu­pa­ci­ons legals. Tot i que Com­mon Cor­pus té cer­tes limi­ta­ci­ons, com ara con­te­nir con­tin­guts obso­lets, suposa un esforç per crear un entorn d’IA més trans­pa­rent i ètic, i podria ser una via per reduir la dependència de les tec­nològiques dels con­tin­guts pro­te­gits per drets d’autor.

SurferSEO: Millora contingut per a un bon SEO

és una eina enfocada a l’arquitectura SEO, ideal per optimitzar el contingut en línia. Permet analitzar i comparar el teu contingut amb les principals webs competidores, oferint recomanacions per millorar el SEO. Amb anàlisi en temps real i ajustos dinàmics, augmenta la visibilitat del teu contingut.

Seeker: Visualitza i interactua amb dades en un xat

Seeker és una eina i xat que integra IA generativa amb generació augmentada per recuperació, transformant com extraiem i analitzem informació. Amb una interfície intuïtiva per crear i descobrir contingut, permet la càrrega il·limitada d’arxius i carpetes. S’hi pot interactuar amb dades en temps real.

Colossyan: Vídeos corporatius i educatius amb IA

és una plataforma d’IA especialitzada en la creació de vídeos educatius i corporatius. Transforma textos en vídeos interactius amb disseny personalitzat, sent essencial per a la producció ràpida de contingut. Suporta més de 70 idiomes, incloent català i espanyol europeu, amb una varietat de veus.

ClipDrop: Eina versàtil per editar imatges

és una eina d’edició per als que no dominen aplicacions de disseny complexes com Photoshop. Ideal per a dissenyadors i desenvolupadors d’aplicacions, permet eliminar elements no desitjats, ajustar la il·luminació i millorar la qualitat de les imatges. Utilitza reconeixement d’imatges basat en IA.

Diccionari

Intel·ligència artificial neurosimbòlica

La intel·ligència artificial neurosimbòlica (neuro-symbolic AI) combina aprenentatge profund i raonament simbòlic per aprofitar els punts forts de cada mètode. Això permet a les màquines comprendre dades complexes i raonar de manera més efectiva, cosa que millora la seva capacitat per resoldre problemes que requereixen tant aprenentatge com lògica.

Sobrecàrrega

La sobrecàrrega es refereix als recursos addicionals necessaris per executar una tasca o operació, com temps de càlcul o memòria extra. Aquests recursos addicionals poden afectar l’eficiència d’un sistema i és important minimitzar-los per optimitzar el rendiment del programari o del maquinari.

Programació probabilística

La programació probabilística és un paradigma que facilita la creació de models estadístics, combinant programació tradicional amb inferència probabilística. Permet als desenvolupadors definir models complexos amb incertesa de manera més simple i fer inferències automàticament, a fi de millorar l’anàlisi de dades.

Regularització

La regularització és una tècnica utilitzada per evitar el sobreajustament en models d’IA, penalitzant models excessivament complexos durant l’entrenament. Mitjançant l’addició de termes de penalització al cost total, la regularització ajuda a generalitzar millor els models amb dades noves, mantenint un equilibri entre biaix i variància.



Identificar-me. Si ja sou usuari verificat, us heu d'identificar. Vull ser usuari verificat. Per escriure un comentari cal ser usuari verificat.
Nota: Per aportar comentaris al web és indispensable ser usuari verificat i acceptar les Normes de Participació.
[X]

Aquest és el primer article gratuït d'aquest mes

Ja ets subscriptor?

Fes-te subscriptor per només 48€ per un any (4 €/mes)

Compra un passi per només 1€ al dia