OpenAI otkrio da su uništili ogroman broj podataka s knjigama koje su koristili za uvježbavanje GPT-a

autor:

08. maj. 2024. 17:43

| Tehnologija

Podijeli

ChatGPT And Internet Companies Photo Illustrations — AFP | AFP

Usred tekućeg pravnog sukoba između američkog Ceha autora i OpenAI-ja, pojavili su se nedavno otpečaćeni dokumenti koji rasvjetljavaju brisanje dvaju značajnih skupova podataka, nazvanih "books1" i "books2", ključnih u obuci OpenAI-jevog GPT-3 AI modela.

Oglas

Pravni podnesci od strane savjetnika Ceha sugeriraju da su ovi skupovi podataka vjerojatno sadržavali više od 100.000 objavljenih knjiga, čineći srž optužbi Ceha da je OpenAI prekršio materijale zaštićene autorskim pravima u razvoju svojih AI modela.

U početku nailazeći na otpor, OpenAI je na kraju popustio, otkrivajući brisanje svih kopija podataka i navodeći njihovu neupotrebu nakon upornih upita Ceha u vezi s tim podacima.
Središnje mjesto u stvaranju moćnih AI modela su visokokvalitetni podaci o obuci. Čelnici AI industrije, uključujući OpenAI, iskoristili su ogromne količine internetskih podataka, uključujući opsežan sadržaj knjiga, kako bi potaknuli razvoj ovih modela, što je izazvalo sporne pravne sporove s autorima koji traže naknadu za svoje doprinose.

Ključna takozvana bijela knjiga OPANAi-ja iz 2020. godine opisala je "books1" i "books2" kao korpuse knjiga temeljene na internetu, koje su pridonijele sa značajnih 16% u podacima o obuci GPT-3 modela, što ukupno iznosi nevjerojatnih 67 milijardi tokena, što je pak ekvivalentno otprilike 50 milijardi riječi.

Objave pravnih predstavnika OpenAI-ja otkrile su da je korištenje tih skupova podataka prestalo krajem 2021. godine, s njihovim konačnim brisanjem sredinom 2022. godine zbog neuporabe. Bez obzira na to, ostali podaci o obuci ostaju neoštećeni i dostupni pravnom timu Ceha.

Daljnja otkrića iz nezapečaćenih dokumenata razotkrila su odlazak dvojice istraživača odgovornih za stvaranje skupova podataka iz OpenAI-jevog rada. U početku obavijen velom tajne, OpenAI je na kraju otkrio njihov identitet odvjetnicima Ceha. Međutim, startup se suzdržao od objavljivanja njihovih imena, tražeći od suda da zadrži njihovu anonimnost uz uskraćivanje detaljnih informacija o skupovima podataka.

U pokušaju da pojasni svoje stajalište, OpenAI je ustvrdio da njegovi trenutni ChatGPT i API modeli nisu razvijeni korištenjem spornih skupova podataka. Umjesto toga, skupovi podataka posljednji su put korišteni 2021. godine i naknadno izbrisani 2022. godine zbog produljene neaktivnosti.

Program N1 televizije možete pratiti UŽIVO na ovom linku kao i putem aplikacija za An droid|iPhone/iPad

Više tema kao što je ova?

chat gpt open ai umjetna inteligencija

Kakvo je tvoje mišljenje o ovome?

Učestvuj u diskusiji ili pročitaj komentare

Budi prvi koji će ostaviti komentar

Pošalji komentar Pročitaj komentare (0)

Pratite nas na društvenim mrežama

Kakvo je tvoje mišljenje o ovome?

Učestvuj u diskusiji ili pročitaj komentare

Budi prvi koji će ostaviti komentar

Pošalji komentar Pročitaj komentare (0)

Pratite nas na društvenim mrežama

OpenAI otkrio da su uništili ogroman broj podataka s knjigama koje su koristili za uvježbavanje GPT-a

Kakvo je tvoje mišljenje o ovome?

Kakvo je tvoje mišljenje o ovome?

NAJČITANIJE

Sport

Nikola Vasilj igrač utakmice: Odbranama izluđivao Union i spasio St. Pauli poraza (VIDEO)

Nikola Vasilj igrač utakmice: Odbranama izluđivao Union i spasio St. Pauli poraza (VIDEO)

Najnovije

Iza zatvorenih vrata: Zašto kompanija koja zarađuje 700 miliona dolara godišnje ne može pronaći kupca

Nije snimio nijednu scenu, a ipak će igrati u novoj drami – kako je Val Kilmer godinu nakon smrti oživljen uz pomoć vještačke inteligencije

FDA odobrila tabletu za mršavljenje kompanije Eli Lilly – tek drugu takve vrste na američkom tržištu

Lažni krah memorijskih divova: Kako je TurboQuant srušio cijene dionica ali ne i potražnju

ZDRAVLJE

LIFESTYLE

SHOWBIZ

N1 KVIZ