Generatiivse AI-vestluse GPT seaduslik viimsepäev, kui tabatakse plagiaati või rikkumisi, hoiatab AI eetika ja tehisintellekti seaduste eest

Andke krediiti seal, kus krediit tuleb tasuda.

See on natuke tark tarkus, millesse teid võib-olla kasvatati kindlalt uskuma. Tõepoolest, võib oletada või kujutleda, et me kõik võime mingil määral nõustuda, et see on elus õiglane ja mõistlik rusikareegel. Kui keegi teeb midagi, mis väärib tunnustust, veenduge, et ta saaks väärilise tunnustuse.

Vastupidine seisukoht tunduks palju vähem veenev.

Kui keegi kõndis ringi, nõudes, et krediit peaks mitte kui krediit tuleb ära tunda, võite väita, et selline usk on ebaviisakas ja võib-olla alakätt. Me avastame end sageli häälekalt häiritud, kui kelleltki, kes on midagi märkimisväärset korda saatnud, pettakse krediiti. Julgen väita, et me ei poolda eriti seda, kui teised võtavad teiste töö eest au. See on murettekitav topeltviga. Isik, kes oleks pidanud au saama, ei saa oma hetke päikese käes. Lisaks naudib trikster tähelepanu keskpunkti, kuigi nad veavad meid ekslikult lolliks meie soodsaid kiindumusi omastama.

Miks kogu see diskursus krediidi kogumisest kõige õigemal viisil ning valede ja põlastusväärsete viiside ärahoidmisest?

Sest näib, et me seisame silmitsi sarnase olukorraga, kui tegemist on tehisintellekti (AI) uusimaga.

Jah, väidetakse, et see toimub ilmselt teatud tüüpi tehisintellekti kaudu Generatiivne AI. On palju käsitlusi, et Generative AI, nende päevade kuumim AI, on juba võtnud endale tunnustuse selle eest, mille eest ta ei vääri tunnustust. Ja see tõenäoliselt süveneb, kui generatiivset AI-d üha enam laiendatakse ja kasutatakse. Üha rohkem krediiti imbub generatiivsele tehisintellektile, samas kui need, kes väärivad tõelist tunnustust, jäävad kahjuks tolmu alla.

Minu pakutud viis selle väidetava nähtuse teravaks tähistamiseks on kaks veidrat väljendit:

  • 1) Plagiaat laialdaselt
  • 2) Autoriõiguse rikkumine ulatuslikult

Eeldan, et võite olla teadlik generatiivsest AI-st tänu laialt populaarsele AI-rakendusele, mida tuntakse ChatGPT-na ja mille OpenAI novembris välja andis. Ma räägin kohe rohkem generatiivsest AI-st ja ChatGPT-st. Pea vastu.

Liigume kohe selle tuuma juurde, mis inimeste kitsesid justkui ajab.

Mõned on palavalt kurtnud, et generatiivne tehisintellekt võib potentsiaalselt rebida sisu loonud inimesi. Näete, enamik generatiivseid AI-rakendusi on andmed, mida koolitatakse Internetist leitud andmete uurimisel. Nende andmete põhjal saavad algoritmid lihvida AI-rakenduses tohutut sisemist mustrite sobitamise võrku, mis võib hiljem toota näiliselt uut sisu, mis näeb hämmastavalt välja, nagu oleks selle loonud inimkäsi, mitte automaatika.

See märkimisväärne saavutus on suurel määral tingitud Internetist skannitud sisu kasutamisest. Ilma andmekoolituse allikana Interneti-sisu mahu ja rikkalikkuseta oleks generatiivne tehisintellekt üsna tühi ja selle kasutamisest oleks vähe või üldse mitte. Lases tehisintellektil uurida miljoneid ja miljoneid veebidokumente ja -tekste koos igasuguse seotud sisuga, luuakse järk-järgult mustrite sobitamine, et proovida jäljendada inimeste loodud sisu.

Mida rohkem sisu uuritakse, seda suurem on tõenäosus, et mustrite sobivus lihvitakse veelgi ja muutub veelgi paremaks matkimiseks, kui kõik muu on võrdne.

Siin on siis miljoni dollari küsimus:

  • Suur küsimus: Kui teil või teistel on Internetis sisu, mille järgi mõnda generatiivset tehisintellekti rakendust koolitati, tehes seda arvatavasti ilma teie otsese loata ja võib-olla täiesti ilma teie teadmata, kas teil peaks olema õigus saada osa pirukast, mis tahes väärtusest, mis sellest tuleneb. et generatiivne AI andmete koolitus?

Mõned väidavad ägedalt, et ainus õige vastus on Jah, eelkõige seda, et need inimsisu loojad väärivad oma osa tegevusest. Asi on selles, et teil oleks raske leida kedagi, kes on oma osa saanud, ja mis veelgi hullem, peaaegu keegi pole saanud mingit osa. Interneti-sisu loojad, kes tahtmatult ja teadmatult panustasid, jäetakse sisuliselt ilma nende õigustatud tunnustusest.

Seda võib iseloomustada kui kohutavat ja ennekuulmatut. Käisime just läbi selle targa tarkuse lahtipakkimise, et krediiti tuleb anda seal, kus krediit tuleb. Generatiivse AI puhul ilmselt mitte. Tundub, et pikaajalist ja vooruslikku krediiti puudutavat rusikareeglit rikutakse jultunult.

Vau, repliik kõlab, te hindate olukorda täiesti üle ja kirjeldate valesti. Muidugi uuris generatiivne AI Interneti sisu. Muidugi oli sellest generatiivse AI andmekoolituse osana palju abi. Tõsi küll, muljetavaldavad generatiivsed AI-rakendused poleks ilma selle läbimõeldud lähenemisviisita nii muljetavaldavad. Kuid olete läinud liiale, öeldes, et sisuloojatele tuleks omistada mingi konkreetne au.

Loogika on järgmine. Inimesed kasutavad Internetti ja õpivad Internetist asju, tehes seda rutiinselt ja ilma igasuguse kärata. Inimene, kes loeb torutöid käsitlevaid ajaveebi ja vaatab seejärel vabalt saadaolevaid torustiku parandamise videoid, võib järgmisel päeval minna välja ja minna tööle torumehena. Kas nad peavad andma osa oma veevärgiga seotud rahaülekandest blogijale, kes kirjutas kraanikausi veevärgist? Kas nad peavad andma tasu videologijale, kes tegi video, mis tutvustas lekkiva vanni parandamise samme?

Peaaegu kindlasti mitte.

Generatiivse AI andmekoolitus on vaid mustrite arendamise vahend. Kuni generatiivse tehisintellekti väljundid ei ole lihtsalt uuritu tagasitõmbamine, võite veenvalt väita, et nad on „õppinud” ja seetõttu ei kohaldata nende suhtes mingit konkreetset tunnustust ühelegi konkreetsele allikale. Kui te ei suuda tabada generatiivset tehisintellekti täpse regurgitatsiooni sooritamisel, viitavad märgid sellele, et AI on üldistatud ühestki konkreetsest allikast kaugemale.

Au ei kuulu kellelegi. Või võib öelda, et au läheb kõigile. Au pälvib Internetis leiduv koondtekst ja muu inimkonna sisu. Me kõik saame au. Konkreetsele allikale krediiti püüdmine on mõttetu. Olge rõõmus, et tehisintellekt edeneb ja inimkond saab sellest kasu. Need Interneti-postitused peaksid tundma au, et nad aitasid kaasa tehisintellekti tuleviku arengule ja sellele, kuidas see aitab inimkonda igavesti.

Mul on mõlema vastandliku vaate kohta rohkem öelda.

Samal ajal, kas kaldute leeri poole, kes ütleb, et krediit on tasumata ja hilinenud nende jaoks, kellel on Internetis veebisaidid, või leiate, et vastandlik pool, kes ütleb, et Interneti-sisu loojad on otsustavalt mitte kas ära rebimine on veenvam poos?

Mõistatus ja mõistatus on kõik koos.

Pakime selle lahti.

Tänases veerus käsitlen neid väljendatud muresid, et generatiivne AI sisuliselt plagieerib või võib-olla rikub Internetti postitatud sisu autoriõigusi (seda peetakse intellektuaalomandi õiguse või intellektuaalomandi probleemiks). Vaatleme nende kahtluste aluseid. Selle arutelu ajal viitan aeg-ajalt ChatGPT-le, kuna see on generatiivse AI 600-naelane gorilla, kuid pidage meeles, et on palju muid generatiivseid AI-rakendusi ja need põhinevad üldiselt samadel üldistel põhimõtetel.

Vahepeal võite mõelda, mis on generatiivne AI.

Käsitleme esmalt generatiivse tehisintellekti põhialuseid ja seejärel saame vaadata käes olevaid pakilisemaid küsimusi.

Selle kõige juurde kuulub hulk tehisintellekti eetikat ja tehisintellektiseadust puudutavaid kaalutlusi.

Pidage meeles, et tehisintellekti eetiliste põhimõtete juurutamiseks tehisintellekti rakenduste arendamisse ja kasutuselevõttu tehakse pidevalt jõupingutusi. Üha suurem kontingent murelikke ja endisi tehisintellekti eetikuid püüab tagada, et tehisintellekti väljatöötamisel ja kasutuselevõtul võetaks arvesse AI heaks ja ärahoidmine AI For Bad. Samuti on välja pakutud uusi tehisintellekti seadusi, mida püütakse potentsiaalsete lahendustena hoida, et tehisintellekti püüdlused ei läheks inimõiguste ja muu sarnase küsimuses räigeks. Minu jätkuvat ja ulatuslikku AI eetikat ja tehisintellektiseadust käsitlevat ülevaadet vt link siin ja link siin, Ainult mõned nimed.

Teostatakse eetiliste tehisintellekti ettekirjutuste väljatöötamist ja levitamist, et loodetavasti vältida ühiskonna sattumist arvukatesse tehisintellekti esilekutsuvatesse lõksudesse. Minu ülevaate saamiseks ÜRO tehisintellekti eetika põhimõtetest, mille on välja töötanud ja toetanud ligi 200 riiki UNESCO jõupingutuste kaudu, vt. link siin. Sarnaselt uuritakse uusi tehisintellekti seadusi, et hoida tehisintellekti ühtlasel tasemel. Üks viimastest võtetest koosneb pakutavatest AI Bill of Rights mille USA Valge Maja avaldas hiljuti inimõiguste kindlakstegemiseks tehisintellekti ajastul, vt link siin. Vaja on küla, et hoida tehisintellekti ja tehisintellekti arendajaid õigel teel ning hoida ära sihipärased või juhuslikud alataolised jõupingutused, mis võivad ühiskonda kahjustada.

Seon sellesse arutelusse tehisintellekti eetika ja tehisintellekti seadusega seotud kaalutlused.

Generatiivse AI põhialused

Kõige laiemalt tuntud generatiivse AI näide on AI-rakendus nimega ChatGPT. ChatGPT tõusis avalikkuse teadvusse juba novembris, kui selle avaldas tehisintellekti uurimisfirma OpenAI. Sellest ajast peale, kui ChatGPT on kogunud suuri pealkirju ja ületanud hämmastavalt oma viisteist minutit kuulsust.

Oletan, et olete ChatGPT-st ilmselt kuulnud või teate isegi kedagi, kes on seda kasutanud.

ChatGPT-d peetakse generatiivseks AI-rakenduseks, kuna see võtab sisendiks mõne kasutaja teksti ja seejärel genereerib või toodab esseest koosneva väljundi. AI on tekstist tekstiks generaator, kuigi ma kirjeldan AI-d kui teksti esseeks generaatorit, kuna see selgitab paremini, milleks seda tavaliselt kasutatakse. Saate kasutada generatiivset AI-d pikkade kompositsioonide koostamiseks või panna see pakkuma üsna lühikesi teravaid kommentaare. See kõik sõltub teie pakkumisest.

Kõik, mida pead tegema, on sisestada viip ja AI-rakendus loob teile essee, mis püüab teie viipale vastata. Koostatud tekst jääb mulje, nagu oleks essee kirjutatud inimkäe ja -mõistusega. Kui sisestaksite viipa "Räägi mulle Abraham Lincolnist", pakub generatiivne AI teile essee Lincolni kohta. On ka teisi generatiivse tehisintellekti viise, nagu tekst kunstiks ja tekst videoks. Keskendun siin teksti-teksti variatsioonile.

Teie esimene mõte võib olla, et see genereerimisvõime ei tundu esseede koostamise seisukohalt nii suur asi. Saate hõlpsasti Internetis veebiotsingut teha ja hõlpsalt leida palju esseesid president Lincolni kohta. Generatiivse tehisintellekti puhul on kicker see, et loodud essee on suhteliselt ainulaadne ja pakub originaalset kompositsiooni, mitte koopiat. Kui prooviksite AI-ga loodud esseed Internetist kuskilt leida, poleks te seda tõenäoliselt avastanud.

Generatiivne AI on eelkoolitatud ja kasutab keerulist matemaatilist ja arvutuslikku sõnastust, mis on loodud veebis kirjalike sõnade ja lugude mustrite uurimisel. Tuhandete ja miljonite kirjalike lõikude uurimise tulemusena võib tehisintellekt välja paisata uusi esseesid ja lugusid, mis on leitu segadus. Lisades erinevaid tõenäosuslikke funktsioone, on saadud tekst treeningkomplektis kasutatuga võrreldes üsna ainulaadne.

Generatiivse AI pärast on palju muret.

Üks oluline negatiivne külg on see, et generatiivpõhise AI-rakenduse loodud esseed võivad sisaldada mitmesuguseid valesid, sealhulgas ilmselgelt ebatõesid fakte, eksitavalt kujutatud fakte ja ilmseid fakte, mis on täielikult väljamõeldud. Neid väljamõeldud aspekte nimetatakse sageli vormideks AI hallutsinatsioonid, lööklause, mida ma ei pooldan, kuid kahjuks näib, et see kogub niikuinii populaarset tähelepanu (üksikasjalikku selgitust selle kohta, miks see on närune ja sobimatu terminoloogia, vaadake minu kajastusest aadressil link siin).

Teine probleem on see, et inimesed saavad hõlpsasti tunnustada AI-ga loodud esseed, hoolimata sellest, et nad pole esseed ise koostanud. Võib-olla olete kuulnud, et õpetajad ja koolid on generatiivsete AI-rakenduste ilmumise pärast üsna mures. Õpilased saavad potentsiaalselt kasutada generatiivset tehisintellekti oma määratud esseede kirjutamiseks. Kui õpilane väidab, et essee on kirjutatud tema enda käega, on vähe võimalusi, et õpetaja suudab tuvastada, kas see on hoopis generatiivse tehisintellektiga sepistatud. Selle õpilast ja õpetajat segava aspekti analüüsimiseks vaadake minu kajastust aadressil link siin ja link siin.

Sotsiaalmeedias on selle kohta olnud mõningaid tobedaid väiteid Generatiivne AI kinnitades, et see uusim AI versioon on tegelikult olemas tundlik AI (ei, nad eksivad!). Tehisintellekti eetika ja tehisintellekti seadusega tegelevad inimesed on eriti mures selle laienenud väidete kasvava suundumuse pärast. Võib viisakalt öelda, et mõned inimesed hindavad üle, mida tänapäeva tehisintellekt tegelikult teha suudab. Nad eeldavad, et AI-l on võimalused, mida me pole veel suutnud saavutada. Kahju küll. Veelgi hullem on see, et nad võivad lubada endal ja teistel sattuda rasketesse olukordadesse, kuna eeldatakse, et tehisintellekt on tegutsemisvõimeline tundlik või inimlik.

Ärge antropomorfiseerige tehisintellekti.

Nii toimides satute kleepuvasse ja tüütavasse lõksu, mis eeldab, et tehisintellekt teeb asju, mida ta ei suuda. Nagu öeldud, on generatiivse AI uusim versioon selle võimekuse poolest suhteliselt muljetavaldav. Pidage siiski meeles, et generatiivse AI-rakenduse kasutamisel peaksite pidevalt meeles pidama olulisi piiranguid.

Üks viimane hoiatus praegu.

Ükskõik, mida näete või loete generatiivses AI vastuses, et tundub Kui soovite, et seda esitataks puhtalt faktilistena (kuupäevad, kohad, inimesed jne), jääge kindlasti skeptiliseks ja olge valmis seda, mida näete, veel kord üle kontrollima.

Jah, kuupäevi saab kokku leppida, kohti saab välja mõelda ja elemendid, mida me tavaliselt eeldame, et need on laitmatud, on kõik kahtlustatakse. Ärge uskuge seda, mida loed, ja hoidke generatiivseid tehisintellekti esseesid või väljundeid uurides skeptiline silm. Kui generatiivne tehisintellektirakendus teatab teile, et Abraham Lincoln lendas oma eralennukiga mööda riiki ringi, siis teaksite kahtlemata, et see on äpardus. Kahjuks ei pruugi mõned inimesed aru saada, et tema ajal lennukid ei olnud, või nad teadsid, kuid ei märka, et essee esitab selle jultunud ja ennekuulmatult vale väite.

Tugev annus tervet skeptitsismi ja püsiv uskmatu mõtteviis on generatiivse tehisintellekti kasutamisel teie parim eelis.

Oleme valmis liikuma selle selgitamise järgmisse etappi.

Internet ja generatiivne AI on selles koos

Nüüd, kui teil on mulje sellest, mis on generatiivne AI, saame uurida piinavat küsimust, kas generatiivne AI on õiglaselt või ebaõiglaselt „võimendav”, või ütlevad mõned räigelt ära kasutades Interneti sisu.

Siin on minu neli selle küsimusega seotud olulist teemat:

  • 1) Double Trouble: plagiaat ja autoriõiguste rikkumine
  • 2) Püütakse tõestada plagiaati või autoriõiguste rikkumist
  • 3) Plagiaadi või autoriõiguste rikkumise põhjendamine
  • 4) Legaalsed maamiinid ootavad

Ma käsitlen kõiki neid olulisi teemasid ja pakun põhjalikke kaalutlusi, mille üle me kõik peaksime tähelepanelikult mõtlema. Kõik need teemad on suurema pusle lahutamatu osa. Sa ei saa vaadata ainult ühte tükki. Samuti ei saa te vaadata ühtegi tükki teistest tükkidest eraldi.

See on keerukas mosaiik ja kogu mõistatust tuleb korralikult harmooniliselt kaaluda.

Topeltprobleem: plagiaat ja autoriõiguste rikkumine

Generatiivse tehisintellekti tootjate kahekordne probleem seisneb selles, et nende kaubad võivad teha kahte halba asja:

  • 1) Plagiaat. Generatiivset tehisintellekti võib tõlgendada kui plagiaat Internetis eksisteeriv sisu vastavalt AI andmekoolituse käigus toimunud Interneti-skaneerimisele.
  • 2) Autoriõiguse rikkumine. Generatiivset tehisintellekti võib pidada ettevõtmiseks autoriõiguse rikkumine mis on seotud andmete koolituse ajal skannitud Interneti-sisuga.

Täpsustuseks võib öelda, et Internetis on palju rohkem sisu, kui generatiivse AI andmekoolituse jaoks tavaliselt skannitakse. Tavaliselt kasutatakse ainult väikest osa Internetist. Seega võime eeldatavasti eeldada, et mis tahes sisul, mida andmeõppe ajal ei skannitud, ei ole generatiivse AI-ga erilist liha.

See on siiski mõnevõrra vaieldav, kuna võite tõmmata joone, mis ühendab muu skannitud sisu sisuga, mida ei kontrollitud. Veel üks oluline tingimus on see, et isegi kui on sisu, mida ei skannitud, võib selle siiski väita, et see on plagiaat ja/või autoriõigusi rikutud, kui generatiivse AI väljundid langevad tõenäoliselt samale sõnasõnale. Minu mõte on see, et selles kõiges on palju niru.

Alumine rida: Generatiivne AI on täis võimalikke tehisintellekti eetilisi ja tehisintellekti seadustega seotud juriidilisi probleeme, mis puudutavad plagiaadi ja autoriõiguste rikkumisi andmeõppe tavade aluseks.

Siiani on tehisintellekti tegijad ja AI-teadlased sellest peaaegu ilma uisutamisest läbi sõitnud, vaatamata nende kohal rippuvale ähvardavale ja ebakindlalt rippuvale mõõgale. Nende tegevuste vastu on praeguseks algatatud vaid mõned kohtuasjad. Võib-olla olete kuulnud või näinud uudiseid selliste juriidiliste toimingute kohta. Üks neist hõlmab näiteks teksti pildiks muutvaid ettevõtteid Midjourney ja Stability AI Internetti postitatud kunstilise sisu rikkumise eest. Veel üks hõlmab tekstist koodiks muutmise rikkumist GitHubi, Microsofti ja OpenAI vastu, kuna tarkvara Copilot toodab AI-rakendusi. Getty Images on samuti püüdnud teksti-pildiks muutmise rikkumiste puhul järgida stabiilsuse AI-d.

Võite eeldada, et selliseid kohtuasju esitatakse veelgi.

Praegu on nende kohtuasjade algatamine veidi tõenäoline, kuna tulemus on suhteliselt teadmata. Kas kohus asub AI tegijate poolele või võidavad need, kes usuvad, et nende sisu on ebaõiglaselt ära kasutatud? Kulukas kohtulahing on alati tõsine asi. Suuremahuliste kohtukulude kulutamist tuleb kaaluda võidu või kaotuse võimalustega.

Tundub, et tehisintellekti tegijatel pole peaaegu muud valikut, kui võidelda. Kui nad peaksid kasvõi natukenegi järeleandma, on tõenäoline, et tulemuseks on täiendavate kohtuasjade tulva (sisuliselt avab see ukse suurematele võimalustele, et ka teised võidavad). Kui vees on seaduslikku verd, sibavad ülejäänud legaalsed haid arvatavasti "lihtsaks tulemuseni" ning kindlasti tekib peksuline ja pekslev rahaline veresaun.

Mõned usuvad, et peaksime vastu võtma uued AI-seadused, mis kaitseksid tehisintellekti tegijaid. Kaitse võib olla isegi tagasiulatuv. Selle aluseks on see, et kui tahame näha AI generatiivseid edusamme, peame andma tehisintellekti tegijatele turvalise tsooni raja. Kui kohtuasjad hakkavad tehisintellektitootjate vastu võitma, siis kui see juhtub (me ei tea veel), on mure, et generatiivne AI haihtub, kuna keegi ei taha tehisintellektiettevõtteid toetada.

Nagu hiljutises Bloombergi seaduse artiklis „ChatGPT: IP, küberturvalisus ja muud generatiivse tehisintellekti õiguslikud riskid”, mille autorid on dr Ilia Kolochenko ja Gordon Platt, Bloombergi seadus, 2023. aasta veebruar, on osavalt märgitud, on siin kaks olulist väljavõtet, mis kajastavad neid seisukohti:

  • "USA õigusteadlaste ja intellektuaalomandiõiguse professorite seas käib praegu tuline arutelu selle üle, kas autoriõigustega kaitstud andmete volitamata kraapimine ja sellele järgnev kasutamine kujutab endast autoriõiguste rikkumist. Kui valitseb juristide seisukoht, kes näevad sellises praktikas autoriõiguste rikkumisi, võivad selliste tehisintellektisüsteemide kasutajad vastutada ka teisese rikkumise eest ja neil võivad tekkida õiguslikud tagajärjed.
  • "Probleemi igakülgseks lahendamiseks peaksid seadusandjad kaaluma mitte ainult olemasolevate autoriõiguse seaduste ajakohastamist, vaid ka AI-spetsiifiliste seaduste ja määruste rakendamist."

Tuletage meelde, et ühiskonnana panime paika õiguskaitse laiendamine Internetist, nagu on tunnistajaks ülemkohus, kes vaatab läbi kuulsa või kurikuulsa paragrahvi 230. Seega näib mõistuse ja pretsedendi piires olevat, et võiksime olla valmis generatiivse tehisintellekti edendamiseks kasutama mõnda sarnast kaitset. Võib-olla võiks kaitsed ajutiselt seadistada, mis aegub pärast seda, kui generatiivne AI on saavutanud teatud eelnevalt kindlaksmääratud oskustaseme. Võiks välja töötada muid kaitsemeetmeid.

Postitan peagi oma analüüsi selle kohta, kuidas ülemkohtu hinnang ja lõplik otsus paragrahvi 230 kohta võivad mõjutada generatiivse AI tulekut. Olge selle eelseisva postituse ees!

Tagasi karmilt kõlanud arvamuse juurde, et me peaksime andma tegevusruumi ühiskondlikule aukartust äratavale tehnoloogilisele uuendusele, mida tuntakse generatiivse AI-na. Mõned ütleksid, et isegi kui väidetav autoriõiguste rikkumine toimub või toimub, peaks ühiskond tervikuna olema valmis seda lubama generatiivse AI edendamise konkreetsetel eesmärkidel.

Loodetakse, et uued tehisintellekti seadused töötatakse hoolikalt välja ja häälestatakse generatiivse AI andmekoolitusega seotud üksikasjadega.

Sellel otstarbel uute tehisintellekti seaduste väljatöötamise ideele on palju vastuargumente. Üks murekoht on see, et iga selline uus tehisintellekti seadus avab lüüsid igasugustele autoriõiguste rikkumistele. Kahetseme seda päeva, kui lubasime sellistel uutel tehisintellekti seadustel raamatutesse jõuda. Olenemata sellest, kui kõvasti proovite seda piirduda ainult tehisintellekti andmeõppega, leiavad teised hiilivalt või nutikalt lünki, mis tähendavad piiramatut ja ohjeldamatut autoriõiguste rikkumist.

Vaidlused käivad ringi ja ümber.

Üks argument, mis eriti vett ei pea, on seotud AI enda kohtusse kaevamisega. Pange tähele, et olen viidanud tehisintellekti tegijale või tehisintellekti teadlastele kui süüdiolevatele sidusrühmadele. Need on inimesed ja ettevõtted. Mõned arvavad, et peaksime sihikule võtma tehisintellekti kui kohtusse kaevatava osapoole. Olen oma kolumnis pikalt arutanud, et me ei omista tehisintellektile veel juriidilist isikut, vt link siin näiteks ja seega peetaks selliseid tehisintellektile per se suunatud kohtuasju praegu mõttetuks.

Täiendusena küsimusele, kelle või mille vastu kohtusse kaevata, toob see esile veel ühe mahlase teema.

Oletame, et konkreetse generatiivse AI-rakenduse on välja töötanud mõni AI tegija, keda me nimetame vidinate ettevõtteks. Widget Company on suhteliselt väikese suurusega ja tal pole palju tulusid ega ka palju varasid. Nende kohtusse andmine ei too tõenäoliselt kaasa seda suurt rikkust, mida inimene võib taotleda. Maksimaalselt tunneksite rahulolu sellega, et parandate seda, mida te valeks peate.

Tahad suurele kalale järele minna.

Siin on, kuidas see tekib. Tehisintellekti tegija otsustab teha oma generatiivse tehisintellekti kättesaadavaks Big Time Company'le, suurele konglomeraadile, millel on tonnide kaupa tainast ja tonni varasid. Widget Company nimetamise kohtuasjal oleks nüüd parem sihtmärk, nimelt ka Big Time Company nimetamine. See on Taaveti ja Koljati võitlus, mis advokaatidele meeldiks. Muidugi proovib Big Time Company kahtlemata õngekonksu otsast lahti rabeleda. Kas nad saavad seda teha, on taas kord ebakindel juriidiline küsimus ja nad võivad lootusetult sogasse sattuda.

Enne kui me sellega palju kaugemale jõuame, tahaksin tuua lauale midagi olulist generatiivse AI väidetava sekkumise kohta andmekoolituse tõttu. Olen kindel, et mõistate intuitiivselt, et plagiaat ja autoriõiguste rikkumine on kaks mõnevõrra erinevat metsalist. Neil on palju ühist, kuigi nad erinevad ka oluliselt.

Siin on Duke'i ülikooli käepärane lühike kirjeldus, mis selgitab neid kahte:

  • "Plagiaat on kõige parem määratleda kui teise inimese töö tunnustamata kasutamist. See on eetiline probleem, mis on seotud töö krediidinõudega, mida nõude esitaja ei ole loonud. Kellegi teise teost saab plagieerida sõltumata selle teose autoriõiguse staatusest. Näiteks on sellegipoolest plagiaat, kui kopeeritakse raamatust või artiklist, mis on liiga vana, et veel autoriõigusega kaitsta. Plagiaat on ka tunnustamata allikast võetud andmete kasutamine, kuigi faktiline materjal, nagu andmed, ei pruugi olla autoriõigusega kaitstud. Plagiaat on aga kergesti ravitav – materjali algallikale õige viide.
  • «Autoriõiguste rikkumine on seevastu võõra teose volitamata kasutamine. See on juriidiline probleem, mis sõltub sellest, kas teos on üldse autoriõigusega kaitstud või mitte, aga ka konkreetsetest asjaoludest, nagu kasutatud hulk ja kasutamise eesmärk. Kui kopeeritakse liiga palju kaitstud teost või kopeeritakse volitamata eesmärgil, ei lahenda lihtsalt algallika tunnustamine probleemi. Ainult autoriõiguste omanikult eelneva loa küsimisega välditakse rikkumissüüdi saamise ohtu.

Juhin tähelepanu nende kahe probleemi olulisusele, et saaksite aru, et abinõud võivad vastavalt erineda. Lisaks on need mõlemad seotud tehisintellekti eetikat ja tehisintellektiseadust läbivate kaalutlustega, mistõttu tasub neid võrdselt uurida.

Uurime väidetavat abinõu või lahendust. Näete, et see võib aidata ühest topeltprobleemist, kuid mitte teisest.

Mõned on nõudnud, et tehisintellekti tegijad peavad vaid viitama oma allikatele. Kui generatiivne AI koostab essee, lisage lihtsalt konkreetsed tsitaadid kõigele, mida essees öeldakse. Andke erinevaid URL-e ja muid viiteid selle kohta, millist Interneti-sisu kasutati. Näib, et see vabastaks nad plagiaadist. Väljaantud essees oleks eeldatavasti selgelt määratletud, milliseid allikaid koostatava sõnastuse jaoks kasutati.

Selles väidetavas lahenduses on mõningaid segadusi, kuid 30,000 XNUMX jala tasemel oletame, et see on poolrahuldav ravi plagiaadi dilemma vastu. Nagu ülalpool autoriõiguste rikkumise selgituses öeldud, ei vii lähtematerjali tsiteerimine tingimata koerakuurist välja. Eeldades, et sisu oli autoriõigustega kaitstud ja olenevalt muudest teguritest, näiteks sellest, kui palju materjali kasutati, võib oodatav autoriõiguste rikkumise mõõk järsult ja lõplikult langeda.

Topeltprobleem on siin märksõnaks.

Plagiaati või autoriõiguste rikkumist proovitakse tõestada

Tõesta seda!

See on kulunud refrään, mida me kõik oleme oma elus erinevatel aegadel kuulnud.

Tead, kuidas see käib. Võite väita, et midagi toimub või on juhtunud. Võib-olla teate oma südames, et see on toimunud. Aga kui rääkida lükkamisest-tõukamisest, siis peab teil olema tõestus.

Tänapäeva kõnepruugis peate näitama laekumised, nagu öeldakse.

Minu küsimus teile on järgmine: Kuidas me tõestame, et generatiivne AI on Interneti-sisu sobimatult ära kasutanud?

Eeldatakse, et vastus peaks olema lihtne. Te palute või käsite generatiivsel tehisintellektil koostada väljastatud essee. Seejärel võtate essee ette ja võrdlete seda Internetist leitavaga. Kui leiate essee, bam, on generatiivne tehisintellekt naelutatud vanasõna seina külge.

Tundub, et elu pole kunagi nii lihtne.

Kujutage ette, et saame generatiivse tehisintellekti, et koostada umbes 100 sõna sisaldav essee. Me läheme ringi ja püüame jõuda kõigisse Interneti-nurkadesse, otsides neid 100 sõna. Kui leiame 100 sõna, mis on näidatud samas täpses järjekorras ja identsel viisil, tundub, et oleme tabanud end kuuma sõnaga.

Oletame aga, et leiame Internetist näiliselt "võrreldava" essee, kuigi see vastab vaid 80 sõnast 100-st. Võib-olla tundub see siiski piisav. Kuid kujutage ette, et 10-st sobivast sõnast leiame ainult 100 sõna. Kas sellest piisab, et väita, et on toimunud plagiaadi või autoriõiguste rikkumise?

Hallus on olemas.

Tekst on nii naljakas.

Võrrelge seda tekst-pildiks või tekst-kunstiks muutmise oludega. Kui generatiivne AI pakub teksti pildiks või teksti kunstiks muutmise võimalust, sisestate tekstiviipa ja AI-rakendus loob pildi, mis põhineb mõnevõrra teie esitatud viipadel. Pilt võib erineda ühestki kujutisest, mida sellel või mõnel teisel planeedil on kunagi nähtud.

Teisest küljest võib pilt meenutada muid olemasolevaid pilte. Võime vaadata generatiivset tehisintellekti loodud pilti ja mõneti sisetunde järgi öelda, et see näeb kindlasti välja nagu mõni teine ​​pilt, mida oleme varem näinud. Üldiselt, visuaalne võrdlemise ja vastandamise aspekte on veidi lihtsam läbi viia. Sellegipoolest teadke, et suured juriidilised arutelud tagavad selle üle, mis kujutab endast ühe kujutise kattumist või kopeerimist teisest.

Teine sarnane olukord on muusikaga. On olemas generatiivseid AI-rakendusi, mis võimaldavad teil sisestada tekstiviipa ja tehisintellekti väljundiks on helimuusika. Need tekst-heli- või teksti-muusikaks tehisintellekti võimalused alles hakkavad tekkima. Üks asi, millele saate oma parima dollari panustada, on see, et generatiivse AI toodetud muusikat kontrollitakse rikkumiste suhtes põhjalikult. Tundub, et me teame, kui kuuleme muusikalisi rikkumisi, kuigi see on jällegi keeruline juriidiline probleem, mis ei põhine ainult sellel, kuidas me tajutava replikatsiooni suhtes suhtume.

Lubage mul veel üks näide.

Tekst-koodi generatiivne AI annab teile võimaluse sisestada tekstiviipa ja AI koostab teie jaoks programmeerimiskoodi. Seejärel saate seda koodi kasutada arvutiprogrammi ettevalmistamiseks. Võite kasutada koodi täpselt nii, nagu see on loodud, või valida, kas muuta ja kohandada koodi vastavalt oma vajadustele. Samuti on vaja veenduda, et kood on sobiv ja toimiv, kuna on võimalik, et loodud koodis võib esineda vigu ja valesid.

Teie esimene eeldus võib olla, et programmeerimiskood ei erine tekstist. See on lihtsalt tekst. Muidugi, see on tekst, millel on konkreetne eesmärk, kuid see on siiski tekst.

No mitte täpselt. Enamikul programmeerimiskeeltel on selle keele kodeerimislausete olemusele vastav range vorming ja struktuur. See on teatud mõttes palju kitsam kui vabalt voolav loomulik keel. Olete kodeerimislausete sõnastuses mõnevõrra segaduses. Samamoodi on väidete kasutamise ja massiivi järjestus ja viis mõnevõrra karbis.

Kokkuvõttes on võimalus näidata, et programmeerimiskoodi on plagieeritud või rikutud, on peaaegu lihtsam kui loomulik keel. Seega, kui generatiivne tehisintellekt läheb Internetis programmeerimiskoodi skannima ja hiljem programmeerimiskoodi genereerib, on tõenäosus väita, et kood on ilmselgelt kopeeritud, suhteliselt veenvam. Pole slam dunk, nii et oodake, et sellel teemal peetakse kibedaid lahinguid.

Minu üldine seisukoht on see, et meil on samad tehisintellekti eetika ja AI seaduse probleemid, mis seisavad silmitsi kõigi generatiivse AI viisidega.

Plagiaat ja autoriõiguste rikkumine tekitavad probleeme:

  • Tekst tekstiks või tekst esseeks
  • Tekst-pildiks või tekst-kunstiks
  • Tekst heliks või tekst muusikaks
  • Tekst videoks
  • Tekst-koodiks
  • Jne

Neid kõiki puudutavad samad mured. Mõnda võib olla lihtsam "tõestada" kui teisi. Kõik nad näevad tehisintellekti eetika ja tehisintellekti seaduse alusel oma õudusunenägusid.

Plagiaat või autoriõiguste rikkumine

Arutelu eesmärgil keskendugem tekst-teksti- või tekst-esseeks generatiivsele AI-le. Teen seda osaliselt ChatGPT tohutu populaarsuse tõttu, mis on generatiivse AI tekst-teksti tüüp. ChatGPT-d kasutavad paljud inimesed ja paljud teised, kes kasutavad erinevaid sarnaseid tekstist teksti genereerivaid AI-rakendusi.

Kas need inimesed, kes kasutavad generatiivseid AI-rakendusi, teavad, et nad võivad tugineda plagiaadile või autoriõiguste rikkumisele?

Tundub kahtlane, et nad seda teevad.

Julgen väita, et valdav oletus on, et kui generatiivne AI rakendus on kasutamiseks saadaval, peab tehisintellekti tegija või tehisintellekti välja pannud ettevõte teadma või olema kindel, et nende poolt pakutavates toodetes pole midagi ebameeldivat. Kui saate seda kasutada, peab see olema pardast kõrgemal.

Vaatame uuesti minu varasemat kommentaari selle kohta, kuidas me proovime tõestada, et konkreetne generatiivne tehisintellekt töötab andmekoolituse osas vääral alusel.

Võin ka lisada, et kui suudame tabada üht generatiivset tehisintellekti seda tegemas, suureneb tõenäoliselt teiste tabamise võimalus. Ma ei ütle, et kõik generatiivsed AI-rakendused oleksid samas paadis. Kuid kui üks neist on seina külge kinnitatud, satuvad nad üsna karmi mereni.

Sellepärast tasub ka olemasolevatel kohtuvaidlustel silma peal hoida. Esimene, kes väidetava rikkumise osas võidab, kui see juhtub, võib teiste generatiivsete tehisintellekti rakenduste jaoks hukutada, välja arvatud juhul, kui mõni kitsus ei jää kõrvale laiematest probleemidest. Need, mis väidetava rikkumise tõttu kaotavad, ei pruugi tähendada, et generatiivsed AI-rakendused saavad kellasid helistada ja tähistada. Võib juhtuda, et kahju põhjuseks on muud tegurid, mis ei ole teiste generatiivsete AI-rakenduste jaoks nii olulised jne.

Olin maininud, et kui me võtame 100-sõnalise essee ja proovime neid sõnu täpselt samas järjestuses Internetist leida, võib meil olla suhteliselt kindel juhtum plagiaadi või autoriõiguste rikkumise kohta, kui kõik muu on võrdne. Kui aga kokkusobivaid sõnu on vähe, oleksime justkui õhukesel jääl.

Tahaksin sellesse süveneda.

Võrdluse ilmne aspekt koosneb täpselt samadest sõnadest täpselt samas järjestuses. See võib ilmneda tervete lõikude puhul. Seda oleks mugav märgata, nagu oleks see meile hõbekandikul kätte antud.

Võime olla kahtlustavad ka siis, kui sobiks ainult sõnajupp. Idee oleks näha, kas need on üliolulised sõnad või võib-olla täitesõnad, mida saame kergesti eemaldada või ignoreerida. Samuti ei taha me lasta end petta sõnade minevikus või tulevikuvormis kasutamisest või mõnest muust lollusest. Arvesse tuleks võtta ka neid sõnade variatsioone.

Teine võrdlustase oleks siis, kui sõnad ei ole suurel määral samad sõnad, kuid sõnad isegi erinevas olekus näivad siiski olevat samad. Näiteks kasutatakse kokkuvõttes algallikana sageli üsna sarnaseid sõnu, kuid me võime märgata, et kokkuvõte näib põhinevat algallikal.

Kõige raskem võrdlustase põhineks kontseptsioonidel või ideedel. Oletame, et näeme võrdlusalusena esseed, millel ei ole samu või sarnaseid sõnu, kuid mille olemus või ideed on samad. Tõsi, me liigume karmile territooriumile. Kui ütleksime julgelt, et ideed on tihedalt kaitstud, paneksime kaane peaaegu kõikidele teadmiste ja teadmiste laiendamise vormidele.

Saame taas viidata Duke'i ülikooli käepärasele selgitusele:

  • «Autoriõigus ei kaitse ideid, vaid idee konkreetset väljendust. Näiteks otsustas kohus, et Dan Brown ei rikkunud kirjutades varasema raamatu autoriõigusi Da Vinci kood sest varasemast tööst laenas ta vaid põhiideed, mitte süžee või dialoogi spetsiifikat. Kuna autoriõiguse eesmärk on soodustada loomingulist tootmist, siis kellegi teise ideede kasutamine uue ja originaalse teose loomiseks toetab autoriõiguse eesmärki, see ei riku seda. Autoriõigusi rikutakse potentsiaalselt ainult siis, kui kopeeritakse teise inimese väljendit ilma loata.
  • “Teisalt tuleb plagiaadi vältimiseks tunnistada isegi kelleltki teiselt laenatud ideede allikat, olenemata sellest, kas nende ideede väljendus on koos nendega laenatud. Seega nõuab parafraas tsiteerimist, kuigi see tekitab harva autoriõiguse probleeme.

Pange tähele, nagu varem tuvastati, erinevused topeltprobleemide tahkude vahel.

Nüüd on võrdlusmeetodite rakendamine praktikas midagi, mis on toimunud juba aastaid. Mõelge sellele nii. Õpilastel, kes kirjutavad oma koolitöö jaoks esseesid, võib tekkida kiusatus Internetist sisu haarata ja teeselda, et nad on A-klassi Pulitzeri auhinna võitnud sõnade autor.

Õpetajad on selle probleemi lahendamiseks pikka aega kasutanud plagiaadikontrolli programme. Õpetaja võtab õpilase essee ja sisestab selle plagiaadikontrolli. Mõnel juhul annab terve kool litsentsi plagiaadikontrolli programmi kasutamiseks. Kui õpilased kirjutavad esseed, peavad nad esmalt saatma essee plagiaadikontrolli programmi. Õpetajale antakse teada, mida programm kajastab.

Kahjuks peate olema nende plagiaadikontrolli programmide ütlemise suhtes äärmiselt ettevaatlik. Oluline on hoolikalt hinnata, kas teatatud näidustused on kehtivad. Nagu juba mainitud, võib teose kopeerimise tuvastamine olla hägune. Kui nõustute mõtlematult kontrolliprogrammi tulemusega, võite õpilast ekslikult süüdistada kopeerimises, kui ta seda ei teinud. See võib olla hinge muserdav.

Edasi liikudes võime generatiivsete AI-väljundite testimise valdkonnas proovida kasutada plagiaadikontrolli programme. Käsitlege generatiivse AI-rakenduse esseesid nii, nagu oleks selle kirjutanud õpilane. Seejärel mõõdame, mida plagiaadi kontrollija ütleb. Seda tehakse soolateraga.

Hiljutine uurimustöö üritas seda tüüpi võrdlusi generatiivse AI kontekstis just sellisel viisil rakendada. Tahaksin koos teiega üle vaadata mõned huvitavad avastused.

Esiteks on vaja lisada tausta. Generatiivset AI-d nimetatakse mõnikord LLM-deks (suured keelemudelid) või lihtsalt LM-i (keelemudelid). Teiseks põhineb ChatGPT teise OpenAI generatiivse AI paketi GPT-3.5 versioonil. Enne GPT-3.5 oli GPT-3 ja enne seda oli GPT-2. Tänapäeval peetakse GPT-2 võrreldes hilisemate seeriatega üsna primitiivseks ja me kõik ootame põnevusega eelseisvat GPT-4 avalikustamist, vt minu arutelu aadressil link siin.

Uuring, mida tahan lühidalt uurida, hõlmas GPT-2 uurimist. Seda on oluline mõista, kuna oleme nüüd GPT-2 võimalustest kaugemale. Ärge tehke selle GPT-2 analüüsi tulemuste kohta tormakaid järeldusi. Sellegipoolest võime GPT-2 hindamisest palju õppida. Uuring kannab pealkirja "Kas keelemudelid plagieerivad?" Jooyoung Lee, Thai Le, Jinghui Chen ja Dongwon Lee, esinemine ACM WWW '23-s, 1.–5. mai 2023, Austin, TX, USA.

See on nende peamine uurimisküsimus:

  • "Mil määral (mitte ainult meeldejätmisega) kasutavad LM-d oma koolitusnäidiste fraase või lauseid?"

Nad kasutasid neid kolme potentsiaalse plagiaadi taset või kategooriat:

  • "Sõnasõnaline plagiaat: sõnade või fraaside täpsed koopiad ilma transformatsioonita."
  • "Parafraasiplagiaat: sünonüümne asendamine, sõnade ümberjärjestamine ja/või tagasitõlge."
  • "Ideeplagiaat: põhisisu esitamine piklikul kujul."

GPT-2 oli tõepoolest koolitatud Interneti-andmetega ja seega sobiv kandidaat seda tüüpi analüüside jaoks:

  • "GPT-2 on WebTexti jaoks eelkoolitatud, sisaldades üle 8 miljoni dokumendi, mis on hangitud 45 miljonilt Redditi lingilt. Kuna OpenAI pole WebTexti avalikult välja andnud, kasutame OpenWebTexti, mis on WebTexti korpuse avatud lähtekoodiga taasloomine. Varasem kirjandus on seda usaldusväärselt kasutanud.

Uuringust välja võetud valikulised peamised leiud hõlmavad järgmist:

  • "Avastasime, et eelkoolitatud GPT-2 perekonnad plagieerivad OpenWebTextist."
  • "Meie tulemused näitavad, et peenhäälestus vähendab märkimisväärselt OpenWebTexti sõnasõnalise plagiaadi juhtumeid."
  • "Kooskõlas Carlini jt. ja Carlini et al., leiame, et suuremad GPT-2 mudelid (suured ja xl) genereerivad üldiselt plagieeritud järjestusi sagedamini kui väiksemad.
  • "Kuid erinevad LM-id võivad näidata erinevaid plagiaadi mustreid ja seega ei pruugi meie tulemused otseselt üldistada teistele LM-idele, sealhulgas uuematele LM-idele, nagu GPT-3 või BLOOM."
  • "Lisaks on automaatsetel plagiaadidetektoritel teadaolevalt palju rikkerežiime (nii valenegatiivsete kui ka valepositiivsete puhul).
  • "Arvestades, et suurem osa LM-ide koolitusandmetest kraabitakse veebist ilma sisuomanikke teavitamata, on nende sõnade, fraaside ja isegi põhiideede kordamine koolituskomplektidest loodud tekstidesse eetilised tagajärjed."

Meil on kindlasti vaja palju rohkem selliseid uuringuid.

Kui teid huvitab, kuidas GPT-2 võrdub GPT-3-ga andmeõppe osas, on siin üsna märgatav kontrast.

Teatatud näidustuste kohaselt oli GPT-3 andmekoolitus palju ulatuslikum:

  • "Mudelit koolitati Internetist pärit tekstiandmebaaside abil. See hõlmas tohutult 570 GB andmeid, mis saadi raamatutest, veebitekstidest, Vikipeediast, artiklitest ja muudest Internetis leiduvatest kirjutistest. Veelgi täpsemini sisestati süsteemi 300 miljardit sõna.BBC Science Focus ajakiri “ChatGPT: Kõik, mida pead teadma OpenAI GPT-3 tööriista kohta”, autor Alex Hughes, veebruar 2023).

Neile, kes on huvitatud GPT-3 andmekoolituse põhjalikumatest kirjeldustest, on siin väljavõte GitHubi postitatud ametlikust GPT-3 mudelikaardist (viimane värskendatud kuupäev on september 2020):

  • „GPT-3 koolitusandmekogum koosneb internetti postitatud tekstist või internetti üles laaditud tekstist (nt raamatud). Interneti-andmed, mille põhjal seda on koolitatud ja mille alusel siiani hinnatud, hõlmavad: (1) CommonCrawli andmekogumi versiooni, mis on filtreeritud sarnasuse alusel kvaliteetsete võrdluskorpustega, (2) veebiteksti andmestiku laiendatud versiooni (3). ) kaks Interneti-põhist raamatukorpust ja (4) ingliskeelne Vikipeedia.
  • "Arvestades selle koolitusandmeid, esindavad GPT-3 väljundid ja jõudlus Interneti-ühendusega populatsioone rohkem kui verbaalsest mittedigitaalsest kultuurist läbi imbunud inimesi. Internetiühendusega elanikkond esindab rohkem arenenud riike, rikkaid, nooremaid ja meessoost vaateid ning on enamasti USA-keskne. Rikkamad riigid ja arenenud riikide elanikud näitavad suuremat Interneti levikut. Digitaalne sooline lõhe näitab ka vähem naisi, kes on veebis kogu maailmas esindatud. Lisaks, kuna erinevates maailma piirkondades on Interneti-levi ja juurdepääsu tase erinev, on andmekogum vähem ühendatud kogukondi alaesindatud.

GPT-3 kohta ülaltoodud näpunäidete üks väljavõte on see, et generatiivse tehisintellekti loojate seas kehtib rusikareegel, et mida rohkem Interneti-andmeid saate skannida, seda suurem on tõenäosus generatiivse tehisintellekti täiustamiseks või edendamiseks.

Saate seda vaadata kahel viisil.

  • 1) Parem AI. Meil on generatiivne tehisintellekt, mis roomab läbi võimalikult suure osa Internetist. Põnev tulemus on see, et generatiivne AI on parem kui see juba on. See on midagi, mida oodata.
  • 2) Kopeerimise potentsiaal. Selline Interneti-skannimise laiendamine muudab plagiaati ja autoriõiguste rikkumise probleemi tüütult ja kaasahaaravalt potentsiaalselt suuremaks ja suuremaks. Kui varem ei olnud nii palju sisuloojaid mõjutatud, siis suurus hakkab õitsema. Kui olete sisuloojate poolel advokaat, toob see pisara silma (võib-olla pisaraid, mis tekitavad hämmingut või rõõmu pisaraid selle üle, milliseid väljavaateid see kohtuasjade osas toob).

Kas klaas on pooltäis või pooltühi?

Sina otsustad.

Seaduslikud maamiinid ootavad

Küsimus, mille üle võite mõelda, on see, kas teie postitatud Interneti-sisu peetakse skannimiseks ausaks mänguks. Kui teie sisu on tasulise seina taga, ei ole see tõenäoliselt skannimise sihtmärk, kuna seda ei ole võimalik hõlpsasti kätte saada, olenevalt tasulise seina tugevusest.

Ma arvan, et enamikul igapäevastel inimestel pole sisu palgamüüri taha peidetud. Nad tahavad, et nende sisu oleks avalikult kättesaadav. Nad eeldavad, et inimesed vaatavad seda.

Kas teie sisu avalik kättesaadavus tähendab aksiomaatiliselt ka seda, et nõustute selle skannimisega generatiivse tehisintellekti jaoks, mille andmekoolitus toimub?

Võibolla jah võibolla ei.

See on üks neist silmapööritavatest juriidilistest küsimustest.

Tulles tagasi varem viidatud juurde Bloombergi seadus Artiklis mainivad autorid paljude veebisaitidega seotud tingimuste (T&C) tähtsust:

  • „Seaduslik maamiini, mida tahtmatud tehisintellekti ettevõtted, kes kasutavad andmete kraapimiseks veebiroboteid, ignoreerivad, on peidetud nõuetesse ja tingimustesse, mis on tavaliselt saadaval igat tüüpi avalikel veebisaitidel. Erinevalt praegu lahendamata intellektuaalomandi seadusest ja autoriõiguste rikkumise dilemmast toetavad veebisaidi tingimused väljakujunenud lepinguõigust ning tavaliselt saab neid jõustada kohtus, tuginedes piisavale arvule pretsedentidele.

Need näitavad, et eeldades, et teie veebisaidil on litsentsimisega seotud leht, on tõenäoline, et kui kasutasite standardset tänapäevast malli, võib see sisaldada olulist klauslit:

  • "Järelikult sisaldavad enamik veebisaitide standardseid nõudeid ja tingimusi, mis on küllaldaselt saadaval tasuta juurdepääsuna, klauslit, mis keelab andmete automaatse kraapimise. Irooniline, et selliseid vabalt saadaolevaid malle on ChatGPT koolitusel kasutatud. Seetõttu võivad sisuomanikud soovida oma nõuded ja tingimused üle vaadata ning lisada eraldi klausli, mis keelab rangelt igasuguste veebisaitide sisu kasutamise tehisintellekti koolitusel või sellega seotud eesmärkidel, olgu see siis käsitsi või automaatselt kogutud, ilma veebisaidi omaniku eelneva kirjaliku loata. .”

Sisuloojate võimalike tegevuste analüüsis on lisatud täiendav abinõu:

  • "Seetõttu võib kraapimiskeelu klausli iga rikkumise korral täitmisele pööratava leppetrahvi sätte lisamine, mida on täiendatud ettekirjutuse-ilma tagatiseta sättega, olla vastupidav lahendus neile loomingulise sisu autoritele, kes ei soovi oma töö vilju pakkuda. intellektuaalset tööjõudu tehisintellekti väljaõppe eesmärgil, ilma et selle eest makstaks või neile vähemalt nende töö eest korralikku tunnustust antaks.

Võib-olla soovite selles küsimuses oma advokaadiga nõu pidada.

Mõned ütlevad, et see on ülioluline viis AI tegijatele öelda, et sisuloojad suhtuvad oma sisu kaitsmisse tõsiselt. Veendumine, et teie litsentsil on õige sõnastus, paneks tehisintellekti tegijad märku.

Teised on aga veidi allajäänud. Nad ütlevad mastunult, et võite oma veebisaidile panna kõige karmima ja surmavama juriidilise keele, kuid lõpuks hakkavad AI tegijad selle skannima. Sa ei tea, et nad seda tegid. Teil on kuratlik aeg tõestada, et nad seda tegid. Tõenäoliselt ei avasta te, et nende väljundid peegeldavad teie sisu. See on ülesmäge lahing, mida te ei võida.

Vastuargument on see, et sa annad lahingust alla enne, kui see üldse toimus. Kui teil pole vähemalt piisavalt juriidilist keelt ja kui te nad kunagi tabate, siis nad kõigutavad ja nirkivad end vastutusest pääsemiseks. Kõik sellepärast, et te ei postitanud õiget juriidilist kõnepruuki.

Vahepeal seisneks veel üks lähenemine, mis püüab veojõudu saavutada märgistus teie veebisaidil on midagi, mis ütleb, et saiti ei skaneeri generatiivne AI. Idee on selles, et töötataks välja standardiseeritud marker. Veebisaidid võiksid arvatavasti lisada markeri oma saidile. Tehisintellekti tegijatele öeldakse, et nad peaksid muutma oma andmete skannimist, et märgitud veebisaidid vahele jätta.

Kas markeri lähenemine võib olla edukas? Mure hõlmab markerite hankimise ja postitamise kulusid. Lisaks sellele, kas tehisintellekti tegijad järgivad markereid ja tagavad, et nad väldivad märgitud saitide skannimist. Teine vaatenurk on see, et isegi kui tehisintellekti tegijad märgistusega kaasa ei lähe, annab see järjekordse vihje kohtusse pöördumiseks ja väiteks, et sisulooja läks tehisintellekti skannimise eest hoiatamiseks viimase miili.

Jah, see kõik ajab pea ringi käima.

Järeldus

Mõned viimased märkused selle keerulise teema kohta.

Kas olete valmis kogu selle tehisintellekti kui plagiaadi ja autoriõiguste rikkuja dilemma jaoks mõtlemapanevaks vaatenurgaks?

Suur osa oletustest generatiivse AI "püüdmise" kohta plagiaadi või autoriõiguste rikkumise käigus sõltub väljundite avastamisest, mis väga sarnane varasemad tööd, näiteks Interneti-sisu, mida andmeõppe ajal potentsiaalselt skanniti.

Oletame siiski, et siin on mängus jaga ja valluta nipp.

Siin on, mida ma mõtlen.

Kui generatiivne tehisintellekt laenab natuke siit ja natukene sealt, segades need kokku, et toota mingit konkreetset väljundit, väheneb äkilise hetke saamise võimalus tohutult. Näib, et ükski väljund ei tõuse piisava läveni, et saaksite kindlalt väita, et see on kopeeritud ühest konkreetsest lähteüksusest. Saadud essee või muud väljundviisid on sobitatavad vaid osaliselt. Ja tavapärase lähenemisviisi kohaselt, mille eesmärk on väita, et plagiaat või autoriõiguste rikkumine on aset leidnud, peate tavaliselt näitama rohkem kui mõni väike pisiasi, eriti kui suupiste ei ole silmapaistev ja seda võib leida laialdaselt kogu Internetis (alalöömine mis tahes piisavat kohustust omastamise tõendamiseks).

Kas saate ikka veel veenvalt väita, et generatiivse AI andmekoolitus on veebisaitidelt ja sisuloojatelt ära rebinud, isegi kui pakutud tõend on näiliselt ebaoluline?

Mõtle sellele.

Kui me seisame silmitsi potentsiaalse ulatusliku plagiaadi ja ulatusliku autoriõiguste rikkumisega, peame võib-olla muutma oma lähenemisviisi plagiaadi ja/või autoriõiguste rikkumise määratlemisel. Võib-olla tuleb põhiliselt või laiemalt uurida plagiaati või autoriõiguste rikkumist. Tuhandetest või miljonitest väikestest juppidest koosnevat mosaiiki võib tõlgendada selliste rikkumiste toimepanemisena. Ilmne probleem seisneb aga selles, et see võib panna igasuguse sisu ootamatult rikkumiste alla. See võib olla libe kallak.

Rasked mõtted.

Rääkides kopsakatest mõtetest, ütles legendaarne kirjanik Lev Tolstoi kuulsalt: "Elu ainus mõte on teenida inimkonda."

Kui teie veebisaiti ja teiste veebisaite skannitakse tehisintellekti täiustamiseks ja kuigi te ei saa selle eest ainsatki senti, kas võiksite saada pühalikku lohutust palavast usust, et panustate inimkonna tulevikku? Tundub väike hind, mida maksta.

Noh, välja arvatud juhul, kui AI osutub kardetud eksistentsiaalseks riskiks, mis pühib kõik inimesed olemasolust. Te ei tohiks selle eest tunnustust võtta. Ma eeldan, et te ei aitaks niipea kaasa sellele kohutavale tulemusele. Kui jätta kõrvale see katastroofiline ennustus, võite mõelda, et kui tehisintellekti tegijad teenivad oma generatiivse tehisintellektiga raha ja näib, et nad naudivad kasu teenimist, peaksite ka teie saama tüki pirukast. Jaga ja jaga samamoodi. Tehisintellekti tegijad peaksid küsima luba mis tahes veebisaidi skannimiseks ja seejärel leppima läbi ka hinna, mis tuleb maksta skannimise lubamise eest.

Andke krediiti seal, kus krediit tuleb tasuda.

Anname praegu viimase sõna Sir Walter Scottile: „Oh, kui sassis võrku me koome. Kui me kõigepealt harjutame petmist.

See võib-olla kehtib siis, kui arvate, et pettus on teoksil, või võib-olla ei kehti, kui arvate, et kõik on hästi ja täiesti otsekohene ja õiguspärane. Palun andke endale heldelt tunnustust selle läbimõtlemise eest. Sa väärid seda.

Allikas: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- ja-ai-seadus/