ChatGPT V4 ületab SAT-i ja suudab tuvastada ärakasutamist ETH lepingutes

Tehisintellekti (AI) vestlusroboti ChatGPT uusim versioon GPT-4 suudab sooritada keskkoolikatseid ja õigusteaduse kõrgkooli eksameid 90. protsentiili skooriga ning sellel on uued töötlemisvõimalused, mida eelmise versiooniga polnud võimalik kasutada.

GPT-4 testitulemuste arve jagas 14. märtsil selle looja OpenAI, mis näitas, et see suudab ka pildi-, heli- ja videosisendeid tekstiks teisendada, lisaks "palju nüansirikkamate juhiste" loomingulisemale ja usaldusväärsemale käsitlemisele.

"See läbib simuleeritud baarieksami, mille tulemuseks on umbes 10% testi sooritanutest," lisas OpenAI. "Seevastu GPT-3.5 skoor oli umbes 10% madalam."

Arvud näitavad, et GPT-4 saavutas LSAT-i eksamil 163. protsentiili tulemuseks 88 – kolledži üliõpilased peavad läbima Ameerika Ühendriikides õigusteaduskonnas osalemise.

*GPT-4 ja GPT-3.5 eksamitulemused paljudel hiljutistel USA eksamitel. Allikas:* *OpenAI*

GPT4 skoor annaks selle heale positsioonile, et pääseda 20 parima õigusteaduskonna hulka ja jääb vaid mõne punkti kaugusele teatatud tulemustest, mis on vajalikud mainekatesse koolidesse, nagu Harvard, Stanford, Princeton või Yale, vastuvõtmiseks.

ChatGPT eelmine versioon sai LSAT-is ainult 149 punkti, mis tähendab, et see jäi 40% alla.

GPT-4 sai 298 punkti 400-st ka ühtse advokatuuri eksamil – hiljuti lõpetanud juuratudengite sooritatud testil, mis lubas neil praktiseerida advokaadina mis tahes USA jurisdiktsioonis.

*UBE hinded pidid saama õiguspraktika igas USA jurisdiktsioonis. Allikas:* *Advokatuuri eksamineerijate riiklik konverents*

ChatGPT vanal versioonil oli selles testis raskusi, saavutades tulemusega 10 punkti 213-st 400% madalamal.

Mis puutub SAT tõenduspõhise lugemise ja kirjutamise ning SAT matemaatika eksamitesse, mille USA keskkooliõpilased tegid oma kõrgkoolivalmiduse mõõtmiseks, siis GPT-4 sai vastavalt 93. ja 89. protsentiili.

GPT-4 paistis silma ka "kõvades" teadustes, saavutades keskmisest tunduvalt kõrgemad protsentiilid AP bioloogias (85–100%), keemias (71–88%) ja füüsikas 2 (66–84%).

Selle AP-arvutuse skoor oli siiski üsna keskmine, asudes vahemikus 43–59 protsentiili.

Teine valdkond, kus GPT-4 puudus, oli inglise keele kirjanduse eksamid, kus kahe erineva testi tulemused saadi 8.–44. protsentiilis.

OpenAI ütles, et GPT-4 ja GPT-3.5 võtsid need testid 2022.–2023. aasta praktikaeksamitelt ning keeletöötlustööriistad ei läbinud spetsiaalset koolitust:

"Me ei teinud nendeks eksamiteks spetsiaalset koolitust. Vähene osa eksamiprobleemidest oli modellil koolitusel näha, kuid me usume, et tulemused on esinduslikud.

Tulemused tekitasid hirmu ka Twitteri kogukonnas.

Seotud: Kuidas mõjutab ChatGPT Web3 ruumi? Tööstus vastab

Nick Almond, FactoryDAO asutaja ütles tema 14,300 14 Twitteri jälgijat 4. märtsil, et GPTXNUMX hakkab "inimesi hirmutama" ja see "variseb" ülemaailmse haridussüsteemi.

Hindamisteooria oli mitu aastat minu elust suur osa. Ma mõtlesin sellele päevale, mis saabub palju aastaid tagasi. Ma sõna otseses mõttes kõlasin sel ajal nagu elaniku vänt.
Aga… tegelikult tähendab see seda, et kõik peale valvava hindamise on sellest hetkest peale lõppenud.
— drnick ️² (@DrNickA) Märtsil 14, 2023

Coinbase'i endine direktor Conor Grogan ütles, et ta sisestas GPT-4-sse reaalajas Ethereumi nutika lepingu ja viitas kohe mitmele "turvahaavatavusele" ja kirjeldas, kuidas koodi saab ära kasutada:

Lisasin reaalajas Ethereumi lepingu GPT-4-sse.
Hetkega tõstis see esile mitmeid turvaauke ja osutas aladele, kus lepingut saab ära kasutada. Seejärel kinnitas see konkreetse viisi, kuidas saaksin lepingut ära kasutada pic.twitter.com/its5puakUW
— Conor (@jconorrogan) Märtsil 14, 2023

Varasemad nutikate lepingute auditid ChatGPT-s leidsid, et selle esimene versioon oli samuti võimeline mõistlikul määral tuvastama koodivigu.

AI uudiskirja "The Rundown" asutaja Rowan Cheung jagas videot GPT-st, kuidas paberile käsitsi joonistatud võltsveebisaidi koodiks transkribeeritakse.

Vaatasin just, kuidas GPT-4 muutis käsitsi joonistatud visandi funktsionaalseks veebisaidiks.
See on meeletu. pic.twitter.com/P5nSjrk7Wn
— Rowan Cheung (@rowancheung) Märtsil 14, 2023