OpenAI ja Microsoft rakendavad Vall-E

OpenAI ja Microsoft jätkake võitlust Google'iga tehisintellekti juurutamise teel Vall-E, uus häälvestlusbot. See on kõnesünteesi tarkvara, mis suudab simuleerida inimhäält juba pärast kolme sekundilist kuulamist.

Teisisõnu on see Microsofti ja OpenAI arendatud generatiivse tehisintellekti süsteemi uusim tükk, millega alates 2019. aastast on koloss Bill Gates on seotud mitme aastaga, mitme miljardi dollari suurune partnerlus.

Vall-E: kõik üksikasjad OpenAI ja Microsofti uue vestlusroti kohta

Valle-E on AGI tööriist, Üldine tehisintellektst "üldine" või "tugev" tehisintellekt, mis suudab simuleerida inimese intelligentsust. Seega, erinevalt seni teadaolevast, mis on “kitsas” või “nõrk” AI.

Viimane suudab reageerida eelseadistatud toimingutega konkreetsetele ülesannetele, kuid mitte reageerida planeerimata tegevusele. Viimastel aastatel ei ole AI-vestlusbotid toiminud nii hästi, kui nende loojad eeldasid, kuna need piirdusid väikeste ülesannetega ja neil oli kõrge veamäär.

Valle-E töötati välja kasutamiseks koos kvaliteetne kõnesünteesi tööriistu ja luua näidisproovist originaalheli. OpenAI määratleb Valle-E kui a "loomuliku koodeki keelemudel" kuna selle töö põhineb tehnoloogial nimega InCodec.

Startup, rahastas Elon Musk ja Sam Altman, muu hulgas uhkeldab ka ChatGPT loomisega, vestlusrobotiga, mis suudab säilitada interaktiivset vestlust kasutajatega, mäletades ja õppides varasemaid toiminguid ja pretsedente.

Seega, just nagu ChatGPT suudab genereerida koode autonoomselt, Valle-E on loodud ka diskreetsete helikoodekide loomiseks helinäidise kuulamisest.

Käitumine täpselt nagu inimene.

Koos GPT-3 tarkvara teksti ja Dall-E/stabiilne difusioon piltide jaoks lõpetab Valle-E helisüsteem ChatGPT triptühhoni ja selle eesmärk on muuta revolutsiooniline valdkond generatiivne AI.

Speaker Prompt, Ground Truth, Baseline ja Vall-E.

OpenAI ja Microsofti käivitatud uue tööriista keerukus seisneb Valle-E võimes ära tunda tämber, kääne ja emotsionaalne toon kõnelejast ja taasesitage see pärast kolmesekundilist kuulamist.

Rakendused sisse helitöötlus on palju, nagu ka kriitika tarkvara manipuleerimise ja väärkasutuse potentsiaali kohta. Pole üllatav, et erinevalt ChatGPT-ga juhtunust ei andnud Microsoft Vall-E koodi teistele katsetamiseks.

Valle-E saidilt leiab ka tarkvara poolt juba sünteesitud kõne näidiseid. Eelkõige on kuulda mitmeid proovivõtu variante, sealhulgas: Speaker Prompt, Ground Truth, Baseline ja Vall-E.

Esimene võimalus on heliklipp, mille kõne konnotatsioonid peab AI reprodutseerima; teises öeldakse lause, mille jaoks tehisintellekt peab võrdluse pakkuma. Kolmas seevastu on praegu saadaolevate kõnesünteesitehnoloogiatega loodud näide. Lõpuks on Vall-E algne kõne, mille genereerib Microsofti tarkvara.

OpenAI ja Microsofti tehisintellekti võimalused ja ohud.

Microsofti ja OpenAI teadlased näivad olevat teadlikud selle tehnoloogia võimalikest kahjudest. Tegelikult edastasid nad avalikus ajalehes järgmist:

"Kuna Vall-E võib sünteesida kõnet, mis säilitab kõneleja identiteedi, võib selline tehnoloogia kujutada endast potentsiaalseid riske, mis on seotud mudeli sobimatu kasutamisega, nagu näiteks hääle tuvastamise võltsimine või kellegi teisena esinemine."

Seetõttu lisab Microsoft selliste riskide maandamiseks luua tuvastusmudeli, mis eristab, kas heliklipi on sünteesinud Vall-E. Sellega seoses rakendavad kaks hiiglast edasise mudeliarenduse käigus ka Microsofti tehisintellekti põhimõtteid.

Kuid jäljendamise oht ei ole ainus skeptitsismi ja hirmu tekitav tegur. Vall-E koolitati kasutades LibriLighti heliteeki, mille valmistas Meta, mis sisaldab 60 tuhat tundide kaupa ingliskeelseid kõnesid, mis on välja võetud peamiselt üldkasutatavatest audioraamatutest, salvestatud ja loetud vabatahtlike poolt.

Igal juhul peab Vall-E oma sünteesivõimekuse suurendamiseks laiendama oma õppekogumit kogu Internetile. See järgmine samm võimaldas ChatGPT eelkäijal GPT-3 saavutada muljetavaldav lausetöötlus, kirjutamis- ja monteerimisvõimalused.

Sellest hoolimata oli tarkvara kalduvus formuleerima vägivaldset, seksistlikku ja rassistlikku sisu just seetõttu, et see töötas kogu veebist valimatult võetud näidete põhjal. Nii võib juhtuda ka uue Vall-E-ga.

Sel juhul eeldaks filtreerimisoperatsioonid arvukate inimtöötajate kasutamist, mida suured digigigandid praegu suurt tehnoloogiat mõjutavat koondamiste lainet arvestades ette ei paista.

Google avalikustab Bardi, et konkureerida OpenAI ja Microsoftiga

Ootuspäraselt konkureerib Microsofti ja OpenAI-ga Google, mis peaks avalikustama bard, vestlusrobot Deepmind, mille Google omandas Tähestik. Bard näeb välja nagu ChatGPT täpne koopia, kuid ilma värskendusteta.

Sundar Pichai, Google'i tegevjuht, esitles uut tarkvara kui tööriista, mis ammutab teavet veebist, et pakkuda värskeid ja kvaliteetseid vastuseid. "Värske" all peab ta silmas pidevat värskendamist, mida Microsofti tehisintellekt ikka veel ei suuda.

Lühidalt, Bardi eesmärk on luua üksikasjalikud vastused lihtsatele küsimustele. Selle toimimine põhineb TheMDA, dialoogirakenduste keelemudel, mida üks Google'i enda inseneridest oli varem kirjeldanud kui "tundlikku".

Ei saa eitada, et Google'i teadet Bardi turule toomisest ootasid tehnoloogiahuvilised. Lõppude lõpuks, vastavalt aruannetele Wall Street Journal, Google'i emaettevõte Alphabet on investeerinud rohkem kui $ 31 miljardit tehisintellektis 2021. aastal rohkem kui ükski teine konkurent.

Pärast ChatGPT edu otsustas ettevõte seetõttu kokku kutsuda parimad: asutajad Larry Page ja Sergei Brin. Igal juhul pole kahtlust, et tehisintellekti tarkvara on innovatsioonivaldkonnas hindamatu ressurss.

Tõepoolest, isegi Amazon, Meta ja Apple ei kavatse kindlasti istuda ja vaadata, mida teised teevad ilma midagi ette võtmata. Kuigi konkurents on uurimistöös suurepärane kiirendaja, on oht, et parima tehisintellekti võidujooksus kasutatakse vigaseid süsteeme koos vigade, piirangute ja riskidega, pööramata liigset tähelepanu suurele pildile.

Allikas: https://en.cryptonomist.ch/2023/02/14/openai-microsoft-implement-vall-e/