Mida Nvidia uus tekstist 3D-ks muutmine inseneri- ja tootekujunduse jaoks tähendab

tl; dr: Generatiivne AI areneb põnevas tempos. Nvidia uusim algoritm teisendab teksti 3D-võrguks kaks korda kiiremini kui vaevalt 2 kuud tagasi avaldatud projektid. See tähendab, et tehnilised võimalused on praegu juba ületamas meie võimet nendega töötada.

Eelmisel nädalal paber Nvidia teadlased näitasid eksponentsiaalset kiirust, millega generatiivne AI ruum areneb. See plahvatuslik aktiivsus – eriti märgatav viimase 9 kuu jooksul – avaldab mõju kõikidele eluvaldkondadele, sealhulgas toodete disainile, projekteerimisele ja tootmisele. Muudatused vabastavad tööstuse struktuursetest piirangutest ideede edastamisel, kiirendavad innovatsioonitsüklit ja võimaldavad lõpuks täita oma jätkusuutlikkuse lubadusi.

Näidisvõrgud Nvidia Researchi Magic 3D-algoritmidest koos nende genereerimiseks kasutatud viipadega.

Nvidia sügava kujutlusvõime uurimine

Kuna juba aastaid on räägitud, et tehisintellekt muudab meie tööviisi põhjalikult, ootasid vähesed, et loomesektor on selle esimeste ohvrite seas. GPT-3 inimsarnase tekstigeneraatori tulek 2020. aastal tõi võimalused teravamalt esile. Sellest ajast peale on see olnud metsik sõit: DALL-E (tekst-pildiks muutmine), Whisper (kõnetuvastus) ja viimati stabiilne hajutamine (tekst-pildiks) mitte ainult ei suurendanud kõne ja visuaalse AI tööriistade võimalusi, vaid ka vähendas nende kasutamiseks vajalikke ressursse (175 miljardilt parameetrilt GPT-3 puhul 900 miljonile stabiilse difusiooni jaoks).

Stabiilse difusiooni suurus tähendab vähem kui 5 GB kettaruumi – seda saab kasutada mis tahes sülearvutiga. Mitte ainult see; erinevalt OpenAI-st (mida rahastab peamiselt Microsoft ja mis avaldab GPT-3, DALL-E ja Whisper), on Stable Diffusion avatud lähtekoodiga, mis tähendab, et teised saavad selle õppimisele palju hõlpsamini tugineda. See tähendab, et näeme alles uuendusliku tsükli algust – tulemas on palju muud, nagu Nvidia paber nüüd näitab.

Stable Diffusioni toetajad (stability.ai) turbotavad seda suundumust veelgi, pakkudes tehnoloogilisi ja rahalisi toetusi teistele meeskondadele, kes viivad uurimistööd uutesse suundadesse. Lisaks teevad paljud projektid tööriistad kättesaadavaks üha laiemale kasutajaskonnale. Nende hulgas on Blenderi pistikprogrammid, avatud lähtekoodiga disainitööriist ja Adobe patenteeritud Photoshopi ekvivalent. Täielikku API-juurdepääsu tööriistadele rahastatakse suurte riskikapitali dollaritega, mis tähendab, et sajad miljonid tarkvaraarendajad, mitte ainult paarsada tuhat andmeinsenerit, loovad nüüd nende algoritmide jaoks oma tööriistad.

Kõne, pildid ja tekst on ühed esimestest vertikaalidest, mida need tehnoloogiad häirivad. Kuid 3D ei jää kaugele maha. Lisaks niši generatiivsele kunstile on koomiksid ilmselge esimene rakenduspunkt. Stabiilsel difusioonil põhinev Pokémoni generaator on juba olemas. Järgmised on visuaalsed efektid ja filmid. Tõenäoliselt on häiritud ka paljud teised sektorid, sealhulgas sisekujundus, mille eest vastutab Interiorai.com.

Kogu selle põnevuse juures tundub uuenduste rakendamine disaini ja inseneritöö valdkonnas järelmõtlemisena. Siiski on see tõenäoliselt piirkond, mida lõpuks kõige rohkem mõjutab. Muidugi on esialgsed väljakutsed: Stable Diffusion ja tema kaasmaalased ei ole veel eriti täpsed. See pole koomiksite jaoks probleem, kuid see on suur väljakutse igale katsele muuta tekst tööstuslikus kontekstis kasutatavateks täielikeks 3D-geomeetriateks. See on valdkond, mille vastu on tekkinud teatav huvi (101. aastal käivitati Iisraelis projekt nimega Bits2015). See võib olla tööstuse püha graal, kuid on palju vahepealseid väljakutseid, mida võib olla palju lihtsam lahendada. Nende hulka kuulub täiustatud objektituvastus (Yolo algoritmi kasutatakse juba suurepäraselt), mis toob kaasa parema tsiteerimise ja annotatsiooni – parandades kvaliteeti ja vähendades vigu. Pistikprogrammid peaksid hõlbustama ka generatiivse AI kasutamist põhikujunduste (primitiivide) väljatöötamiseks, mida saab seejärel kujundustööriistades edasi redigeerida, et tolerantsust vastavalt nõuetele parandada. Seda lähenemisviisi kasutati juba Altairi Inspire'is, mis kasutas sama tegemiseks lõplike elementide analüüsi. Need primitiivid võivad toimida ka annoteeritud mudelite sünteetilise andmebaasina, millest 3D CAD-tööstuses on puudus. Physna tegevjuht ja asutaja juhib sellele artiklis tähelepanu kirjeldavad üksikasjalikult oma katseid kasutada neid uudseid meetodeid üksikasjalike 3D-kujunduste loomiseks, mis toob esile ka mitmed lõksud nende algoritmide juhtimiseks sünteetiliste andmete kasutamisel. 3D-kujunduste loomine 2D-joonistest on veel üks potentsiaalne rakendusvaldkond, nagu ka intelligentne CAM – toiteallikast tööriista kulumise raamatukogu, et määrata kindlaks parimad töötlemisstrateegiad.

Need väljakutsed on olulised ja tulusad, et neid ise ja enda jaoks lahendada. Kuid nende peamine mõju on aidata arendada ideest disainini, vähendades lõpuks sõltuvust 3D-kujundustest kavatsuste edastamisel. Disainid, olgu need siis 2D või 3D, on olnud peamised vahendid klientide vajaduste ülekandmisel lõpptoodeteks. See piirab tööstust, sest need disainilahendused toimivad musta kastina, kuhu on salvestatud kõik väärtuslikud klientide ülevaated, tootmispiirangud ja ettevõtte eesmärgid, mida ei saa lahti harutada, kuid need on siiski üksi tuvastatud. See tähendab, et kui midagi muutub, on peaaegu võimatu disaini lihtsalt kohandada. See on põhjus, miks tootmisuuenduste, nagu 3D-printimine, kasutuselevõtt võtab nii kaua aega ja valmistab lühiajalistele investoritele igavesti pettumuse. Lennuki komponendid "seatakse" nende projekteerimise hetkest, vaatamata 20-aastasele tootlikule elueale. Innovatsiooni ulatus peaaegu puudub – need peavad ootama järgmise põlvkonna turuletulekut.

Võimalus muuta ühte piirangut ja lubada sellisel algoritmil nagu Stable Diffusion taastada disaini- ja tootmisparameetrid, kiirendab märkimisväärselt uute uuenduste kasutuselevõttu ja võimaldab meil kiiremini ehitada kergemaid ja parema jõudlusega tooteid. Nagu vormel 1 või süsteemidisaini puhul, tegutsevad tulevased insenerid piirangute haldurina, kes suudavad sõnadega ja andmeallikatele viidates väljendada, mis on toote eesmärk ja piirangud.

Uute ja olemasolevate toodete projekteerimisprotsessi sel viisil kiirendamata pole meil peaaegu mingeid vahendeid endale seatud ambitsioonikate jätkusuutlikkuse eesmärkide saavutamiseks. Selleks peame esmalt kokku leppima keele, millega saame suhelda väljaspool disaini. See uus semantiline mudel on ilmne lünk ülalkirjeldatud uuendustes. Mitmed ettevõtted on sellega juba katsetama hakanud, nt nTopoloogia oma väljade kontseptsioonidega. Ja ometi on muutuste tempo aeglane, erinevalt algoritmidest, mida semantiline mudel toidab. Nvidia uus algoritm on väidetavalt kaks korda kiirem kui DreamFusion, avaldatud vähem kui 2 kuud tagasi. Toote- ja inseneriettevõtted peavad praegu töötama oma ideede jäädvustamiseks uutel tulevikukindlatel viisidel, et kasutada maksimaalselt ära selle generatiivse AI plahvatusliku kasvuga kaasnevad võimalused. Algoritmide muutumise kiirus on taas näidanud, et Morse seadus kehtib kõikjal, kus tööriistu digitaliseeritakse. Väljakutseks jääb meie inimlik suutmatus seda muutust omaks võtta ja rakendada uusi suhtlusmeetodeid, mis suudavad ülesande kiireloomulisusest hoolimata nende potentsiaali vabastada.

Allikas: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/