24. listopadu probíhala podcastová diskuse s profesorkou Li Fei-fei z Stanfordovy univerzity a zakladatelkou World Labs, která podrobně vysvětlila své myšlenky na téma prostorové inteligence a diskutovala o rozdílných pohledech na světové modely s Yannem LeCunem, bývalým hlavním vědcem společnosti Meta.
Odlišné přístupy k modelování světa
Při budování světových modelů se názory Li Fei-fei a LeCuna často vnímají jako dva různé směry. Zatímco LeCun upřednostňuje učení modelů prostřednictvím abstraktního „implicitního reprezentace“, bez nutnosti obnovovat každý pixel, Li Fei-fei se snaží, aby Marble, její projekt, vytvářel explicitní reprezentace ze svých interních abstrakcí, a tak jasně produkoval vizualizované 3D světy.
Li Fei-fei však nevidí tyto dvě metody jako protikladné. Podle jejích slov je pro vývoj univerzálního světového modelu nezbytné jak implicitní, tak explicitní reprezentace. World Labs se soustředí na „úmyslnou“ explicitní produkci, jelikož cílem firmy je pomáhat lidským tvůrcům v oblastech jako herní vývoj, vizuální efekty a architektonické návrhy, kde je zapotřebí vizuální a interaktivní 3D výstup.
Marble a jeho technologický základ
Li Fei-fei v rozhovoru naznačila, že Marble je prvním produktem společnosti, přičemž její technologický základ spočívá v modelu „RTFM“ (Real-Time Frame Model). Na rozdíl od modelů, které generují čistě videa, Marble usiluje o generování konzistentních a trvalých 3D prostorů. Jeho model je multimodální, podporující vstupy jako text, obrázky, videa či hrubé 3D rozvržení, a především se snaží udržovat konzistenci objektů během procesu inference.
Význam prostoru pro umělou inteligenci
Li Fei-fei zdůraznila, že současné velké jazykové modely LMS se učí především prostřednictvím obrovského množství textových dat. I když jsou jazykové modely působivé, značná část lidského poznání se nedá zachytit pouze jazykem. Chceme-li vyvinout skutečně obecnou umělou inteligenci, musí AI překročit jazykové omezení a zažít fyzický svět prostřednictvím vizuálního vnímání a jednání. Lidský proces učení je inherentně embodied; interagujeme se světem rozsáhle bez jazyka a vnímáme světlo, dotek, gravitaci a prostorové vztahy.
Budoucnost porozumění AI fyzickému světu
Pokud jde o technický pokrok, Li Fei-fei věří, že během pěti let bychom mohli vidět významný pokrok v oblasti porozumění AI fyzickému světu. Vytváří vizi budoucnosti, která se zakládá na konceptu „multivesmíru“: radikálním snížení bariér pro generování 3D obsahu, což lidem umožní nízkonákladově vytvářet nespočet paralelních světů. Tyto digitální reality by mohly rozšířit fyzické lidské zážitky, reformovat užívání v oblastech zábavy, vzdělání, vzdálené spolupráce a vědeckého objevování.
Hlavní poznatky rozhovoru
- Slova sama o sobě nestačí k vývoji obecné umělé inteligence (AGI). Mnoho inteligencí, jako prostorové uvažování a první pomoc, je ne-verbálních.
- Klíčovým rozdílem Marble oproti běžným generativním video modelům je „stálost objektů“. Ve světě generovaném Marble zůstávají objekty i po otočení na svém původním místě.
- Li Fei-fei a její tým uvedli RTFM, jehož cílem je efektivní 3D prostorové uvažování na základě výkonu jednoho GPU H100.
- Li Fei-fei se domnívá, že implicitní a explicitní reprezentace musejí být v budoucnu integrovány s cílem zmocnit lidi.
- Budoucí AI by neměla být pouze černou skříňkou, ale měla by se stát „neural spatial engine“ pro herní vývojáře, architekty a umělce.
Závěrem
Diskuse se nakonec zaměřila na principy realizace AI, která skutečně „chápe“ fyzický svět a vyžaduje odlišný přístup bez přetrvávajících omezení současných jazykových modelů. Podle Li Fei-fei je implementace „prostorové inteligence“ zásadní pro realizaci AI, která nejenže chápete prostor, ale i zákony fyziky, což je klíčem k dalšímu pokroku v umělé inteligenci.
























