Мета ИмагеБинд АИ може да имитира људску перцепцију

Мета објављује код у отвореној вештачкој интелигенцији под именом имагебинд, који предвиђа односе између података сличне ономе како људи перципирају или замишљају своје окружење. Док генератори слика као што су Мидјоурнеи, Стабле Диффусион и ДАЛЛ-Е 2 везују речи за слике, омогућавајући вам да креирате визуелне сцене само на основу текстуалног описа, ИмагеБинд иде даље од тога. Може да повеже текст, слике или видео, аудио, 3Д мерења, податке о температури и податке о кретању – и то без потребе за претходном обуком у свакој прилици. Ово је рана фаза оквира који ће на крају моћи да генерише сложена окружења из једноставних уноса као што су текстуални промпт, слика или аудио (или њихова комбинација).

ИмагеБинд можете замислити као апроксимацију машинског учења људском учењу. На пример, ако стојите у динамичном окружењу, као што је прометна градска улица, ваш мозак (углавном несвесно) апсорбује призоре, звукове и друге сензорне сензације да би добио информације о аутомобилима у пролазу, високим зградама, времену и још много тога . Људи и друге животиње су еволуирали да обрађују ове податке за наше генетске предности: преживљавање и преношење наше ДНК. (Што више знате о свом окружењу, то више можете да избегнете опасности и прилагодите се свом окружењу да бисте боље преживели и напредовали). Како се рачунари приближавају опонашању мултисензорних веза животиња, они могу да користе те везе за генерисање потпуно реализованих сцена на основу само ограничених делова података.

Дакле, иако бисте могли да користите Мидјоурнеи да креирате „басета у Гандалфовом костиму који балансира на лопти за плажу“ и добијете релативно реалистичну фотографију те чудне сцене, мултимодални алат за вештачку интелигенцију као што је ИмагеБинд могао би да направи видео са псом са релевантним звуци, укључујући детаљан дневни боравак, собну температуру и тачну локацију пса и свих осталих у сцени. „Ово ствара одличну прилику за креирање анимација од статичних слика комбиновањем са аудио упитима“, примећују истраживачи Мета у свом блогу оријентисаном на програмере. „На пример, креатор може да комбинује слику са будилником и петлом који кукуриче и користи аудио сигнал да сегментира петла или звук будилника да сегментира сат и анимира обоје у видео секвенци.“

Што се тиче тога шта се још може урадити са овом новом играчком, то јасно указује на једну од кључних амбиција Мете: ВР, мешовита стварност и метапростор. На пример, замислите будуће слушалице које могу да направе потпуно реализоване 3Д сцене (са звуком, покретом, итд.) у покрету. Или би програмери виртуелних игара могли да је искористе да би себи уштедели значајан део мукотрпног рада у процесу дизајна. Исто тако, креатори садржаја могли би да креирају импресивне видео записе са реалистичним звучним записима и покретом заснованим само на тексту, сликама или звуку. Такође је лако замислити како алат као што је ИмагеБинд отвара нова врата у приступачности генеришући мултимедијалне описе у реалном времену како би помогли људима са оштећењем вида или слуха да боље разумеју своје окружење.

Такође занимљиво: Најбољи алати засновани на вештачкој интелигенцији

„У типичним системима вештачке интелигенције постоји специфично уграђивање (тј. вектори бројева који могу да представљају податке и њихове односе у машинском учењу) за сваки релевантни модалитет“, каже Мета. „ИмагеБинд показује да је могуће створити заједнички простор за уграђивање за више модалитета без потребе за обуком на подацима са сваком појединачном комбинацијом модалитета. Ово је важно јер истраживачи не могу да креирају скупове података са узорцима који садрже, на пример, аудио податке и термалне податке са прометне градске улице, или податке о дубини и текстуални опис приморске литице.

Мета верује да ће ова технологија на крају превазићи садашњих шест „чула“, да тако кажем. "Иако смо истражили шест модалитета у нашој тренутној студији, верујемо да ће увођење нових модалитета који повезују што више чула - као што су додир, говор, мирис и фМРИ мождани сигнали - омогућити богатије моделе вештачке интелигенције усмерене на човека." Програмери заинтересовани за истраживање овог новог сандбок-а могу почети тако што ће заронити у Мета-ин отворени изворни код.

Прочитајте такође:

ИзворЕнгадгет

Пријави се

0 Коментари

Ембеддед Ревиевс

Погледај све коментаре

Остали чланци

Мета ИмагеБинд АИ може да имитира људску перцепцију

Недавни коментари