Új szintre emelte a mesterséges intelligenciát az OpenAI
2024. máj. 16.

Május 13-án nagy bejelentést tett az OpenAI: egy olyan új modellt mutatott be, amely képes szinte teljesen valós idejű párbeszédet folytatni a felhasználóval. Az, hogy megspóroljuk a hosszú másodpercekig tartó "gondolkodási időt", azonban még csak a kezdet: a GPT-4o-nak, másnéven Omninek nevezett modell ugyanis az írott szöveg mellett videók, képek és hangok alapján is képes velünk kommunikálni.
Mira Murati technológiai vezető szerint a GPT-4o egy GPT-4 szintű modell, ami ugyanakkor sokkal gyorsabb, mint bármelyik eddigi megoldás, ami elérhető a piacon. A szakember jelezte, hogy bár a modellek egyre jobbak, a kezelés módja eddig nem változott jelentősen, most viszont sikerült annyira leegyszerűsíteniük, hogy az emberek és gépek közötti interakció szinte már teljesen természetesnek hat.
Hogyan érték el ezt?
Nos úgy, hogy a hangalapú bevitel, ahol eddig három modell dolgozott együtt (egy leiratozó, egy értelmező és egy felolvasó), a GPT-4o-ban már natívan működik. Ez azt jelenti, hogy a modell valós időben, késleltetés nélkül tud kommunikálni kamerakép, írott szöveg és élő beszéd alapján is, és az eseményről közzétett videók alapján megszólalásig emlékeztet egy emberre mind gyorsaságban, mind pedig hanglejtésben.
Az új modell felismeri az emberi érzelmeket a hangunkban és reagál is ezekre, saját hangulatát a miénkhez tudja igazítani. Az MI-asszisztens szóhasználata is rendkívül kifinomult, továbbá nagy újítás az is, hogy reagál a hangunkra, és ha beszéd közben kérdésünk merül fel, félbe is tudjuk szakítani. Az Omni egy esti mesét is fel tud olvasni úgy, hogy értelmezi a történteket, és ehhez mérten állítja be hangszínét, ezzel remekül elszórakoztatva egy gyereket.
Ami még döbbenetesebb a videó alapján, hogy mennyiféle képpen lehet használni. Az egyik videóban egy apa a gyermeke matekháziját mutatta meg Omninak, azt kérve, hogy magyarázza el a fiatalnak a Pitagorasz-tételt, és vezesse rá a megoldásra, de addig ne mondja meg neki a jó megoldást. Tehát a ChatGPT kezdeti hibája, hogy bár megoldást tud adni, levezetési módot viszont nem, már a múlté. Ha pedig a fent említett példa még nem volt elég meggyőző, az Omni képes valós időben fordítani is, több nyelven, ami megint csak hiánypótló megoldás.
Amennyiben a rendszer jól működik, és hosszútávon bebizonyosodik, hogy tényleg sikerült minimalizálni a hibaarányt, illetve a hallucinációkat, akár a magántanárokat is felválthatja az Omni. E téren további jó hír, hogy a modell az ingyenes verziót használók számára is elérhető lesz, igaz, az előfizetőket ötször akkora limittel kínálják meg. A demót követően az OpenAI kiadja a GPT-4o-t asztali alkalmazásként is a macOS rendszerhez - ezt egyébként már a bejelentés napján megkapják a fizetős felhasználók.
A bemutató videók megjelenése után sokan a Joaquin Phoenix főszereplésével készült A nő (Her) című filmben megjelenő MI-hez hasonlították a modellt, ami nem véletlen: a hang és annak intonációi is Scarlett Johanssont idézik, és képességek terén is szinte emberinek mondható.