Hogyan kommunikál a mesterséges intelligencia?
2024. jún. 5.

Az elmúlt másfél évben a mesterséges intelligenciáról szóló diskurzus kilépett a tudományos-fantasztikus keretek közül, és mára abszolút a mindennapjaink részét képezi. Mégis sokan az alapvető fogalmakat sem ismerik, ami megnehezíti, hogy lekövessük, mi is történik ezen a területen. Miután a fogalommagyarázó első részében tisztába tettük az MI szintjeit és tanulási módjait, vizsgáljuk meg, hogyan kommunikál a mesterséges intelligencia.
A leggyakrabban emlegetett fogalom ennek kapcsán az LLM, ami a large language model kifejezésből ered, amely nagy nyelvi modellként fordítható le. Ezek tulajdonképpen olyan gépi tanulási modellek, amelyek elképesztő mennyiségű szövegen lettek betanítva, leggyakrabban könyvek, tanulmányok, híroldalak és úgy amblokk az internet publikus bugyraiból. Ezeket a tartalmakat feldolgozva a modell képes koherens szöveg generálására, így gyakran használják összefoglalók készítésére, fordításra, vagy kérdések megválaszolás.
Persze végtelen mennyiségű szövegre is ráengedhetnénk a rendszert, ha nem lenne birtokában a természetes nyelvfeldolgozás (Natural Language Processing, NLP) képességének, enélkül ugyanis nem értené meg az ott leírtakat. Hovatovább, enélkül nem is lenne elképzelhető, hogy a gépek természetes emberi nyelven kommunikáljanak, és megértsék a felhasználók által megfogalmazott szövegeket.
A nyelvi modellek és így a természetes nyelvfeldolgozás terén is a GPT (Generative Pre-trained Transformer) a legfejlettebb modell a piacon jelenlegi ismereteink szerint. A modell képességei a rendelkezésre álló paraméterektől függnek, amely meghatározza, mennyi réteg van az adott LLM-ben. Míg a 2018-as GPT-1 még csak 117 000 000 paraméterrel bírt, a napjainkban elérhető legfejlettebb GPT-4 a becslések szerint már 1 750 000 000 000 000 paraméterrel rendelkezik.
Ahhoz, hogy a nyelvi modellekből kicsaljuk a számunkra szükséges választ, egy pontos parancssort, vagyis promptot kell megadnunk. A jó promptok kialakítása kritikus a modellek teljesítményének javításában, ami abból az alapvető emberi gondolatból ered, hogy rossz kérdésre nincs jó válasz. Az egyre népszerűbb prompt engineeringet végző szakemberek, vagyis tulajdonképpen utasítómérnökök azok, akik a modellek működését tökéletesítik.
A napjainkban használt nagy nyelvi modelleket leggyakrabban generatív mesterséges intelligencia rendszerek építéséhez alkalmazzák. Ez a gépi tanulás egyik olyan területe, ahol a rendszerek képesek új tartalmat létrehozni az általunk beírt utasítások alapján. Ez lehet kép, zene, videó vagy akár szöveg is. Ez a fajta MI összefüggéseket tanul az adatokból, és képes új, releváns információt létrehozni. Érdekesség, hogy visszafelé már sokkal nehezebben működik a dolog, a képfeldolgozással például meggyűlik a legtöbb rendszer baja, így az úgynevezett Computer Vision még igencsak kezdeti fázisban van.