Készül a magyar Cseti, a hatékony nyelvi modell

Hatékony magyar nyelvi modell készül

Szeretjük Csetit (hivatalos nevén ChatGPT-t) és a néha félrebeszélő, microsoftos CoPilotot is, de nekik is megvannak a maguk hibái (és akkor a Google ábrándos Bard-Gemini-áról még nem is beszéltünk). Ezért is fordul egyre több figyelem a hozzájuk hasonló nagy nyelvi modellek (Larga Language Models azaz LLM) felől a kisebb erőforrásigényű és jobban specializált nyelvi modellek (Small Language Models azaz SLM) irányába.

Ilyen modell kialakításán dolgoznak a Szegedi Tudományegyetem kutatói is most. A céljuk, hogy a nagy MI-cégekéinél lényegesen kisebb szövegmennyiséget és számítási kapacitást igénylő, hatékony Csetit alkossanak. Ehhez pedig alapjaiban gondolták újra a betanítási eljárást.

Mi a baj a nyelvi modellekkel?

“A nyelvi modellek a szövegek értelmezésére és feldolgozására, vagyis egy ember ilyen képességeinek szimulálására törekszenek. A nemzetközi AI-cégek révén megismert nagy nyelvi modellek gépi tanításra alkalmazott módszerei mégis figyelmen kívül hagyják az emberi megértés sajátosságait. Ez idézi elő azt a helyzetet, hogy a nagy nyelvi modellek drágán, rendkívüli adatpazarlással és alacsony hatékonysággal tudják elérni az emberi megértés szimulációját” – mondja Dr. Berend Gábor, az SZTE Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszékén docense, aki kutatásaihoz Bolyai-ösztöndíjat nyert.

A klasszikus nyelvi modellezés során 100 milliárdnyi mondattal tanítják a rendszert, majd ezekből bizonyos mennyiségben kitakarnak szavakat (ezért nevezik maszkolt nyelvi modellezésnek az eljárást). A nyelvi modellnek meg kell állapítaniuk, hogy a kitakart helyen pontosan milyen szó állhatott. Így a tanulás lépései nem tükrözik az emberi gondolkodásmódot.

Még jobban szeretnék tükrözni az emberi gondolkodást

Az SZTE kutatói azonban más irányból indulnak. Egy segédmodellel előbb a szavakhoz kötődő rejtett fogalmi kategóriákat szeretnék automatikusan felállítani. A szöveg számítógépes reprezentációja során ugyanis több ezer szempontból lehet értékelni egy adott szó jelentését. De a szempontok közül csak néhány határozza meg valóban a fontos fogalmi kategóriákat. Ezt az alternatív előtanítási eljárást maszkolt látens szemantikai modellezésnek nevezték el. Az eredmények pedig a kutatókat igazolják, mert így mind angol, mind magyar nyelven következetesen jobb eredményeket kaptak, mint a klasszikus maszkolt nyelvi modellezés során.

Berend Gábor munkássága úttörőnek mondható, mert az eljárás első eredményeit 2020-ban publikálta, míg a nagy AI-cégek csak a közelmúltban kezdték el nyelvi modelljeik fogalmi hierarchiáját hasonló módszerrel feltérképezni. Míg azonban a vállalkozások ezt csak leíró jelleggel végzik, a szegedi kutatók a módszert az új modellek létrehozásánál is alkalmazzák.

Dr. Berend Gábor ebben az interjúban részletesen is beszélt a nyelvi modellekről és a mesterséges intelligencia kihívásairól.

Forrás: MTI, kép: Pixabay

Hozzászólásokhoz gördülj a kapcsolódók alá!

Kedves olvasó,

ha nem vagy még támogató, lépj be a Klubba ITT. Csupán havi két kiló kenyér áráért elérsz minden támogatói tartalmat. Alkalmi támogatásra Paypalon keresztül van lehetőség (kattints a kis gombra!).

Ha egyik mód sem megfelelő, de szeretnéd támogatni a Cenwebet és a rezervátumot, akkor keress minket mailben a centauri16@gmail.com címen. Segítségedet előre is köszönjük!