Kifogy az adatokból a generatív MI
A Deloitte nevű könyvvizsgáló és tanácsadó cég TMT Predictions 2024 címmel készített felmérést a technológiák, a média és telekommunikációs eszközök alkalmazásának témakörében többek között arról, hogyan használják a vállalatok a generatív mesterséges intelligenciát. Úgy vélik, a nyilvános adatokon tanított mesterségesintelligencia-modellek nemcsak segíteni tudják a cégeket, de használatuk számos kockázatot is jelenthet.
Tévedések és ellátási problémák
Például az internet ömlesztett információhalmának torzításait. Mivel a generatív modellekhez hatalmas mennyiségű adat szükséges, a nyilvános modellek első hullámát főként a rendelkezésre álló legnagyobb adathalmazon, a nyilvános interneten tanították. Emiatt a modellek átvették az internet torzításait, ellentmondásait és pontatlanságát is. A nyilvános adatokból tanított modellek ráadásul a szerzői jogokat és a jogtisztaságra vonatkozó szempontokat is figyelmen kívül hagyják.
Épp mostanában jelent meg egy cikk a New York Times-on arról, hogy a cseti mögött álló OpenAI, a Google és a Meta is olyan gyakorlatokat alkalmaz, amelyekkel megkerüli a szerzői jogokat. Mint írják, 2021 végén az OpenAI ellátási problémával szembesült, miután kimerítette az interneten található, jó minőségű angol nyelvű szövegek tárházát. Több adatra volt szüksége a technológia következő verziójának betanításához – sokkal többre.
Ezért létrehozott egy Whisper nevű beszédfelismerő eszközt, amellyel YouTube-videók hangos tartalmát lehet lejegyezni. A Google tulajdonában lévő YouTube tiltja a videók más alkalmazásokhoz való használatát, bár állítólag maga a Google is éppen azt tette, amit az OpenAI. Mint utóbbi cég munkatársai elmondták, több mint egymillió órányi YouTube-videót írtak át, a szövegeket pedig betáplálták a GPT-4-be.
A cikk szerint a mesterséges intelligencia fejlesztése kétségbeesett vadászattá vált a technológia fejlesztéséhez szükséges digitális adatok után. A Metánál például felmerült, hogy megvásárolják a Simon & Schuster könyvkiadót, hogy szert tegyenek hosszabb művekre, de szóba jött a netről való jogdíjas adatokat gyűjtése is, mégha ez perrel is fenyeget. Mint mondják, a kiadókkal, művészekkel, zenészekkel és a híriparral engedélyekről tárgyalni túl sokáig tartana.
Szintetikus és saját adatok
Az Epoch kutatóintézet szerint a technológiai cégek gyorsabban használják fel az adatokat, mint ahogyan azok keletkeznek, így már 2026-ban kimeríthetik az interneten található, jó minőségű adatokat.
A technológiai cégek annyira ki vannak éhezve az új adatokra, hogy „szintetikus” információkat fejlesztenek ki. Ezek nem emberek által organikusan létrehozott adatok, hanem MI alkotta szövegek, képek és kódok – vagyis a rendszerek abból tanulnak, amit maguk generálnak.
Itt a legnagyobbakról beszélünk, a kisebb és nem erre specializálódott vállakozások előtt még van tér. Mint a Deloitte írja, egyre több vállalkozás tervezi, hogy a saját adatain tanítja a modelljét. Ezzel elkerülhetők a szerzői jogi és használati joggal kapcsolatos problémák, a vállalkozások pedig testreszabott megoldásokat fejleszthetnek ki. Azoknak a vállalatoknak, amelyek évek óta halmozzák fel az adatokat, most lehetőségük nyílik arra, hogy a generatív mesterséges intelligencia segítségével még többet hozzanak ki összegyűjtött információkból. A tanácsadó cég azt jósolja, hogy idén harminc százalékkal emelkednek az MI-hez kapcsolódó vállalati kiadások a 2023-as 16 milliárd dolláros becsült értékről.
Forrás: MTI, kép: Pixabay
Hozzászólásokhoz gördülj a kapcsolódók alá!
Kedves olvasó,
ha nem vagy még támogató, lépj be a Klubba ITT. Csupán havi két kiló kenyér áráért elérsz minden támogatói tartalmat. Alkalmi támogatásra Paypalon keresztül van lehetőség (kattints a kis gombra!).
Ha egyik mód sem megfelelő, de szeretnéd támogatni a Cenwebet és a rezervátumot, akkor keress minket mailben a centauri16@gmail.com címen. Segítségedet előre is köszönjük!
Hát igen!
Amig nem szabályozzák tisztességesen mind az adatfelhasználást, a jogtisztaságot, jogvédelmet, stb., addig marad a káosz.
Igen, nagyon úgy tűnik. Ráadásul itt még a szabályokra is sokan fittyet hánynak..
No, ha az MI ilyen, az internetről összegyűjtött, ellenőrizetlen adatokon dolgozik, akkor már nem csodálkozom, hogy a ChatGPT összevissza beszélt, amikor kérdeztük.
😆 Rátapintottál a lényegre!