Mutasson egy képet, megmondjuk, ki van rajta!
Vagy nem. Mindenesetre megpróbáljuk, és gyorsan el is magyarázzuk, hogyan működik. Arcfelismerés. Sokakat a kifejezés is megrémít. Miért lehet erre szükség az MTVA-nál?-merülhet föl a kérdés. Ezt igyekszünk érthetően megválaszolni.
2019.12.12 | olvasási idő: kb. 6 perc
Arcfelismerés mint probléma
Az arcfelismerés nem csupán biztonságtechnikai, titkosszolgálati vagy jogi kategória, hiszen a megoldása komoly tudományos probléma. Az MTVA Fotótárában 13 millió kép szerepel. Ezek feldolgozása, felismerése pusztán humán erőforrás igénybevételével szinte képtelenség. A mesterségesintelligencia-szerű arcfelismerő rendszer azonban segít a kérdés megoldásában. Megmutatjuk, hogyan.
Így működik az arcfelismerő
Ismétlés a tudás anyja
Könnyen belátható, hogy minél több dolgot el tudunk mondani egy képről, annál gyorsabb azt megtalálni bármilyen halmazban. A felhasználóktól azonban nem elvárható, hogy részletes tárgyszavakat adjanak meg, vagy pontos leírást, egészen egyszerűen egy nevet fognak a keresőbe írni. A rendszerünket tehát úgy kell megalkotni, hogy ennek alapján is képes legyen releváns találatot adni. Ahhoz, hogy ez sikerüljön, meg kell tanítanunk neki, mely információkat keresse és vegye figyelembe. Természetesen a tanulás még a gépek esetében is hosszú folyamat, sok példa, "gyakorlás" alapján fog csak megbízhatóan működni.
Az első lépések
Először nem az arc azonosítása megy végbe. Az első lépés annak eldöntése, személy látható-e a képen, és ha igen, férfiról vagy nőről van-e szó. Emellett egyéb leíró adatok vizsgálata is megtörténik: kültéren vagy beltéren készült-e a fotó, illetve színes vagy szürkeárnyalatos-e. Ezek azok az adatok, amelyekről a rendszer emberi beavatkozás nélkül, egyedül is képes dönteni. Ennek a folyamatnak a végén tehát már tudjuk, ha egy személy látható a képen.
Nagy feladat, kis könnyítéssel
Ezt követően ahhoz az adatbázishoz, amelynek elemeit a rendszer már - sok-sok példa alapján - jól ismeri, hasonlítjuk az új képet, melyet föl szeretnénk ismertetni. Hogy ezt a feladatot megkönnyítsük a program számára, csoportokat hozunk létre, hogy kisebb merítésből kelljen keresnie: férfiak, nők, fiatalok, idősek, szemüvegesek, stb., sorolhatjuk tovább a szempontokat, amelyek alapján ezek a fő csoportok létrehozhatók. Az azonosítás, azaz a konkrét személy felismerése során a keresést így elég abban a fő csoportban lefuttatni, amely biztos, hogy releváns. Pl. Törőcsik Marit abban, amelyből a férfiak már ki vannak szűrve, így gyorsabban kerülhetünk közelebb a megoldáshoz. Ha ezek a fő csoportok jól vannak kialakítva, tehát nincs tévesen tanított elem (pl. nem mondtuk egy férfira sem, hogy nő, ami összezavarná a tanulási folyamatot a program számára), akkor már sokat tettünk azért, hogy az arcfelismerőnk helyes találatot adjon a lehető legrövidebb időn belül.
Régi és új felismerések: Törőcsik Mari
Nem felismerés, összehasonlítás
Amikor egy személy fotója érkezik a rendszerbe, megnézzük, hogy a fő csoportokban található képek közül melyikhez hasonlít leginkább. Tehát nem személykeresés zajlik, hanem arcok összehasonlítása. A hasonlóság mértéke határozza meg, hogy sikerül-e azonosítani az arcot. Ha a csoportban, amelyhez hasonlítunk, nem található olyan arc, amellyel nagymértékű a megfelelés, akkor nem ad találatot a rendszer. Ha azonban van magas fokú egyezés, akkor a gép ezt jelezni fogja, azzal, hogy megmondja, kire hasonlít leginkább a kép a meglévő adatbázisból. Humán erőforrás szükséges azonban ahhoz, hogy a végső döntés megszülessen. A gép által felajánlott választ emberi munkaerőnek kell elfogadnia vagy elutasítania, hogy X.Y. van-e valójában a képen vagy sem.
Nehezítő tényezők
A feladatot tovább nehezíti, hogy a különböző életkorokkal változnak az arc jellemzői. A rendszert tehát úgy kell tanítani, hogy ezt a változást képes legyen követni. Hiszen gondoljunk csak bele, mennyire másként nézünk ki felnőttként, mint születésünkkor! Csecsemőkori képeinket nem a nagyfokú hasonlóság miatt ismerjük föl, hanem mert megtanítják nekünk, hogy mi vagyunk láthatók az adott fotón. Ugyanígy kell tanítani az arcfelismerőt. Ehhez rengeteg képre van szükség, adott személy öregedési folyamatát tízéves ciklusonként tanítják az algoritmusnak. A tanulási folyamat - mint az emberek esetében is - hosszadalmas. Az MTVA arcfelismerőjének "betanítása" másfél évig tartott. Ennyi időn keresztül adott válaszlehetőségeket a rendszer, és kapott ezekre megerősítést vagy elutasítást. Jelenleg körülbelül 44 ezer személy felismerésére képes nagy pontossággal.
A másik dolog, ami bonyodalmat okozhat a felismerésben, a háttér. Ha a felismerendő személlyel egy térben például egy portré lóg a falon, vagy egy felvonulási menet egy szobor előtt halad el, azokat az algoritmus fölismerheti és találatként adhatja meg annak ellenére, hogy a valóságban nincsenek a képen.
Távlatok
Remélhetőleg a közeljövőben az MTVA archívumának összes képét sikerül földolgozni és azonosítani az algoritmus segítségével. Ennek működését bárki kipróbálhatja, aki ellátogat a cognitiv.nava.hu oldalra és feltölt egy képet. Természetesen erőszakos vagy szexuális tartalommal nem érdemes próbálkozni, ezeket azonnal letiltja a program, mint ahogy a szomszéd nénit sem fogja fölismerni, hiszen közszereplők, színészek, hírességek képével van tanítva. A hosszú távú tervek között szerepel, hogy ne csak személyek, hanem helyek, épületek azonosítása is kivitelezhető legyen.
Borítókép: A Budapesti Szemétégetőmű, Budapest, 1982. április 27. A Budapesti Szemétégetőmű központi vezérlőterme. Naponta 1200 tonna hulladék ártalmatlanítására képes az állami beruházásban épített mű, mely egyúttal hőeneregiát termel. MTI Fotó: Balaton József, MTI Fotó, Azonosító: MTI-FOTO-888016