IDEA - Automatizált dokumentumfeldolgozás

Főoldal
Termékünkről
Működés

A rendszer célja a szkennelt vagy elektronikus formában beérkezett dokumentumok (pdf állományok vagy képfájlok) feldolgozása, felismerése és az értékes információk kinyerése; strukturált formába alakítása.

A megoldás alapvetően úgy olvassa el a dokumentumot, ahogy azt egy emberi felhasználó tenné: olyan szavakat, töredékeket, esetleg grafikai elemeket keres a felismert szövegben, amelyek az adott típusú információ jelenlétére utalhatnak. Miután rátalál ezekre az elemekre, ezek környezetében próbálja megtalálni azt az adatot, amely a megfelelő szabályoknak a leginkább megfelel. Például, ha egy számla fizetési határidejét szeretnénk megtudni, akkor szemmel is egy fizetési határidő vagy hasonló nevű címkét keresünk valahol a szöveg elején. Ha megtaláljuk, akkor ez alatt vagy mellett keressük a legközelebb eső dátum-jellegű szöveget. Az IDEA rendszer alapvetően ugyanilyen processzus alapján dolgozik.

Hasonló elven nem csak egyes mezők adatai, de akár egész táblázatok is visszaalakíthatók táblázatos formába. Ehhez a rendszer megkeresi a táblázat fejlécét, felbontja azt oszlopokra, majd sorokat próbál elhatárolni a fejléc alatti régióban egészen addig, amíg a táblázat végét jelző részekhez nem ér. Folytonos, több oldalon is ismétlődő táblázatok esetén is képes továbbmenni, azaz a felismerés nem akad meg az első oldalon.

Az így felismert elemek - metadat mezők, táblázatos adatsorok - ezután validációs szabályok szerinti ellenőrzésre kerülnek. Minden egyes adathoz szintaktikai és egyéb szabályokat rendelhetünk, megmondva a felismerésre kerülő adat típusát, lehetséges adattartalmait (például zárt értékkészletek esetén) vagy éppen hosszát.

A dokumentumtípushoz a háttérben feldolgozási mintákat rendelhetünk, amelyek az egyes dokumentumokban található adatokat, felismerési és validációs szabályokat, esetenként előfeldolgozási szabályokat határozhatnak meg. Tipikusan ez egy adott dokumentumkibocsátó szervezethez vagy akár generáló programhoz tartozik, de a rendszer fel van készítve ezek többféle változatban történő kezelésére is. Ezt elegendő az első, korábban még nem ismert típusú dokumentumra létrehozni: onnan kezdve a rendszer ezt képes alkalmazni és futtatni a felismerést a következő ilyen típusú dokumentumokon. Ahogy egyre több ilyen kerül a rendszerbe, egy új szabálykészletet a háttérben futó, és folyamatosan tanuló algoritmus maga is képessé válik létrehozni.

A beérkező dokumentumtípusok azonosítását szintén egy mélytanuló neurális hálózati rendszer végzi, amely elemzi a dokumentum képét és adattartalmát. A korábban rendelkezésre bocsátott tanulókészletek szerint meghatározza az alkalmazásra kerülő szabályokat és megpróbálja kinyerni az adatokat. Amennyiben a dokumentum még ismeretlen, a rendszer megpróbál a korábbi, általa már ismert szabályok szerint a legvalószínűbb megoldást felkínálni és ezek alapján felépíteni az új szabálykészletet. Ahogy egy adott dokumentumtípusból újabb példányok érkeznek, a rendszer fokozatosan megtanulja ezek kinézetét és a felismerési eredményeket visszatáplálva javítja a felismerést.

A szabályokon kívül előfeldolgozási lépések is tartozhatnak egy-egy dokumentum típushoz. Ilyen előfeldolgozás lehet az adott színek cseréje, képjavító algoritmusok futtatása, vagy éppen bizonyos szabályok szerint bizonyos mezők összevonása. Ezeken kívül egyes műveletek minden esetben lefutnak, mint például a dokumentum kiegyenesítés vagy az üres zónák levágása. Ezek egy része automatikusan be van építve minden folyamatba.

Ha egy dokumentumtípusra már létezik felismerési mintázatunk, a rendszer azt felismeri a beérkező dokumentumok között, és alkalmazza rájuk a feldolgozási szabályokat. A szabályok mentén kinyeri az információt, amelyet számítógépes feldolgozásra kész JSON vagy XML formátumba konvertál, és így ad át a társrendszerei részére.