Tudomány - Mesterséges látás

2013.04.17. 12:42 :: Dörnyei József

A mesterséges látás a jelen csúcstechnológiája. Intenzíven fejlesztik, nagyon sok területen lehet felhasználni egyszer majd. Eddig azért jár gyerekcipőben, mert iszonyatos számítókapacitás szükséges hozzá.

A látásért felelős rész az agyban a "látókéreg" kb. a teljes agy 13,5-20%-át foglalja el. Az emberi agy a mai napig a világ legerősebb számítógépe, a működése egyelőre fekete mágia számba megy és mégis a teljes agyi kapacitás nagyon nagy része kell a látáshoz.

A számítógépek felépítése régebben kevésbé volt alkalmas a látásra, egyetlen "processz" futott, aminek fel kellett volna dolgoznia hatalmas mennyiségű látásadatot. Az emberi agyban ez párhuzamosan megy, az agy az egész képet egyszerre dolgozza fel.

Mára a számítógépek egyre inkább több processzt futtatnak egyszerre. Egy CPU jellemzően néhányat, pl. ma általános a 4 magos processzor. De a GPU-k már jellemzően néhány százat párhuzamosan.

A hardware azonban még nem elég, szükséges lenne olyan software-re is, ami képes az egész képet egyszerre feldolgozni. Ez pont az a software, ami az agyban van és számunkra még fekete mágia számba megy.

A számítógépek első körben a képet próbálták meg elemezni, de ez csak nagyon limitált környezetben tud működni, még elvi síkon is. A gyakorlati megvalósítása is problémás, mert a régi számítógépek limitált számítási kapacitása miatt a "látó" programokat úgy írták meg, hogy csak azt keressék (és lássák), amire fejlesztették az egész rendszert. Pl. egy dió válogató programnak csak azt kell felismernie, hogy van-e a képrészleten valami és hogy az a valami dió-e. Ha nincsen semmi a képrészleten, akkor nem tesz semmit. Ha van valami, ami dió, akkor sem. Ha van valamit, ami nem dió, akkor az lefújja a szalagról.

A jelenlegi kör még mindig nem az igazi, mert még mindig hiányzik az "agy" a számítógépekből. Ma a 3D lézeres scan a legfejlettebb módszer a számítógépes látásra. Ezt a berendezést alkalmazzák például a Google automatikusan közlekedő autóiban. A működésének lényege az, hogy lézersugarakkal folyamatosan megméri az autóból látható összes tárgy minden pontjának a távolságát. Ebből az irdatlan adatból aztán kijön egy 3D környezettérkép. Ezt az térképet azonban még értelmezni is kell. De ez az értelmezés azonban már jóval könnyebb úgy, hogy ez egy 3D térkép és nem egy kép. Tehát a 3D scan nem megoldja a látás problémáját, hanem megkerüli.

Mi is a "látás"? A látás az, amikor 2 képadatfolyamból (2 szem v. kamera) a számítógép (illetve ma még csak az agy) lefordít egy belső, virtuális világot. Tehát tudja, hogy az érzékelő (ma még az ember) pontosan hol van és hozzá képest a világban található dolgok hol vannak és mik azok.

A 3D lézer scanner felméri ugyanezt és ha hozzáadnak még kamerákat, akkor pl. hozzá tudja rendelni a 3D adatokhoz az anyag adatokat. Pl. scanneli a fotelt és hozzáadja a kamera által látott színt, amiből kikeresi az adatbázisából az anyagot és tudja a fotel nem látható méreteit is, valamint az anyagát. A nem látható részt is bele tudja illeszteni a világába, mint ahogy azt az agy is teszi.

A jövőben elképzelhető, hogy ugyanez a folyamat megy majd 3D scan nélkül is, hiszen az adatok ott vannak a képadatfolyamban, csak nem tudjuk feldolgozni az adatokat.

A jelenlegi technológiának is fantasztikus lehetőségei vannak. A jelenlegi mesterséges látás már kielégítően jó. Jelenleg autóvezetésre fejlesztik, de a következő lépés szvsz. a "látó" robotok kifejlesztése. A "látó" robot alkalmas lesz nagyon sok háztartási és ipari munkára.

Szólj hozzá!

Címkék: Tudomány Technológia

A bejegyzés trackback címe:

https://dornyeij.blog.hu/api/trackback/id/tr985231110

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása