index

Kétféle hang alapján történő azonosítás létezik: az egyik magának a hangnak az azonosítása, mely a beszélőre egyedileg jellemző ("speaker recognition"). Alapjában véve a hang milyensége genetikus eredetű, léguti lágy szövetek, a hangszál, és a léguti geometria adja a hang eredő személyes jellemzőit., de azokat olyan sok egyéb élettani és viselkedési tényező befolyásolja, hogy mindinkább a viselkedési jellemzők között tárgyalják.
A másik azonosítás magának a beszédnek az azonosítása/felismerése, mely a "speech recognition" körbe tartozik. (Az azonosítás ezen formáját identifikációra is használják.)
A hangazonosítás különlegességét az adja, hogy az elektronikus hálózaton közvetített hangot is lehet azonosítani, ebben egyedülálló.
A speaker és speech recognition szinte adja magát a multimódusos biometriára (a kettő együttes alkalmazása).
Mivel az egyik legegyszerűbben rögzíthető és közvetíthető (olcsó mikrofon), és magának a hangrögzítésnek, hangtechnikának a múltja a rádiózás megjelenéséig vezethető vissza, - a zajszűrésre, hangelemzésre már a korai évekből jelentős tapasztalat és eredmény halmozódott fel. A személyazonosításhoz használt jellemzők kutatása a 60-as években kezdődött.
A speaker recognition-nek két formája van: a beszélő mindig ugyanazt mondja (szövegfüggő azonosítás), vagy szövegfüggetlen (bármit mondhat) azonosítás. A szövegfüggő a megbízhatóság érdekében erősen igényli a személy közreműködését: az azonosító rendszer utasításait követve kell az előre felvett (enrollment) szöveget/szövegből mondania. Vizsgálják a beszéd sebességét, dinamikáját (hangsúlyozás), hangmagasságot, hangerőt.. Ezt az azonosítást jelenleg elsősorban verifikációhoz alkalmazzák.

Megkülönböztethetünk két alapvető azonosítási helyzetet:

Közelről max. 1 méterről történő azonosítás. Ennél ellenőrizhetőek a körülmények, az azonosítás lehet multimodusú, pl. arccal kiegészített. A felvétel minősége zajmentes, egyszóval optimálisak a körülmények.
A másik a távolról történő azonosítás (és éppen ennek lehetőségében egyedülálló a hang), de ott más multimodusú lehetőség nincs. Ilyenkor általában tudásalapú (knowledge based) azonosítással növelik a biztonságot (kérdésekre kell válaszolni). Itt az adatátviteli vonal zaja adja a további nehézséget..
A jelenlegi kutatások alacsony minőségű felvételek szövegfüggetlen azonosításra összpontosítanak.

Az azonosítás első szintje a spektrum analízis: milyen frekvenciájú hangok vannak egyáltalán, ezt nevezik a low levelnek. A high level pedig a prozódiai jellemzők: ritmus, sebesség, hanglejtés, hangszín (moduláció), hanghordozás (intonáció), aztán a személyes, nevelési hatások:, és szemantikai, egyéni nyelvhasználat, kiejtés, hóbort, a születési helyre utaló jellemzők, szociális-gazdasági helyzet, képzettségi szinvonal,. Ezeket keresésre is lehet használni, valamint lehallgatásra.

Biometriai azonosítás módszerei: hang