Prezentacja ARM na NTAV 2018

Wyniki rozpoznawania mowy oraz ich zastosowanie do wyszukiwania materiałów audio i audiowizualnych zostały zaprezentowane uczestnikom XVII Sympozjum Nowości w Technice Audio i Wideo (NTAV) w Poznaniu. NTAV jest wydarzeniem organizowanym co dwa lata przez Polską Sekcją Audio Engineering Society.

Przykład transkrypcji fragmentu programu radiowego wraz z tekstem referencyjnym

Jak wyszukać materiał AV w zbiorze liczącym setki tysięcy nagrań, których obejrzenie czy wysłuchanie zajęłoby kilka miesięcy czy nawet lat?

Do tego celu potrzebny jest tekstowy opis zawartości poszczególnych materiałów oraz mechanizm pełnotekstowego wyszukiwania. Opis generowany jest poprzez analizę dźwięku i obrazu, mającą na celu wykrycie i rozpoznanie mowy ze ścieżki dźwiękowej oraz wykrycie i pozyskanie tekstu z obrazu.

Pomimo występujących w obu elementach niedokładności, na podstawie opisów można z dużym prawdopodbieństwem znależć konkretny materiał lub wyszukać materiały zawierające informacje na wskazany temat. Wyniki rozpoznania mowy generowane przez silnik ARM jak również wyniki OCR’a tekstu, zawierają oprócz najlepszej hipotezy również alternatywy, które dodatkowo zwiększają szanse na znalezienie szukanego materiału.

Przykład tekstu pozyskanego w wyniku analizy obrazu

wiadomości