Wyniki rozpoznawania mowy oraz ich zastosowanie do wyszukiwania materiałów audio i audiowizualnych zostały zaprezentowane uczestnikom XVII Sympozjum Nowości w Technice Audio i Wideo (NTAV) w Poznaniu. NTAV jest wydarzeniem organizowanym co dwa lata przez Polską Sekcją Audio Engineering Society.
Jak wyszukać materiał AV w zbiorze liczącym setki tysięcy nagrań, których obejrzenie czy wysłuchanie zajęłoby kilka miesięcy czy nawet lat?
Do tego celu potrzebny jest tekstowy opis zawartości poszczególnych materiałów oraz mechanizm pełnotekstowego wyszukiwania. Opis generowany jest poprzez analizę dźwięku i obrazu, mającą na celu wykrycie i rozpoznanie mowy ze ścieżki dźwiękowej oraz wykrycie i pozyskanie tekstu z obrazu.
Pomimo występujących w obu elementach niedokładności, na podstawie opisów można z dużym prawdopodbieństwem znależć konkretny materiał lub wyszukać materiały zawierające informacje na wskazany temat. Wyniki rozpoznania mowy generowane przez silnik ARM jak również wyniki OCR’a tekstu, zawierają oprócz najlepszej hipotezy również alternatywy, które dodatkowo zwiększają szanse na znalezienie szukanego materiału.
wiadomości
- ARM-1 drugi w konkursie PolEval 201916 kwietnia 2019
- Start MediaEstimatora9 stycznia 2019
- Prezentacja ARM na NTAV 201815 października 2018
- EuroPolTech 201728 kwietnia 2017
- Wyróżnienie dla projektu ARM22 września 2015
- ARM-1 na konferencji PPBW26 czerwca 2015
- Testy systemu TIN30 kwietnia 2015
- EuroPolTech 201515 kwietnia 2015