PWSZ Tarnów
Department of Electronics, Telecommunications and Mechatronics
The system which can monitor bird species based on automatic bird voices recognition is very useful in order to protect biodiversity of avifauna. In the paper database system together with an expert system and a recognition unit are... more
The system which can monitor bird species based on automatic bird voices recognition is very useful in order to protect biodiversity of avifauna. In the paper database system together with an expert system and a recognition unit are described. Recognition unit (recognizer) recognizes bird species and bird communication signals from the digital signal registered in digital audio recorder. Information about bird species and communication system obtained from recognizer supported by an expert system is stored in the database system. Some initial results of recognition experiments are also given.
- by Robert Wielgat and +1
- •
- Expert Systems, Bioacoustics, Data Mining, Database Systems
System which can monitors bird species based on automatic bird voices recognition is very useful in order to protect biodiversity of avifauna. In the paper the electronic devices being integral part of the proposed acoustical bird... more
System which can monitors bird species based on automatic bird voices recognition is very useful in order to protect biodiversity of avifauna. In the paper the electronic devices being integral part of the proposed acoustical bird monitoring system are described. These devices are: digital camera, digital camcorder, multi-channel digital audio recorder, digital alluring device, microphone array, GPS localizator, radio communication module and portable weather station. Some guidelines resulting from authors experience in using described equipment are also given.
- by Robert Wielgat and +1
- •
- Electronic Engineering, Bioacoustics, Electronics, Ecology
Method for improving audio signals recognition using multimedia database is presented in the paper. Recognition using signals patterns matching was assumed. Large number of signal patterns prolongs recognition time and may decrease... more
Method for improving audio signals recognition using multimedia database is presented in the paper. Recognition using signals patterns matching was assumed. Large number of signal patterns prolongs recognition time and may decrease recognition accuracy. Initial preselection of signal patterns based on chosen signal parameters can alleviate problem. Comparison of effectiveness of preselection method for parameters was examined.
Automatic detection of bird species by their calls is studied in this paper. The conducted research is split into three experiments in which two birds’ species-specific filtration schemes are examined in comparison with experiment... more
Automatic detection of bird species by their calls is studied in this paper. The conducted research is split into three experiments in which two birds’ species-specific filtration schemes are examined in comparison with experiment performed on unfiltered raw data. As a classifier hidden Markov models (HMM) with Gaussian mixture models (GMMs) have been used.
The system which can monitor bird species based on automatic bird voices recognition is very useful in order to protect biodiversity of avifauna. In the paper main aspects of using web mapping services in distributed environment together... more
The system which can monitor bird species based on automatic bird voices recognition is very useful in order to protect biodiversity of avifauna. In the paper main aspects of using web mapping services in distributed environment together with database management system are described. Furthermore, architecture of the subsystem responsible for storing, managing and exchanging geospatial data with web mapping interfaces is proposed. Also some examplary results of querying geospatial information from the Acoustical Bird Monitoring System (ABMS) and external GIS servers are presented. GIS in the acoustical bird monitoring system.
- by Robert Wielgat and +1
- •
- Bioacoustics, Ecology, Databases, Bird Conservation
Acoustical bird monitoring system is a new tool under construction, which will provide automatic support for bird species recognition. The project is an interdisciplinary research which involves specialists from ecology, biology,... more
Acoustical bird monitoring system is a new tool under construction, which will provide automatic support for bird species recognition. The project is an interdisciplinary research which involves specialists from ecology, biology, database, electronics, electro- acoustics as well as experts from nature protection institutions. One of the crucial aspects in the project are bird voices recordings. The paper presents the methods of recordings, compulsory and optional information accompanying the recordings, exemplary species chosen for recordings, tools applied for data analysis. In the years 2008 and 2009 seventy six scientific expeditions dedicated to bird species recordings were undertaken. The collected and acoustically analysed material was about 152 hours of recordings. 49 bird species vocalizations were recorded and analysed.
W artykule przedstawiono wyniki badań dotyczących automatycznej detekcji wybranych wad wymowy u dzieci za pomocą automatycznego rozpoznawania mowy. Detekcja wady wymowy może być przeprowadzana pod kątem diagnozy lub terapii logopedycznej.... more
W artykule przedstawiono wyniki badań dotyczących automatycznej detekcji wybranych wad wymowy u dzieci za pomocą automatycznego rozpoznawania mowy. Detekcja wady wymowy może być przeprowadzana pod kątem diagnozy lub terapii logopedycznej. Jednym z często spotykanych typów wad wymowy jest substytucja polegająca na podstawianiu prawidłowego fonemu w słowie innym fonemem tego samego języka. W pracy rozważano automatyczną detekcję substytucji pod kątem zastosowań do terapii logopedycznej. W przypadku terapii zadanie automatycznego rozpoznawania mowy upraszcza się do rozpoznawania dwóch głosek: prawidłowej lub nieprawidłowej, ustalonych na podstawie wcześniejszej diagnozy. Jako materiał badawczy przyjęto następujące pary fonemów będące częściami wypowiedzi języka polskiego: {s, sz}, {si, sz}, {c, cz}, {ci, cz}, {dz, drz}, {dzi, drz}. Nagrania pochodziły od dzieci z wadami wymowy oraz od osób, które naśladowały określone wady wymowy. Proces rozpoznawania wady wymowy składał się z dwóch zasadniczych etapów: ekstrakcji cech z sygnału mowy oraz klasyfikacji. W przypadku ekstrakcji cech zbadano dwie metody: standardową metodę MFCC (ang. Mel-frequency cepstral coefficients) oraz stosunkowo niedawno wprowadzoną metodę HFCC (ang. Human-factor cepstral coefficients). Na etapie klasyfikacji przebadano skuteczność rozpoznawania wad wymowy za pomocą czterech metod. Pierwszą badaną metodą była metoda nieliniowej transformacji czasowej (ang. dynamic time warping – DTW). Standardowa metoda DTW jest oparta na modelach całych słów. W przypadku rozważanego problemu terapii substytucji słowa są rozróżnianie jedynie za pomocą jednego fonemu. W takiej sytuacji standardowa metoda DTW często zawodzi zwłaszcza, że fonemy rozróżniające dwa słowa są najczęściej podobne do siebie akustycznie. Ponadto segmenty poza obszarem rozróżniających słowa fonemów często podlegają różnym zniekształceniom lub zakłóceniom, co może dać w rezultacie większą niż zwykle odległość DTW pomiędzy słowami tej samej klasy. Zaproponowano modyfikację standardowej metody DTW polegającą na obliczaniu odległości DTW jedynie między fonemami będącymi składowymi danego słowa. W proponowanym rozwiązaniu zakłada się, że klasa rozpoznawanego słowa jest znana oraz, że słowo może być wypowiedziane prawidłowo lub nieprawidłowo zgodnie z postawioną wcześniej diagnozą. Oprócz metod opartych na nieliniowej transformacji czasowej zbadano również metodę klasyfikacji bazującą na niejawnych modelach Markowa (ang. hidden Markov models – HMM). Metodę HMM badano dla modeli całych słów oraz dla modeli fonemów. W przeprowadzonych badaniach zaobserwowano następujące tendencje: • metoda DTW rozpoznająca fonemy dała wyższe skuteczności niż metoda DTW rozpoznająca słowa • metoda HMM dla modeli fonemów dała lepsze rezultaty w porównaniu z metodą HMM dla całych słów • Skuteczności rozpoznawania w oparciu o cechy HFCC były wyższe w porównaniu ze standardowymi cechami MFCC • W porównaniu z klasyfikatorem DTW, metoda HMM dała nieznacznie gorsze wyniki, jednak problem ten wymaga dalszych badań. Opracowane metody rozpoznawania mogą znaleźć zastosowanie w diagnostyce i terapii wad wymowy u dzieci. W szczególności można z ich wykorzystaniem dokonywać wykrywania substytucji następujących par fonemów: sz-s, cz-c oraz drz-dz do celów terapii logopedycznej. Dla par fonemów sz-si, cz-ci, drz-dzi muszą zostać opracowane inne, bardziej skuteczne metody. Potencjalne przyszłe kierunki badawcze obejmują zastosowanie metody analizy składowych głównych oraz analizy dyskryminacyjnej zarówno w metodzie DTW jak i HMM. Planuje się również dalszą optymalizację parametrów metody HMM. Opisywane w pracy badania były sponsorowane z grantu MNiI nr 1 H01F 046 28.
Automatic bird species recognition method using their voices is presented in this paper. The selected bird species have been detected by hidden Markov models (HMM) classifier using Mel-frequency cepstral coefficients (MFCC). In order to... more
Automatic bird species recognition method using their voices is presented in this paper. The selected bird species have been detected by hidden Markov models (HMM) classifier using Mel-frequency cepstral coefficients (MFCC). In order to support recognition process, analysed signals have been appropriately filtered before classification in the so called prefiltration process. The prefiltration strategy assumed using n-th order IIR Butterworth filter bank. Each filter from the filter bank was applied for band pass filtration in the bird species-specific and signal type band. Increase of recognition accuracy has been observed in case of prefiltration with properly chosen filter order. Experiments have been carried out on the set of bird voices containing 30 bird species, one of which is endangered with extinction.
This paper describes preliminary research results on enhancement of loudspeaker impulse response measurement in small room. Proposed enhancement is a combination of MLS (Maximum Length Sequence) algorithm and Delay-Sum Beamforming in... more
This paper describes preliminary research results on enhancement of loudspeaker impulse response measurement in small room. Proposed enhancement is a combination of MLS (Maximum Length Sequence) algorithm and Delay-Sum Beamforming in order to measure frequency response of loudspeakers even in very small and poorly suppressed rooms. Application of the beamforming algorithm allows the extension measure of impulse response by damping reflections from walls, floor and ceiling.
Results from preliminary research on recognition of Polish birds’ species are presented in the paper. Bird voices were recorded in a highly noised municipal environment. High 96 kHz sampling frequency has been used. As a feature set... more
Results from preliminary research on recognition of Polish birds’ species are presented in the paper. Bird voices were recorded in a highly noised municipal environment. High 96 kHz sampling frequency has been used. As a feature set standard mel-frequency cepstral coefficients (MFCC) and recently proposed human-factor cepstral coefficients (HFCC) parameters were selected. Superior performance of the HFCC features over MFCC ones has been observed. Proper limiting of the maximal frequency during HFCC feature extraction results in increasing accuracy of birds’ species recognition. Good initial results are very promising for practical application of the methods described in the paper in monitoring of protected birds’ area.
- by Robert Wielgat and +1
- •
- Technology, Bioacoustics, Signal Processing, Human Factors
Proper diagnosis and therapy of pathological pronunciation of phonemes play an important role in modern logopedics. To enhance the efficiency of diagnosis and therapy an automatic recognition of pathological phoneme pronunciation is... more
Proper diagnosis and therapy of pathological pronunciation of phonemes play an important role in modern logopedics. To enhance the efficiency of diagnosis and therapy an automatic recognition of pathological phoneme pronunciation is addressed in this paper. The authors focus on the therapy of phoneme substitution disorders. Recognized speech samples come from speech-impaired Polish children and partially from persons imitating speech disorders. Recognized speech disorders were substitutions in pairs (for the correct phonetic charactors please see online article) embedded in Polish carrier words. In order to detect substitutions in the recognized words, recently proposed human factor cepstral coefficients (HFCC) have been implemented. Efficiency of the HFCC approach was compared to the application of standard mel-frequency cepstral coefficients (MFCC) as a feature vector. Both dynamic time warping (DTW), working on whole words or embedded phoneme patterns, and hidden Markov models (HMM) were used as classifiers. The HMM classifier was based on whole-word models as well as phoneme models. Results present a comparative analysis of DTW and HMM methods. The superiority of HFCC features over those of MFCC was demonstrated. Results obtained by DTW methods, mainly by modified phoneme-based DTW classifier, were slightly better in comparison with the HMM classifier. Results obtained for the detection of substitution in pairs (for the correct phonetic charactors please see online article) are very promising. The methods developed for these cases can be integrated into computer systems for speech therapy. For substitutions in pairs (for the correct phonetic charactors please see online article) further research is necessary.
System which can monitors bird species based on automatic bird voices recognition is very useful in order to protect biodiversity of avifauna. In the paper digital audio recorder being integral part of the proposed acoustical bird... more
System which can monitors bird species based on automatic bird voices recognition is very useful in order to protect biodiversity of avifauna. In the paper digital audio recorder being integral part of the proposed acoustical bird monitoring system are described. Recorder has been originally designed by authors and the performance has been tested in series of experiments. Some guidelines resulting from authors experience in using described equipment are also given.
Acoustical bird monitoring system is a new tool under construction, which will provide automatic support for bird species recognition. The project is an interdisciplinary research which involves specialists from ecology, biology,... more
Acoustical bird monitoring system is a new tool under construction, which will provide automatic support for bird species recognition. The project is an interdisciplinary research which involves specialists from ecology, biology, database, electronics, electro- acoustics as well as experts from nature protection institutions. One of the crucial aspects in the project are bird voices recordings. The paper presents the methods of recordings, compulsory and optional information accompanying the recordings, exemplary species chosen for recordings, tools applied for data analysis. In the years 2008 and 2009 seventy six scientific expeditions dedicated to bird species recordings were undertaken. The collected and acoustically analysed material was about 152 hours of recordings. 49 bird species vocalizations were recorded and analysed.
This paper describes preliminary research results on speech recognition of speech impaired children. A several Polish phonemes most confusing for speech impaired children were investigated. The records included utterances being the... more
This paper describes preliminary research results on speech recognition of speech impaired children. A several Polish phonemes most confusing for speech impaired children were investigated. The records included utterances being the examples of pathological speech. Part of the recorded material was artificially noised by procedure generating white noise. Two most promising types of cepstral coefficients: standard (MFCC) as well as human factor (HFCC) were used for tracking of speech content in frequency domain. For mispronounced phoneme recognition embedded in the word a classical dynamic time warping (DTW) algorithm as well as HMM method were exploited. A phoneme-based approach in DTW method has been proposed. Optimal parameters of HFCC adjusted to the stated recognition task have been found. The superior HFCC performance during conducted recognition experiments especially in strongly noised environment has been observed. The results of the research can be useful for modern logopedic therapy.
W artykule opisano wyniki badań, dotyczące automatycznego rozpoznawania mowy zaburzonej. Badania przeprowadzono dla kilku polskich fonemów sprawiających największe problemy dzieciom z wadami wymowy. Zbadano trzy rodzaje współczynników... more
W artykule opisano wyniki badań, dotyczące automatycznego rozpoznawania mowy zaburzonej. Badania przeprowadzono dla kilku polskich fonemów sprawiających największe problemy dzieciom z wadami wymowy. Zbadano trzy rodzaje współczynników cepstralnych: standardowe (CC), mel-cepstralne MFCC oraz współczynniki HFCC jako cechy sygnału mowy. Jako klasyfikatorów użyto klasycznego algorytmu nieliniowej transformacji czasowej (ang. Dynamic Time Warping) oraz średniego wektora cech. Zastosowanie cech HFCC wpłynęło na znaczącą poprawę wyników rozpoznawania. Przebadano szeroki zakres wartości parametrów w procesie obliczania HFCC w celu znalezienia ich optymalnych wartości dla różnych zadań rozpoznawania.
W zagadnieniach dotyczących ochrony środowiska ważnym zagadnieniem jest wykrywanie i monitorowanie obecności określonego gatunku ptaka na danym terytorium, czyli tzw. monitoring ptaków. W celu monitorowania obecności ptaków w ramach... more
W zagadnieniach dotyczących ochrony środowiska ważnym zagadnieniem jest wykrywanie i monitorowanie obecności określonego gatunku ptaka na danym terytorium, czyli tzw. monitoring ptaków. W celu monitorowania obecności ptaków w ramach różnorodnych akcji organizowanych przez parki krajobrazowe oraz inne instytucje są angażowane duże grupy ludzi, od których wymaga się dodatkowo odpowiednich umiejętności. Pociąga to za sobą duże koszty społeczne oraz sprawia wiele trudności organizacyjnych. Rozwiązaniem zaprezentowanego problemu może być system automatycznego monitorowania różnych gatunków ptaków za pomocą metod wykorzystywanych do automatycznego rozpoznawania mowy ludzkiej. Zaprezentowana w pracy koncepcja systemu automatycznego monitoraownia ptaków została oparta na rozpoznawaniu głosów ptaków wykorzystującego metodę klasyfikacji za pomocą nieliniowej transformacji czasowej (ang. DTW) oraz ekstrakcję cech HFCC (Human Factor Cepstral Coefficients) z sygnału dźwiękowego ptaków. Zastosowanie cech HFCC dotychczas nie stosowanych do rozpoznawania głosów ptaków dało bardzo obiecujące wyniki. Osiągnięte skuteczności rozpoznawania pozwalają na zastosowanie prezentowanych w pracy metod w systemach monitoringu ptaków. W artykule podano również pewne zasady dotyczące warunków nagrywania głosów ptaków oraz wstępnego przetwarzania nagranego sygnału mające na celu maksymalizację skuteczności rozpoznawania.
- by Robert Wielgat and +1
- •
This paper describes preliminary research results on Polish speech recognition using DTW method aided by HMM. The HMM method is used as a preclassifier searching for n best hypotheses of the recognized words while the DTW – as a precise... more
This paper describes preliminary research results on Polish speech recognition using DTW method aided by HMM. The HMM method is used as a preclassifier searching for n best hypotheses of the recognized words while the DTW – as a precise final classifier. Results of the experiments on large vocabulary isolated word recognition show slight improvement in recognition accuracy compared to alone DTW and HMM methods