
Kaikki olennainen puheentunnistuksesta
Suurin osa meistä on havahtunut siihen, kun puhelin luulee sinun tekevän hakua Googlesta puheentunnistusta hyödyntämällä. Kuuluu vain pling ääni, ja satunnaiset tallentuneet äänet muuttuvat tulkinnaksi hausta, jota et tarkoituksella tehnyt. Kyseessä on virheellinen tunnistus, sillä puhelin tunnistaa virheellisesti äänet ja toiminnan komennoksi etsiä jotain.
Puheentunnistusta pidetään yhtenä merkittävimmistä alan trendeistä, eikä suotta. Sen potentiaalia ei vielä täysin tunneta, mutta sovelluksia ja uusia innovaatioita pyritään kehittämään puheentunnistuksen saralla tällä hetkellä. Puheentunnistusta testataan esimerkiksi itseohjautuvissa autoissa ja osittain sitä hyödynnetään muun muassa pikaruokaravintoloiden drive-in tilauksissa ja puhelinvastaajassa.
Todelliset puheentunnistuksen kyvyt nähdään siinä vaiheessa, kun kaikki lähitulevaisuuden teknologiat ovat valmiita sillä tavalla, että niitä pystytään yhdistämään toisiinsa. Eniten alalla odotetaan esineiden internetin todellista läpimurtoa, jolloin puheen ymmärtäminen tulee yhdeksi moniulotteisen esineen elementeistä. Mutta mitä asiasta tiedetään nyt, miten sitä voi hyödyntää jo nyt omassa arjessa ja millaisia eettisiä kysymyksiä puheentunnistukseen liittyy?
Tietokone ymmärtää ja tulkitsee – kun puhe muuttuu tekstiksi
Miten puheentunnistus käytännössä tapahtuu? Prosessi alkaa siitä, kun ihminen tuottaa äänen. Yleensä puheentunnistuksessa puhutaan komennoista. Ääni, jota tuotetaan, on analogista dataa, ja tämä laitteen on osattava muuttaa digitaaliseen muotoon. Tämä tapahtuu ADC-muuntimella, jolloin ääniaallot pilkotaan pieniin osiin. Kun osat saavat numeerisen muodon, on analoginen ääni muutettu digitaaliseen muotoon.
Samassa ääni pilkotaan tiettyjen konsonanttien perusteella, jolloin syntyy foneemeja. Lopuksi foneemit sovitetaan yhteen valtavasta datasta jo löytyviin foneemeihin, jolloin viesti parhaassa mahdollisessa tilanteessa on oikein tulkittu ja puheentunnistus osaa etsiä vastauksen esitettyyn kysymykseen. Kuulostaako monimutkaiselta? Mikäli aiheesta haluaa tietää tarkemmin, löytyy verkosta runsaasti materiaalia, joka selittää puheen tunnistamisen toimintaperiaatteen paljon tarkemmin.