technika
Autor: n | dodano: 2012-10-17
Pogaduszki z maszyną

Programy do rozpoznawania mowy są już niemal doskonałe.

W ciągu ostatnich kilku lat po cichu przeniknęły do wszystkich sfer naszego życia. Wykorzystuje się je w telefonicznych liniach obsługi klienta i systemach rezerwacji lotów. Są wbudowane w Microsoft Windows. Za ich pomocą możemy opcjonalnie wprowadzić tekst w telefonach z ekranami dotykowymi, takich jak iPhone czy aparaty z Androidem. Tak naprawdę większość osób nie lubi jednak z nich korzystać.

Bo jest to na ogół nie wybór, lecz konieczność – gdy nie da się pisać na klawiaturze lub porozmawiać z drugim człowiekiem. Korporacje używają ich w systemach telefonicznych, bo to taniej, niż zatrudniać ludzi. Wiele osób, które dyktują teksty swoim komputerom, nie ma innego wyjścia, z powodu, na przykład, niepełnosprawności. A w telefonach dotykowych stosuje rozpoznawanie mowy dlatego, że na klawiaturze ekranowej pisze się wolno i niewygodnie.

Co w takim razie trzeba zrobić, by rozpoznawanie mowy przestało być erzacem? Jak daleko nam do gadających, niepopełniających błędów komputerów ze Star Treka?
Otóż jesteśmy coraz bliżej. Okazuje się, że po dekadzie przejęć, fuzji i korupcyjnych skandali na polu bitwy utrzymała się już tylko jedna duża firma zajmująca się rozpoznawaniem mowy – Nuance Communications – i sprzedaje ona jedyne komercyjne oprogramowanie dostosowane do Windowsów, Macintoshe’a i iPhone’a. Jej technologię wykorzystuje się w samochodach marki Audi i BMW, w fordach i mercedesach oraz telefonach Motorola, Nokia, Samsung, Verizon i T-Mobile. Dzięki niej działają też reagujące na głos zabawki, odbiorniki GPS i bankomaty i to ona umożliwia odbieranie przez komputer telefonów w AT&T, Bank of America czy CVS.

Co roku Nuance wprowadza kolejną wersję programów dla użytkowników indywidualnych, na przykład Dragon NaturallySpeaking. Na ogół nie ma w nich wielu nowych funkcji, Nuance skupia się bowiem głównie na jednym – zwiększeniu dokładności.
Kiedyś, żeby program nauczył się rozpoznawać twój głos, trzeba było przeczytać mu przez mikrofon tekst. Na początku trening musiał trwać 45 min, w miarę doskonalenia technologii czas ten ulegał skróceniu – do 20, 10, w końcu 5 min. Dziś lekcja nie jest już potrzebna. Po prostu zaczyna się dyktować, a program rejestruje słowa (według moich szacunków) z dokładnością do 99,9%. Wciąż raz na kilka stron myli jakiś wyraz, ale i tak robi to wrażenie.

Twórcy oprogramowania chwytają się różnych sposobów, by było ono bardziej precyzyjne. W pierwszych wersjach trzeba było robić po każdym słowie pauzę, a program nie potrafił rozróżnić wyrazów, takich jak „może” i „morze”*. Z czasem jednak coraz szybsze procesory umożliwiły analizę płynnej mowy. Dzisiaj wręcz wskazane są dłuższe frazy, żeby program miał więcej materiału do analizy.

Inna sztuczka: w ubiegłym roku Nuance zaoferował użytkownikom iPhone’ów darmową aplikację Dragon Dictation: twoje słowa zostają przesłane na serwery firmy i po przeanalizowaniu, przekształcone na tekst w ciągu kilku sekund pojawiają się na ekranie telefonu.

Nikt jednak nie wiedział, że firma gromadzi te miliony próbek, tworząc ogromną bazę głosów osób w różnym wieku, mówiących z różnym akcentem, służącą do testowania algorytmów rozpoznawania mowy.

A więc technika się rozwija. Ale na częste pytanie czytelników: „Skoro programy do dyktowania są już tak dobre, to czy mogę ich używać do zapisywania rozmów telefonicznych i wywiadów?”, odpowiedź nadal brzmi „Nie”. Programy działają poprawnie, ale należy mówić wprost do mikrofonu, najlepiej bez akcentu, a w tle musi panować wzlędna cisza. I wciąż trzeba im dyktować znaki przestankowe („kropka”). A Bóg jeden wie, ile to my sami mamy problemów ze wzajemnym zrozumieniem, trudno więc oczekiwać, że poradzi sobie z tym komputer. Nic dziwnego, że dzisiejsze aplikacje wciąż mylą „usmażoną” z „ósmą żoną”, „usta lenia” z „ustaleniami” albo „po wódkę” z „powódką”.

Klawiatury nie znikną więc za naszego życia. Od rozmawiających komputerów ze Star Treka dzielą nas jeszcze dziesięciolecia. Oczywiście, technologia rozpoznawania mowy z 99,9-procentową dokładnością doprawdy zadziwia – ale dopóki nie osiągnie 100%, nie będzie rozwiązaniem z wyboru.

* Artykuł dotyczy programów do rozpoznawania języka angielskiego. Przykłady w języku polskim ilustrują jedynie, na czym polegają błędy (przyp. tłum.).

Więcej w miesięczniku „Świat Nauki" nr 01/2011 »
Drukuj »
Ten artykuł nie został jeszcze skomentowany.
Aktualne numery
11/2017
10/2017 - specjalny
Kalendarium
Listopad
22
W 1904 r. urodził się Louis Néel, francuski fizyk, laureat Nagrody Nobla.
Warto przeczytać
Zmyl trop to użyteczna, ale i pełna powabu oraz przekonująca, kieszonkowa esencja wszystkiego, co chcielibyście wiedzieć o obronie przed inwigilacją.

Logowanie

Nazwa użytkownika

Hasło

Autor: n | dodano: 2012-10-17
Pogaduszki z maszyną

Programy do rozpoznawania mowy są już niemal doskonałe.

W ciągu ostatnich kilku lat po cichu przeniknęły do wszystkich sfer naszego życia. Wykorzystuje się je w telefonicznych liniach obsługi klienta i systemach rezerwacji lotów. Są wbudowane w Microsoft Windows. Za ich pomocą możemy opcjonalnie wprowadzić tekst w telefonach z ekranami dotykowymi, takich jak iPhone czy aparaty z Androidem. Tak naprawdę większość osób nie lubi jednak z nich korzystać.

Bo jest to na ogół nie wybór, lecz konieczność – gdy nie da się pisać na klawiaturze lub porozmawiać z drugim człowiekiem. Korporacje używają ich w systemach telefonicznych, bo to taniej, niż zatrudniać ludzi. Wiele osób, które dyktują teksty swoim komputerom, nie ma innego wyjścia, z powodu, na przykład, niepełnosprawności. A w telefonach dotykowych stosuje rozpoznawanie mowy dlatego, że na klawiaturze ekranowej pisze się wolno i niewygodnie.

Co w takim razie trzeba zrobić, by rozpoznawanie mowy przestało być erzacem? Jak daleko nam do gadających, niepopełniających błędów komputerów ze Star Treka?
Otóż jesteśmy coraz bliżej. Okazuje się, że po dekadzie przejęć, fuzji i korupcyjnych skandali na polu bitwy utrzymała się już tylko jedna duża firma zajmująca się rozpoznawaniem mowy – Nuance Communications – i sprzedaje ona jedyne komercyjne oprogramowanie dostosowane do Windowsów, Macintoshe’a i iPhone’a. Jej technologię wykorzystuje się w samochodach marki Audi i BMW, w fordach i mercedesach oraz telefonach Motorola, Nokia, Samsung, Verizon i T-Mobile. Dzięki niej działają też reagujące na głos zabawki, odbiorniki GPS i bankomaty i to ona umożliwia odbieranie przez komputer telefonów w AT&T, Bank of America czy CVS.

Co roku Nuance wprowadza kolejną wersję programów dla użytkowników indywidualnych, na przykład Dragon NaturallySpeaking. Na ogół nie ma w nich wielu nowych funkcji, Nuance skupia się bowiem głównie na jednym – zwiększeniu dokładności.
Kiedyś, żeby program nauczył się rozpoznawać twój głos, trzeba było przeczytać mu przez mikrofon tekst. Na początku trening musiał trwać 45 min, w miarę doskonalenia technologii czas ten ulegał skróceniu – do 20, 10, w końcu 5 min. Dziś lekcja nie jest już potrzebna. Po prostu zaczyna się dyktować, a program rejestruje słowa (według moich szacunków) z dokładnością do 99,9%. Wciąż raz na kilka stron myli jakiś wyraz, ale i tak robi to wrażenie.

Twórcy oprogramowania chwytają się różnych sposobów, by było ono bardziej precyzyjne. W pierwszych wersjach trzeba było robić po każdym słowie pauzę, a program nie potrafił rozróżnić wyrazów, takich jak „może” i „morze”*. Z czasem jednak coraz szybsze procesory umożliwiły analizę płynnej mowy. Dzisiaj wręcz wskazane są dłuższe frazy, żeby program miał więcej materiału do analizy.

Inna sztuczka: w ubiegłym roku Nuance zaoferował użytkownikom iPhone’ów darmową aplikację Dragon Dictation: twoje słowa zostają przesłane na serwery firmy i po przeanalizowaniu, przekształcone na tekst w ciągu kilku sekund pojawiają się na ekranie telefonu.

Nikt jednak nie wiedział, że firma gromadzi te miliony próbek, tworząc ogromną bazę głosów osób w różnym wieku, mówiących z różnym akcentem, służącą do testowania algorytmów rozpoznawania mowy.

A więc technika się rozwija. Ale na częste pytanie czytelników: „Skoro programy do dyktowania są już tak dobre, to czy mogę ich używać do zapisywania rozmów telefonicznych i wywiadów?”, odpowiedź nadal brzmi „Nie”. Programy działają poprawnie, ale należy mówić wprost do mikrofonu, najlepiej bez akcentu, a w tle musi panować wzlędna cisza. I wciąż trzeba im dyktować znaki przestankowe („kropka”). A Bóg jeden wie, ile to my sami mamy problemów ze wzajemnym zrozumieniem, trudno więc oczekiwać, że poradzi sobie z tym komputer. Nic dziwnego, że dzisiejsze aplikacje wciąż mylą „usmażoną” z „ósmą żoną”, „usta lenia” z „ustaleniami” albo „po wódkę” z „powódką”.

Klawiatury nie znikną więc za naszego życia. Od rozmawiających komputerów ze Star Treka dzielą nas jeszcze dziesięciolecia. Oczywiście, technologia rozpoznawania mowy z 99,9-procentową dokładnością doprawdy zadziwia – ale dopóki nie osiągnie 100%, nie będzie rozwiązaniem z wyboru.

* Artykuł dotyczy programów do rozpoznawania języka angielskiego. Przykłady w języku polskim ilustrują jedynie, na czym polegają błędy (przyp. tłum.).