Представете си, че седите спокойно на дивана и просто поръчвате на компютъра или лаптопа или мобилния си телефон да изпълнява прости задачи като въвеждане на писмо или изпълнение на няколко команди. Възможно ли е?

Разбира се, това е мястото, където разпознаването на глас се появява в картината.

Като се следва дефиницията, това е процесът на разпознаване на човешката реч и я декодира в текстова форма.

Принцип

Основният принцип на гласово разпознаване включва факта, че речта или думите, изречени от всяко човешко същество, предизвикват вибрации във въздуха, известни като звукови вълни. Тези непрекъснати или аналогови вълни се цифровизират и обработват и след това се декодират до подходящи думи и след това подходящи изречения.

гласово разпознаване

Компоненти на система за разпознаване на реч

И така, от какво се състои основната система за разпознаване на реч?

Компоненти на система за разпознаване на реч

Устройство за улавяне на реч : Състои се от микрофон, който преобразува сигналите на звуковата вълна в електрически сигнали и аналогов в цифров преобразувател, който взема проби и цифровизира аналоговите сигнали, за да получи дискретни данни, които компютърът може да разбере.
Модул за цифров сигнал или процесор : Извършва обработка на суров речев сигнал като преобразуване на честотен домейн, възстановяване само на необходимата информация и т.н.
Предварително обработено съхранение на сигнала : Предварително обработената реч се съхранява в паметта за изпълнение на по-нататъшна задача за разпознаване на реч.
Референтни речеви модели : Компютърът или системата се състоят от предварително дефинирани речеви модели или шаблони, които вече се съхраняват в паметта, за да се използват като справка за съвпадение.
Алгоритъм за съвпадение на шаблони : Неизвестният речев сигнал се сравнява с референтния речев модел, за да се определят действителните думи или моделът на думите.

Работа на системата

Сега нека видим как всъщност работи цялата система.

Работа на системата

Речта може да се разглежда като акустична форма на вълната, т.е.сигнал, носещ информация за съобщението. Нормално човешко същество с ограничена скорост на движение на своите артикулатори (речеви органи) може да произвежда реч със средна скорост от 10 звука в секунда. Средната скорост на информация е около 50-60 бита / секунда. Това означава, че всъщност се изисква само 50 бита / секунда информация в речевия сигнал. Тази акустична форма на вълната се преобразува в аналогови електрически сигнали от микрофона. Аналогово-цифровият преобразувател преобразува този аналогов сигнал в цифрови проби, като прави точни измервания на вълната на дискретни интервали.
Дигитализираният сигнал се състои от поток от периодични сигнали, взети на проби с честота 16000 пъти в секунда и не е подходящ за извършване на действителни гласово разпознаване процес, тъй като моделът не може да бъде лесно разположен. За да се извлече действителната информация, сигналът във времевата област се преобразува в сигнал в честотната област. Това се прави от цифровия процесор на сигнала, използвайки FFT техника. В цифровия сигнал компонентът след всеки 1/100^тина секунда се анализира и се изчислява честотният спектър за всеки такъв компонент. С други думи, дигитализираният сигнал е сегментиран на малки части с честотни амплитуди.
Всеки сегмент или честотната графика представят различните звуци, издадени от хората. Компютърът извършва съвпадение на неизвестните сегменти със запазената фонетика на конкретния език. Това съвпадение на шаблона се извършва по 3 начина:

Използване на акустичен фонетичен подход : В акустичния фонетичен подход обикновено се използва скритият марковски модел. Този модел разработва недетерминиран вероятностен модел за разпознаване на речта. Този модел се състои от две променливи - скритите състояния на фонемите, съхранявани в паметта на компютъра и видимия честотен сегмент на цифровия сигнал. Всяка фонема има своя собствена вероятност и сегментът се съпоставя с фонемата според вероятността и съответстващите фонеми се събират заедно, за да образуват правилните думи според съхранените граматични правила на езика.

Използване на подход за разпознаване на образци : При подхода за разпознаване на образци системата се обучава с определен речев модел за всеки език и непознатият речев модел се сравнява с референтния речев модел чрез определяне на разстоянието между сигналите, използвайки техниката за изкривяване на времето.

Използване на изкуствен интелект : Подходът за изкуствен интелект се основава на използването на основни източници на знания, като познаване на звуци, изговаряни въз основа на спектрални измервания, познаване на правилни смислени и синтактични думи.

Фактори, от които зависи системата за разпознаване на реч

Системата за разпознаване на реч зависи от следните фактори:

Изолирани думи : Трябва да има пауза между последователните изговорени думи, тъй като непрекъснатите думи могат да се припокриват, затруднявайки системата да разбере кога дадена дума започва или завършва. По този начин трябва да има тишина между последователните думи.
Единичен високоговорител : Много говорители, които се опитват да въвеждат реч едновременно, могат да причинят припокриване на сигналите и прекъсвания. Повечето използвани системи за разпознаване на реч са зависими от високоговорителите системи.
Размер на речника : Езиците с голям речник са трудни за разглеждане за съвпадение на моделите, отколкото тези с малък речник, тъй като шансът да има двусмислени думи е по-малък в последния.

Система за разпознаване на реч в Windows 7

Бих искал да препоръчам следните стъпки за всяко лице, което използва Windows 7 за системата за разпознаване на реч

Отворете контролния панел от менюто 'Старт' или като щракнете върху иконата.
Изберете Лесен достъп и след това щракнете върху Разпознаване на реч.
След това щракнете върху настройка на микрофон и изберете настолен микрофон от наличните опции.
След това вземете урока по речта и следвайте дадените инструкции.
След това обучете компютъра си за по-добри възможности, така че компютърът да съхранява определен модел на вашия речев сигнал. Това става, като щракнете върху опцията ‘обучи компютъра си да те разбира по-добре’ и след това следва инструкциите.
Сега стартирайте иконата за разпознаване на реч и започнете да диктувате речта си пред компютъра. Можете също да добавите свои собствени думи към компютърния речник.

Практически системи за разпознаване на реч: Използване на HM2007

Практична система за разпознаване на реч може да бъде изградена с помощта на IC за разпознаване на реч HM2007 . HM2007 е 48-пинов IC, който осигурява функция за разпознаване на реч. Работи в два режима: ръчен режим или режим на процесора. И в двата режима IC първо се обучава да разпознава думи от потребителя, който казва всяка дума за съответния номер, натиснат на клавиша. IC съхранява всеки сигнал от дума в мястото на паметта, съответстващо на думата. Изходните данни от IC се свързват с микроконтролера, откъдето се показват на LCD.

Практически системи за разпознаване на реч

Обикновено използваме ръчен режим за работа с HM2007.

HM2007 се състои от RDY щифт, който е активен нисък щифт, показващ, че интегралната схема е готова за обучение.
Гласовият вход ще се дава чрез микрофон, свързан към MICIN щифта на IC.
IC е свързана с клавиатура, която се използва за осигуряване на въвеждане на цифри, съответстващи на всяка дума. IC работи в две функции - Clear и Train. Когато клавишът Train е натиснат на клавиатурата, IC започва своя тренировъчен процес.
Потребителят натиска цифров клавиш, преди да натисне функционалния клавиш ‘Train’ и казва необходимата дума на микрофона.
IC изпраща висок сигнал до ME (Memory Enable) щифт, който е свързан към съответния ME щифт на SRAM. 8-битовият сигнал за данни, съответстващ на натиснатия номер, се съхранява в SRAM (външна RAM) през външната шина.
След като гласовият вход бъде открит, RDY щифтът е на логическо ниво и IC идва в състояние на разпознаване, където започва процеса на разпознаване.
Резултатът от процеса се дава чрез шината за данни с висок щифт DEN (Data Enable).
След това 8-битовите данни могат да бъдат предоставени на микроконтролера чрез сериен интерфейсен процесор или първо фиксирани с помощта на ключалка IC 74HC573.
Микроконтролерът е свързан с LCD и е програмиран така, че съответната дума да се показва на дисплея.

Единствената предпазна мярка, която трябва да се вземе, е да не се използват омоними (думи с подобен звук), а също и да се грижи за възбудата в гласа.

И така, това е всичко как a основна система за разпознаване на реч върши работа. Всички допълнителни данни са добре дошли да бъдат добавени.