Як працює голосовий перекладач

На перший погляд все досить просто - голосовий перекладач слухає вашу мову, і озвучує переклад іншою мовою. Однак, так само як горіння бензину перетворюється в плавний рух автомобіля за допомогою двигуна, коробки передач і коліс, так і цей процес складається з таких компонент. Необхідно відразу зазначити, що з саме з плавним рухом пов'язаний ще один важливий елемент - водій. Рівно те ж саме і в голосовому перекладі - то, як ви вимовляєте текст, натискаєте на кнопки і даєте "двигуну перекладу" "набрати обертів" такий результат ви і отримуєте.

Отже, з чого ж складається будь-який голосовий перекладач? Три основні компоненти, які ще 5-10 років тому були абсолютно незалежними технологіями і розроблялися самостійно, зведені воєдино і є в наші дні основою будь-якого подібного продукту.

розпізнавання мови (SR - speech recognition) на мові говорить,
автоматичний переклад (MT - machine translation або automatic machine translation, text translation) з мови говорить на мову слухача,
озвучування результату перекладу або синтез мови (TTS - text-to-speech synthesis) на мові слухача.

Ядром системи голосового перекладу, центральної компонентою, є автоматична система перекладу, MT, з однієї мови на іншу. Вона працює з текстом, отримує "на вході" текст і видає "на виході" теж текст, але на іншій мові, який є перекладом. Це сама "стара" технологія. Спроби навчити машину переводити почалися, швидше за все, задовго до вашого народження. Ще в 1949 році американський фахівець з дешифрування Уоррен Вівер (Warren Weaver) теоретично обгрунтував принципову можливість створення систем машинного перекладу. З тих пір з'являючись безліч різноманітних систем переказу, заснованих на різних принципах. Щоб не перевантажувати вас деталями відзначимо лише, що в продуктах Traveller використовується статистична система перекладу.

Система розпізнавання мови - SR - необхідна тільки для перетворення сказаного голосом в текст. Незважаючи на те, що розробка таких систем почалася приблизно в той же час, що і МТ, висока варіативність вхідних (голосових) даних, з якими доводилося працювати, і, як наслідок, неймовірно низька якість розпізнавання, проявило цю технологію широкому загалу значно пізніше.

Остання компонента - синтез мови. З технологічної точки зору, мабуть, сама "зрозуміла" для реалізації технологія, має на сьогоднішній день цілком пристойну якість.

Зверніть увагу, дві мови повинна "знати" тільки компонента MT (переклад тексту). Таким чином, голосовий перекладач може бути або "глухим" або "німим". Тобто або текст доведеться вводити руками або переклад не звучатиме. Це відбувається в силу відсутності необхідних мовних даних для роботи SR або TTS на обраною мовою. Однак, найчастіше, при відсутності TTS такі перекладачі як і раніше продовжують називати голосовими. З точки зору двуязикості компоненти MT теж не все просто. Як правило, кажучи про англо-російській голосовому перекладача, наприклад, мають на увазі переклад як з англійської на українську, так і з української на англійську. Але якщо заглянути зовсім трохи глибше, то очевидно, що граматики мов відрізняються і спосіб перекладу з української не годиться для перекладу з англійської і навпаки. Дана проблема вирішується "в лоб", за допомогою великої кількості інформації на двох мовах. На основі такої інформації будується статистична модель, яка використовується в перекладі. Даний підхід прийнятий в продуктах Traveller.

Таким чином, повноцінний двомовний голосовий перекладач для пари мов "туди і назад" повинен містити в собі шість, практично незалежних, компонент: SR для пари мов, TTS для пари мов, MT для пари мов в одному напрямку і для пари мов в зворотному напрямку . Причому, якщо будь-яка з компонент SR і TTS може бути використана в парі з будь-яким іншим мовою (вони розпізнають і синтезують мова для одного єдиного мови, незалежно від пари мов перекладача), то компоненти MT необхідні кожен раз нові.

Схожі статті

Попередня ◈ Наступна