Лекція 4 системи автоматизованого перекладу та машинний переклад

СИСТЕМИ АВТОМАТИЗОВАНОГО ПЕРЕКЛАДУ І МАШИННИЙ ПЕРЕКЛАД

За останні 10-15 років характер роботи перекладача і вимоги до нього істотно змінилися. В першу чергу зміни торкнулися перекладу науково-технічної, офіційної та ділової документації. Сьогодні вже недостатньо просто перекласти текст, користуючись комп'ютером як друкарською машинкою. Замовник очікує про перекладача, що оформлення готового документа буде відповідати зовнішньому вигляду оригіналу настільки точно, наскільки це можливо, при цьому задовольняти прийнятим в даній країні стандартам. Від перекладача вимагається також уміння ефективно використовувати раніше виконані замовлення на ту ж тему, а роботодавець, в свою чергу, розраховує на помітну економію часу і коштів при перекладі повторюваних або схожих фрагментах тексту. Ці жорсткі, часто суперечливі умови можна дотримати лише в тому випадку, якщо перекладач не тільки досконало володіє рідною та іноземною мовою і глибоко вивчив обрану ним предметну область, а й впевнено орієнтується в сучасних комп'ютерних технологіях.

Ключовий для перекладача технічної документації в даних умовах є технологія TRANSLATION MEMORY (TM). Системам машинного перекладу приділено мало місця, так як можливості їх обмежені і це не дозволяє рекомендувати їх для застосування в процесі професійної роботи над текстом.

Останнім часом постійно зростає обсяг переказів, пов'язаних з інформаційними технологіями, причому перекладацьким і комп'ютерним компаніям доводиться мати справу не тільки з підготовкою документації, а й з локалізацією програмного забезпечення, тобто з перекладом ресурсів, що містяться в exe- і dll- файлах. І з подальшим тестуванням ПЗ.

Що ж таке машинний переклад і системи автоматизованого перекладу, чим вони відрізняються і як можуть допомогти перекладачеві в його роботі.

машинний переклад

Машинний переклад - процес перекладу текстів (письмових, а в ідеалі і усних) з однієї природної мови на іншу повністю спеціальної комп'ютерної. Так само називається напрямок наукових досліджень, пов'язаних з побудовою подібних систем.

Форми організації взаємодії ЕОМ і людини при машинному перекладі

З предредактірованіем: людина пристосовує текст до обробки машиною (усуває можливі неоднозначні прочитання, спрощує і розмічає текст), після чого починається програмна обробка.

З інтерредактірованіем: людина втручається в роботу системи перекладу, дозволяючи важкі випадки.

Змішані системи (наприклад, одночасно з перед- і постредагуванні).

автоматизований переклад

Замість «машинний» іноді вживають слово автоматичний. що не впливає на зміст. Однак термін автоматизований переклад має зовсім інше значення - при ньому програма просто допомагає людині перекладати тексти.

Автоматизований переклад передбачає такі форми взаємодії:

Частково автоматизований переклад: наприклад, використання перекладачем-людиною комп'ютерних.

Системи з поділом праці: комп'ютер навчений переводити тільки фрази жорстко заданої структури (але робить це так, щоб виправляти за ним не було потрібно), а все не вкладеться в схему віддає людині.

В англомовній термінології також розрізняються терміни machinetranslation, MT (повністю автоматичний переклад) і machine-aided або machine-assistedtranslation (MAT) (автоматизований); якщо ж треба позначити і те, і інше, пишуть M (A) T.

Історія машинного перекладу

Думка використовувати ЕОМ для перекладу була висловлена ​​в році в. відразу після появи перших ЕОМ. Перша публічна машинного перекладу (так званий Джорджтаунський експеримент) відбулася в році. Незважаючи на примітивність тієї системи (словник в 150 слів, з 6 правил, переклад кількох простих фраз), цей експеримент отримав широкий резонанс: почалися дослідження в. та інших країнах; в тому ж 1954 року й в.

До середини в США для практичного використання було надано дві системи російсько-англійського перекладу:

MARK (у Департаменті іноземної техніки ВПС США);

GAT (розробка Джорджтаунського університету, використовувалася в Національній лабораторії атомної енергії в Окридже і в центрі Євратому в м Іспра, Італія).

Однак створена для оцінки подібних систем комісія прийшла до висновку, що в силу низької якості машинно перекладених текстів ця діяльність в умовах США нерентабельна. Хоча комісія рекомендувала продовжувати і поглиблювати теоретичні розробки, в цілому її висновки привели до зростання. зниження фінансування, часто до повного припинення робіт з цієї тематики.

Проте, в ряді країн дослідження тривали, чому сприяв постійний прогрес обчислювальної техніки. Особливо істотним чинником стала поява міні-і персональних комп'ютерів, а з ними все більш складних словникових, і т. П. Систем, орієнтованих на роботу з природномовної даними. Росла і необхідність в перекладі як такому зважаючи на зростання міжнародних зв'язків. Все це призвело до нового підйому цієї галузі, яка відбулась приблизно з середини. В настав час широкого практичного використання перекладацьких систем, склався ринок комерційних розробок по цій темі.

Втім, мрії, з якими людство взявся півстоліття тому за завдання машинного перекладу, в значній мірі залишаються мріями: високоякісний переклад текстів широкої тематики, як і раніше недосяжний. Однак безсумнівним є прискорення роботи перекладача при використанні систем машинного перекладу: за оцінками кінця 1980-х, до п'яти разів.

В даний час існує безліч комерційних проектів машинного перекладу. Одним з піонерів в області машинного перекладу була компанія. ВУкаіни великий внесок в розвиток машинного перекладу внесла група під керівництвом проф. Р. Г. Піотровського (український державний педагогічний університет ім. Герцена,).

якість перекладу

Застосування машинного перекладу без настройки на тематику (або з навмисно невірної налаштуванням) служить предметом численних бродять по Інтернету жартів. З розлогих прикладів найбільш відомий текст «гуртівника Миші» (переклад комп'ютерної документації програмою Poliglossum на основі медичного, комерційного та юридичної словників); з коротких - фраза «My cat has given birth to four kittens, two yellow, one white and one black», яку програма ПРОМТ перетворює в «Мій кіт народив чотирьох кошенят, два жовтих кольору, одну білу і одного афроамериканця».

Найчастіше подібні жарти пов'язані з тим, що ваша програма розпізнає контекст фрази і переводить терміни дослівно, до того ж не відрізняючи власних імен від звичайних слів. Та ж програма ПРОМТ перетворює «bra-ket notation» в «примітка Кеті ліфчика», «Lie algebra» - в «алгебру Брехні», «eccentricity vector» - в «вектор оригінальності» і т. П.

Автоматизовані системи перекладу


Професійна робота неможлива без надійних інструментів. Переклад і локалізація як область професійної активності в цьому сенсі не є винятком. Будь-перекладач стикається з проблемою узгодженого застосування термінологічного глосарію в ході тривалого проекту або швидкого повторного використання раніше перекладеного тексту. За своєю природою подібні рутинні завдання порівняно легко (на відміну від машинного перекладу) формалізуються і програмуються, тому оснащення робочого місця локалізатора автоматизованими засобами є нормою в галузі, а деякі з таких засобів по суті представляють собою галузеві стандарти.

Більшість таких коштів побудовані на основі концепції пам'яті перекладу (translation memory) - простий бази даних, кожен запис якої є одиницю (пропозиція або абзац) паралельних текстів (як правило, на двох мовах). Така база даних зберігає попередні переклади з метою їх можливого повторного використання і вирішення завдань швидкого пошуку по вмісту. Незважаючи на те, що програми, оснащені пам'яттю перекладу, називаються системами автоматизованого перекладу (CAT, computer-aided / assisted translation), їх не слід плутати з програмами машинного перекладу (machine translation) - пам'ять перекладу нічого не переводить сама по собі, в той час як машинний переклад заснований на генерації перекладів за результатами граматичного розбору вихідного тексту.

Як правило, запис пам'яті перекладу складається з двох сегментів: на початковому (source) і кінцевому (target) мовами. Якщо ідентичний (або схожий) сегмент мовою оригіналу зустрічається в тексті, сегмент на кінцевому мовою буде знайдений в пам'яті перекладу і запропонований перекладачеві в якості основи для нового перекладу. Автоматично знайдений текст може бути задіяний як є, відредагований або повністю відкинутий. Більшість програм використовують алгоритм нечіткого відповідності (fuzzy matching), істотно поліпшує їх функціональні можливості, оскільки в цьому випадку можна знаходити пропозиції, лише віддалено нагадують шукані фрази, але тим не менш придатні для подальшого редагування.

Переваги від використання такого програмного забезпечення спочатку можуть бути неочевидні - проте у міру наповнення бази даних результати автоматичної підстановки основ для перекладу будуть стає все більш точними і регулярними.

автоматизований переклад

Автоматизований переклад (АП, Computer-AidedTranslation) - текстів на з використанням комп'ютерних технологій. Від машинного перекладу (МП) він відрізняється тим, що весь процес перекладу здійснюється людиною, комп'ютер лише допомагає йому створити готовий текст або за менший час, або з кращою якістю.

Ідея АП з'явилася з моменту появи комп'ютерів: перекладачі завжди виступали проти стандартної в ті роки концепції МП, на яку було направлено більшість досліджень в області комп'ютерної лінгвістики, але підтримували використання комп'ютерів для допомоги перекладачам. У роки Європейське об'єднання вугілля і сталі (попередник сучасного) стало створювати термінологічні бази даних під загальною назвою. У Радянському Союзі для створення баз такого роду був створений.

В даний час найбільш поширеними способами використання комп'ютерів при письмовому перекладі є робота зі словниками та глосаріями, пам'яттю перекладів (TranslationMemory, TM), що містить приклади раніше перекладених текстів, а також використання так званих. великих колекцій текстів на одному або декількох мовах, що дає стислий опис того, як слова і вирази реально використовуються в мові в цілому або в конкретній предметній області.

При синхронному перекладі використання засобів автоматизованого перекладу за необхідності обмежена. Одним із прикладів є використання словників, що завантажуються на. Іншим прикладів може служити напівавтоматичне витягання списків термінів при підготовці до синхронного перекладу у вузькій предметній області.

У вузьких предметних областях при великій кількості вихідних текстів і сталої термінології перекладачі можуть використовувати і машинний переклад, який може забезпечити гарну якість перекладу термінології і стійких виразів у вузькій області. Перекладач в цьому випадку здійснює отриманого тексту. Більше половини текстів всередині (головним чином юридичні тести і поточна кореспонденція) перекладається з використанням МП.

пам'ять перекладів

Пам'ять перекладів (ПП, translationmemory. TM іноді звана «Накопичувач перекладів») - база даних, що містить набір раніше переведених. Одна запис в такій базі даних відповідає «одиниці перекладу» (translationunit), за яку зазвичай приймається одне (рідше - частина складносурядного пропозиції, або). Якщо чергову пропозицію вихідного тексту в точності збігається з пропозицією, що зберігаються в базі (точну відповідність, exactmatch), воно може бути автоматично підставлений в переклад. Нова пропозиція може також злегка відрізнятися від зберігається в базі (неточне відповідність, fuzzymatch). Таку пропозицію може бути також підставлено в переклад, але перекладач буде повинен внести необхідні зміни.

Крім прискорення процесу перекладу фрагментів і змін, внесених у вже перекладені тексти (наприклад, нових версій програмних продуктів або змін в законодавстві), системи ПП також забезпечують однаковість перекладу термінології в однакових фрагментах, що особливо важливо при технічному перекладі. З іншого боку, якщо перекладач регулярно підставляє в свій переклад точні відповідності, витягнуті з баз перекладів, без контролю їх використання в новому контексті, якість перекладеного тексту може погіршитися.

У кожній конкретній системі ПП дані зберігаються в своєму власному форматі (текстовий формат в Wordfast, база даних Access в Deja Vu), але існує міжнародний стандарт (TranslationMemoryeXchangeformat), який заснований на XML і який можуть породжувати практично всі системи ПП. Завдяки цьому результати роботи перекладачів можна обмінювати між додатками, тобто перекладач працює з OmegaT може використовувати ПП, створену в Традос і навпаки.

Більшість систем ПП як мінімум підтримують створення і використання словників користувача, створення нових баз даних на основі паралельних текстів (alignment), а також напівавтоматичне витягання термінології з оригінальних і паралельних текстів.

Популярні програмні системи ПП

Відповідно до недавніх оглядами використання систем ПП до найбільш популярних систем відносяться:

(Безкоштовна система, яка поширюється на умовах ліцензії)

Схожі статті