11. Проблема машинного перевода (ATN)

ATN (Augmented Transition Network) — расширенные сети переходов.

Участвует три человека:

  • Пре-редактор (обрабатывает текст, подлежащий переводу)
  • Интер-редактор (участвует в процессе перевода; в тех ситуациях, когда требуется диалог, взаимодействует с пользователем)
  • Пост-редактор (исправляет результат)

Система автоматического перевода включает в себя двуязычные словари с необходимой грамматической, морфологической, семантической и синтаксической информацией для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также средства грамматического анализа, которые могут реализовать какую-нибудь формальную грамматику.

Наиболее распространённая последовательность формальных операций в системах машинного перевода:

  1. Ввод текста, поиск словоформ в исходном словаре языка с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определённой лексеме (слову как единице словаря). На этом этапе из формы слова могут быть получены другие формы.
  2. Перевод идиоматических выражений и словосочетаний, фразеологических единств или штампов предметной области, определение основных грамматических характеристик элементов входного текста, лингвистический анализ и перевод лексем. На этом этапе однозначные слова отделяются от многозначных, после чего для перевода многозначных используются контекстологические словари.
  3. Окончательный грамматический анализ, в ходе которого определяется грамматическая информация с учётом данных выходного языка. Например, в русского языке существительное «вилы» требует глагола в множественном числе, но в языке оригинала может быть в единственном.
  4. Синтез выходных словоформ на выходном языке.

Часто используют промежуточную форму (внутренний язык), а из него уже идет перевод в нужный язык.

Недостатки ATN:

  1. Немодульность
  2. Сложность при модификации (непредвиденные побочные эффекты)
  3. Ненадёжность
  4. Неэффективность при переборе с возвратом (backtracking)

Отношения:

  • Синонимия - слова, схожие по лексическому значению
  • Антонимия - слова, противоположные по лексическому значению
  • Гипонимия - родовое отношение (“каштан” - гипоним слова “дерево”)
  • Гиперонимия - то, что в родовой иерархии стоит выше гипонима (пример: “собака” - гипероним слова “бульдог”)
  • Эквонимия - слова, которые стоят на одном уровне родовой иерархии (пример: “лайка” - эквоним слова “бульдог” при их общем гиперониме “собака”)
  • Омонимия - слова, одинаковые по написанию, но разные по значению (примеры: “лук”, “коса” и т.д.)
  • Паронимия - слова, сходные по звучанию и морфемному составу, но различающиеся лексическим значением (пример: “абонент - абонемент”)
  • Конверсивы - (пример: “Рабочие строят дом. — Дом строится рабочими” - подлежащее и дополнение меняются местами)
Topics:

11. Проблема машинного перевода (ATN)

ATN (Augmented Transition Network) — расширенные сети переходов.

Участвует три человека:

  • Пре-редактор (обрабатывает текст, подлежащий переводу)
  • Интер-редактор (участвует в процессе перевода; в тех ситуациях, когда требуется диалог, взаимодействует с пользователем)
  • Пост-редактор (исправляет результат)

Система автоматического перевода включает в себя двуязычные словари с необходимой грамматической, морфологической, семантической и синтаксической информацией для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также средства грамматического анализа, которые могут реализовать какую-нибудь формальную грамматику.

Наиболее распространённая последовательность формальных операций в системах машинного перевода:

  1. Ввод текста, поиск словоформ в исходном словаре языка с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определённой лексеме (слову как единице словаря). На этом этапе из формы слова могут быть получены другие формы.
  2. Перевод идиоматических выражений и словосочетаний, фразеологических единств или штампов предметной области, определение основных грамматических характеристик элементов входного текста, лингвистический анализ и перевод лексем. На этом этапе однозначные слова отделяются от многозначных, после чего для перевода многозначных используются контекстологические словари.
  3. Окончательный грамматический анализ, в ходе которого определяется грамматическая информация с учётом данных выходного языка. Например, в русского языке существительное «вилы» требует глагола в множественном числе, но в языке оригинала может быть в единственном.
  4. Синтез выходных словоформ на выходном языке.

Часто используют промежуточную форму (внутренний язык), а из него уже идет перевод в нужный язык.

Недостатки ATN:

  1. Немодульность
  2. Сложность при модификации (непредвиденные побочные эффекты)
  3. Ненадёжность
  4. Неэффективность при переборе с возвратом (backtracking)

Отношения:

  • Синонимия - слова, схожие по лексическому значению
  • Антонимия - слова, противоположные по лексическому значению
  • Гипонимия - родовое отношение (“каштан” - гипоним слова “дерево”)
  • Гиперонимия - то, что в родовой иерархии стоит выше гипонима (пример: “собака” - гипероним слова “бульдог”)
  • Эквонимия - слова, которые стоят на одном уровне родовой иерархии (пример: “лайка” - эквоним слова “бульдог” при их общем гиперониме “собака”)
  • Омонимия - слова, одинаковые по написанию, но разные по значению (примеры: “лук”, “коса” и т.д.)
  • Паронимия - слова, сходные по звучанию и морфемному составу, но различающиеся лексическим значением (пример: “абонент - абонемент”)
  • Конверсивы - (пример: “Рабочие строят дом. — Дом строится рабочими” - подлежащее и дополнение меняются местами)