Я увидел и машу

Автор: Константин Курбатов
Опубликовано в журнале "Компьютерра" №4 от 1 февраля 2005 года.

После недолгой переписки с фирмой «Промт» (www.promt.ru) я получил в распоряжение пакет PROMT 7.0 Professional (На самом деле, базовым является пакет PROMT Standard 7.0, предлагаемый за 99 долларов. В нем отсутствует возможность создания «базы переводов» (это готовые шаблоны уже переведенных фраз и выражений, которые пользователь может накапливать, работая со своими документами), нет синтезатора речи и, кроме того, ниже скорость перевода) и набор словарей. Версия англо-русско-английская, то есть перевод осуществляется в обе стороны.

В #565 от 2 ноября 2004 года мы публиковали статью Сергея Никитина, посвященную предыдущей версии — PROMT 6.0. Автор приводил довольно остроумные примеры, которые я и решил опробовать на новом переводчике, а заодно выяснить, что изменилось в плане настроек программы под нужды живого языка.

Итак, возьмем те же примеры:

Что ж, теперь имя Маша стало известно переводчику. Это отрадно. Тогда возьмем другую форму имени — Маня, сейчас поймете почему:

Хм, проблема не исчезла: ни точки, ни запятой в предложении нет, имя написано с большой буквы, — но переводчик все равно предположил, что тут два предложения, и перевел в два независимых действия. Внесем Маню в словарь. В новой версии теперь можно пояснить, что это имя собственное (и переводчик будет обходиться с артиклями правильно), смотрим:

Отлично.

Следующая загвоздка — выбор местоимения:

С прошлого раза ничего не изменилось. Однако когда я вручную выбрал вариант «she» (из предложенных вариантов перевода), программа пометила у себя, что предпочтительнее — одушевленное. Кстати, это правило (какое из местоимений предпочтительнее) можно установить для каждого абзаца. Анализ сложного предложения, видимо, вызывает сложности (простите за каламбур) — иначе «одушевленность» была бы «вычислена» из первой его части. Посмотрим, дает ли что-нибудь смена приоритета подстановки?

Вот так: пусть и полка, но все равно «по-вежливому» — вдруг живая?.. Возьмем другой случай:

Ведь знает же переводчик, одушевленное существительное или нет! Даже при вводе словарной статьи просит указать. И в данном случае все сделал как надо. Обидно, что не всегда разбор предложения срабатывает правильно. С другой стороны, в предыдущем случае программа, засомневавшись, дала возможность выбора, обратив на это наше внимание, тогда как здесь ей все ясно. Отметим работу со сложными предложениями как минус, но судить слишком строго не будем.

Обратим взоры на повелительное наклонение:

Хм, значение слова «пол» в словаре у программы только одно; поможем ей — внесем второе.

Да, к сожалению, это стало просто еще одним вариантом перевода. И объяснить переводчику, что «мой» — это слово «мыть» в повелительном наклонении, мне так и не удалось.

Но! После вдумчивой коррекции словарной статьи про «пол» (рис. 1) — стало получше.

1

Как видим, в единственном числе глагол «мыть» переводчику узнать трудно, а в множественном — без проблем! И очевидно, что программе просто-напросто не хватало информации про слово «sex».

Возьмем однословные предложения:

К сожалению, с ними дело так и не наладилось; не понимает программа, что предложение скорее состоит из одного глагола, чем из одинокого существительного… Обратный перевод — аналогично:

Теперь примеры «с подъемами»:

Начинаю приходить к выводу, что разбор предложения алгоритмизирован неплохо, но с короткими конструкциями пакет пока не справляется. Программе не хватает формальных сведений, исходящих из структуры переводимого предложения. Априорные сведения, которые следуют из традиций языка, в модуле перевода, видимо, отсутствуют. Но когда я повторно ввел в словарь оборот «lift up», более точно указав, как он употребляется в разных случаях (можно даже пометить, что это разрывное словосочетание, внутрь которого могут попасть другие слова), я был вознагражден («baby» я тоже внес):

И напоследок взглянем на артикли:

С одной стороны — хорошо: убрав ненужный артикль, лишних пробелов, в отличие от предыдущей версии, переводчик не оставил. С другой — не очень: не став переводить незнакомое, взятое в кавычки (!) название, — артикль зачем-то убрал… Я внес неких «The Cramberries» в словарь — как название. После этого — все нормально:

Подводя итог, могу сказать: в чистом виде — «поставил и работай» — этот переводчик использовать можно. Изменения большие, слов знает много, переводит почти правильно, а главное — понятно. Однако если вы переводите текст не для себя и кроме понимания смысла вам требуется еще и качество, то придется поработать: обучить программу словам и словосочетаниям, указать словоупотребление, подобрать словарь. И все равно в конце — вычитать и поправить грамматику. И чем более изощренный и богатый текст на входе — тем больше придется указывать и переделывать. В прилагающейся справочной документации даже есть специальный раздел, в котором даны советы, как правильно готовить текст перед переводом:

  • Избегайте идиоматических выражений!
  • Помните про знаки препинания!
  • Старайтесь избегать пропуска служебных слов (даже если это разрешено грамматикой).
  • Создавайте ясные, простые и законченные предложения.
  • Пишите документы стандартным, формальным языком.
  • Старайтесь использовать простые синтаксические конструкции с прямым порядком слов.

  • Итак, чуда не произошло, программа пока не может заменить человека-переводчика. Тем не менее, многие проблемы уже решены. Если уделять переводу достаточно внимания и не лениться вносить в словарь слова и выражения, то результат может быть вполне приемлемым. Важным шагом, на мой взгляд, является введение такого механизма, как «Шаблон тематики» с упорядоченным списком подключенных словарей, списком зарезервированных слов и упорядоченным списком подключенных препроцессоров (Это позволяет переводить специальные термины, не прибегая к общеупотребительным значениям слов. Например, «kill application» — если выбрать общую тематику — переведется как «убить заявление», а если тематику «информатика» — то как «снять приложение». Препроцессор — это набор функций, предназначенных для предварительной обработки входного текста). Именно отсутствие подобного механизма вызывало удивление и раздражение ранее, — даже если программа знала правильный перевод, он часто оказывался далеко в конце списка вариантов, и переводчику было невозможно объяснить, что такое «тема документа».

    В общем, если вы готовы потратить 300 долларов на PROMT 7.0 Professional, думаю, программа вас не разочарует.


    <<Виртуальный банк данных
    Все материалы номера
    Тыловые байки >>