Доступная память: Почем translation memory для народа?

Автор: Сергей Рыбкин
Опубликовано в журнале "Компьютерра" №42 от 15 ноября 2006 года

Обращаясь к текстам на иностранных языках, владельцы компьютеров используют те или иные вспомогательные средства. Для быстрого ознакомления с текстом может хватить и программы машинного перевода. Для более глубокого изучения пригодятся электронные словари. При регулярных же переводах возникает желание автоматизировать процесс не в ущерб качеству.

Для этой цели подойдут системы, основанные на технологии переводческой памяти (translation memory). Широкий ассортимент подобных программ позволяет сделать выбор в соответствии со своими задачами, вкусом и кошельком.

Технология переводческой памяти основана на формальном поиске точных и приблизительных совпадений ранее переведенных отрывков текста с переводимым оригиналом. Лингвистический анализ при этом выполняет человек, а не компьютер, как в случае систем машинного перевода.

На рынке программ автоматизированного перевода доминируют мощные пакеты, такие как DejaVu, Transit и, с прошлого года, SDL Trados. Под этими марками распространяются серьезные продукты, в основном для корпоративного пользования. Даже однопользовательские версии представляют собой универсальные инструменты, способные извлекать текст из документов самого разного формата - от созданных в настольно-издательских системах (PageMaker, QuarkExpress и др.) и до описанных языком гипертекстовой разметки (html, xml и др.).

Но то, что экономически оправданно для переводческих компаний, не всегда подходит отдельным переводчикам и тем специалистам, кому приходится выполнять переводы лишь время от времени.

Сегодня мы поговорим о недорогих или вообще бесплатных программах, основанных на технологии translation memory. Базой для сравнения и освещения некоторых нюансов технологии мне послужили три коротеньких отрывка.

Быстрослов

  • Версия: 5.50i
  • Сайт: www.wordfast.net
  • Размер: 658 Кбайт
  • Интеграция: MS Word
  • Цена: 90 евро (для России)

    Wordfast - единственная платная программа в обзоре. Первые версии, выпущенные несколько лет назад, раздавались даром, а в настоящее время, отладив код, автор выстраивает мягкую ценовую политику. Покупателям из небогатых стран, к коим пока относится и Россия, лицензия обойдется вдвое дешевле, чем жителям государств с высоким уровнем доходов населения.

    Упомянутые выше Trados, DejaVu и подобные многоформатные пакеты даже в однопользовательских версиях стоят на порядок больше.

    Wordfast ограничивается поддержкой файлов пакета MS Office, а при установке бесплатной утилиты PlusTools к ним добавляются html-файлы. Программа умещается в один компактный шаблон, который следует поместить в папку автозагрузки MS Word. При следующем открытии doc-файла Wordfast пропишется в панель инструментов и будет работать из всех версий Word, начиная с 97-й.

    Благодаря руководству на русском языке, освоить программу не составит труда. К тому же, несмотря на свою недолгую историю, она обзавелась многочисленными поклонниками. Русскоязычное сообщество любителей Wordfast обосновалось по адресу groups.yahoo.com/group/Wordfast-RU.

    Wordfast: Совпадений не найдено, придется думать

    Процесс перевода типичен для технологии translation memory. Wordfast сегментирует текст по предложениям и отграничивает сегменты маркерами, помещая текущий исходный сегмент в рамку, а сегмент перевода отображая рядом, на зеленом или желтом фоне, в зависимости от того, найден точный или приблизительный перевод. Если перевод вообще не найден, рамка остается серой и пустой. По завершении перевода через меню Wordfast проводится стандартная операция очистки переведенного документа от маркеров и исходного текста.

    Wordfast - удобная программа с неплохим набором функций, среди которых сетевой режим (до двадцати пользователей), подключение машинных переводчиков (например, "ПроМТ"), контроль качества, поддержка глоссариев, подсчет слов и подключение словарей. Правда, как пользоваться последней функцией, я так и не понял. Активировавшись, Wordfast отключил встроенные в Word функции словарей Lingvo и Multitran. Попытки же задать в настройках последовательность нажатий клавиш для обращения к словарю ни к чему не привели.

    Еще одно замечание касается, наверное, всех программ переводческой памяти: начинать их освоение лучше с документов Word, не насыщенных сложным форматированием и дополнительными элементами (колонтитулами, полями, рисунками и пр.), и уже в процессе работы изучать, как программа справляется со всем тем, что можно впихнуть в Word и другие поддерживаемые форматы.

    Заодно можно потренироваться в подготовке оригинального текста к переводу. Простой пример: программы translation memory не уважают ручное форматирование с помощью пробелов. Лишние пробелы ведут к неправильному сегментированию оригинала и, соответственно, к лишним затратам времени на перевод и проверку.

    Отдельного разговора заслуживает ключевой элемент технологии - файл памяти переводов. Википедия дает следующее определение: "Память переводов (англ. translation memory) - база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует "единице перевода" (англ. translation unit), за которую обычно принимается одно предложение (реже - часть сложносочиненного предложения)". Большинство программ имеют свой собственный формат памяти переводов. В Wordfast используются обычные текстовые файлы (с расширением txt), удобные для просмотра и редактирования. Для нелатинских шрифтов создаваемый файл памяти переводов следует сохранять в кодировке Unicode. То же самое могу посоветовать и для латинских шрифтов с диакритическими знаками (например, для французского, чешского и других подобных языков). Для совместимости и обмена файлами памяти переводов с другими программами, основанными на этой технологии, Wordfast способен импортировать и экспортировать стандартный формат TMX, речь о котором пойдет далее.

    Такая Тема

  • Однопользовательская версия
  • Сайт: tema-tm.ru
  • Размер: 654 Кбайт
  • Интеграция: MS Word
  • Цена: бесплатно

    Разработка российской компании "Тема Девелопмент" - наш ответ Западу. Бесплатную однопользовательскую версию "Темы" можно скачать с сайта программы, но для запуска инсталлятора следует оформить заказ на 0 рублей в интернет-магазине и получить по электронной почте серийный номер. "Тема" работает по тому же принципу, что и Wordfast, то есть встраивается в Word, но не во всякий, а только версий 2000 и 2002. В 2003-й "Тема" устанавливаться отказалась, и даже после консультации с разработчиками и совершения некоторых шаманских действий заставить ее работать не удалось. Довольствовался проверкой в Word 2000. Руководства пользователя нет, зато можно открыть краткий файл помощи, которого вполне хватает для быстрого освоения программы, благо (или кому как) обилием функций "Тема" не страдает. Рабочий экран напоминает вордфастовский, только появляется дополнительное поле между оригинальным и переводным предложениями, где предлагается вариант перевода из базы translation memory. Эту функцию можно смело записать в плюс программе.

    «Тема»: Попали! Точное совпадение предложений

    Файл памяти перевода "Темы" имеет расширение dat, и его вроде бы можно импортировать и экспортировать, используя текстовый формат, и, таким образом, обмениваться базами с другими системами автоматизации переводов. С Wordfast этот номер не прошел, да и с другими программами предвижу затруднения, так как, например, при преобразовании французско-русской базы выпали буквы с диакритическими знаками. Но, возможно, это издержки начального этапа освоения.

    Восточные языки не поддерживаются, так что перевести, скажем, с японского на английский не удастся. Среди преимуществ над Wordfast отмечу то, что "Тема" не отключает встроенные в Word словари.

    АЛЬФА И ОМЕГА

  • Версия: 1.4.5.04
  • Сайт: www.omegat.org
  • Размер: 699 Кбайт
  • Цена: бесплатно
  • Лицензия: GPL

    Исходный код OmegaT распространяется под лицензией GPL, и потому бесплатность программы гарантируется как для текущей, так и для будущих версий. Для работы OmegaT требуется среда Java (Java 2 Runtime Environment), которую можно скачать с java.sun.com. Программу можно использовать на разных платформах, включая Windows, Linux, Solaris и Mac OS X. В отличие от рассмотренных выше систем, встраивающихся в MS Word, OmegaT - самостоятельное приложение со своим интерфейсом. Имеется руководство на русском и многих других языках, что характерно для интернациональных команд разработчиков открытого софта. Есть и форум пользователей на groups.yahoo.com/group/omegat. OmegaT поддерживает форматы txt, html и sxw (формат OpenOffice 1.x), так что не помешает установить и OpenOffice.org. Пакет умеет конвертировать файлы, созданные в MS Office. Мне же понравилась возможность сохранить текст непосредственно в формат Word.

    OmegaT: Переводим идиоматические выражения

    Последовательность действий при работе традиционна для этого класса программ и включает, в самом общем виде, подготовку исходного файла для перевода, создание нового проекта, выбор языковой пары, перевод с параллельным просмотром совпадений из базы памяти переводов и глоссария и компилирование завершенной работы в исходный формат. Соответственно, пользовательский интерфейс состоит в основном из главного окна, где отображается переводимый текст, и окна просмотра совпадений и глоссария.

    Самостоятельная утилита требует больше времени на изучение, чем встраиваемые в текстовый редактор программы. Совет тот же - начинать с коротких текстов, пока не освоитесь. Особое внимание следует уделить разметке текста в главном окне, чтобы не нарушить форматирование конечного файла. В крайнем случае, как и во всех подобных программах (в том числе в Wordfast и "Теме"), вам поможет функция проверки, которая выявляет измененные теги.

    Отличается же OmegaT от своих собратьев тем, что сегментирует переводимый текст по абзацам. Для сегментирования предложений придется воспользоваться макросами для OpenOffice.org, которые преобразуют предложения в отдельные абзацы, что, скажем осторожно, не совсем удобно. Зато файлы памяти переводов, используемые OmegaT, соответствуют формату TMX (Translation Memory eXchange) - это стандартный формат обмена базами памяти переводов. Большинство программ переводческой памяти заявляют о поддержке экспортирования и импортирования формата TMX. На деле, однако, не все так гладко. Например, файлы памяти переводов, созданные в формате TMX программой OmegaT, не удалось импортировать в текстовые форматы Wordfast, хотя обратная операция прошла успешно. Файлы памяти переводов, экспортированные Wordfast в формат TMX, без проблем открылись в OmegaT. Причем наиболее полезным оказался файл японско-английского перевода из-за рекомендованного в Wordfast для иероглифических систем абзацного сегментирования.

    Подведем итоги. Главный вывод - бюджетные и бесплатные программы переводческой памяти доступны и вполне работоспособны. Основное отличие этих программ от пакетов типа Trados сформулировано в руководстве к OmegaT: при разработке во главу угла ставилась быстрота перевода, а не поддержка сложного форматирования текстов или множества форматов файлов. Кому можно рекомендовать рассмотренные программы? Разумеется, переводчикам, чьи работодатели не настаивают на применении определенного пакета, а также специалистам, регулярно выполняющим переводы для публикации, да и переводчикам художественной литературы. Программы переводческой памяти заточены в первую очередь под специальные тексты с повторами, но даже сегментирование текста экономит время и силы, обостряя внимание и предохраняя переводчика от пропусков текста. И последнее. По мере развития программ translation memory, поставляющихся с открытым исходным кодом, у пользователей появляется возможность не только сэкономить на проприетарных продуктах, в том числе офисных пакетах, но и поучаствовать в разработке инструментов в помощь всем любителям переводов.


  • <<Софтерринки
    Все материалы номера
    В поисках радости >>