GET A FREE CONSULTATION OR SAMPLE TO GET YOUR PROJECT GOING.

Yes, I want my consultaion

Two Benefits of Checking Terminology with Verifika

Terminology settings in VerifikaIn the article about QA Distiller, I spent a significant amount of time explaining the issues we have with checking terminology. Right now, we are running two QA sessions each time because of the Whole words only option. The first one (without the Whole words only option) is checking against a project glossary with specific terms. It doesn’t generate too many false positives so the Whole words only option is unnecessary. The second one (with the Whole words only option) is checking against a glossary of high-risk general words. This one, however, needs the Whole words only option badly since doing otherwise is a suicide in terms of the false positive rate (e.g. “east” also finds “at least” and “Easter”)).

Closely associated with this issue is the management burden of having to enter all the original word forms into the glossary of high-risk general words. Or else they won’t be checked at all.

Verifika’s solution

This whole article is about a very useful option in Verifika called Whole words shorter than, which, among other things, has the potential to solve these problems to a certain degree. It forces the program to process the words shorter than the specified character limit as whole words. Here is an example from an English to Russian translation:

I have two words in glossary:

HR  управление персоналом

benefit         льгот

If I run a check without the Whole words only option, “HR” will likely generate a few false positives, e.g. “through.” This means I want to check “HR” only as a whole word.

But if I check with the Whole words only option, there’s a huge catch. “Benefit” will not match “benefits.” If I want to check the whole words only and still be able to check all the word forms of “benefit,” I need to add “benefits” as a separate term to the glossary. The glossary becomes more difficult to manage as a result. But this is the price we currently pay for using the Whole words only option.

The first benefit

The first benefit associated with this Whole words shorter than function in Verifika is that it reduces the glossary management burden. It allows me to use the Whole words only option without entering all the different original word forms for the longer terms, which represent a low risk of a false positive result and can therefore be checked not as whole words. It’s only with the shorter terms (up to the character limit specified) that I need to add all the different word forms. Even though Verifika doesn’t eliminate the problem fully since the shorter terms may still account for a significant portion of a glossary, I think this option is a huge break.

The second benefit

The second benefit is a possibility—although a remote one—to arrange checking against the two glossaries in a single session rather instead of two. Let’s imagine that I’m running a check against both glossaries with the Whole words shorter than 5 characters option. Because Verifika is able to treat the words below the 5 character limit as whole words, the false positive rate drops significantly, making checking for the high-risk general words bearable (not as easy as with the Whole words only option, of course, but still bearable). At the same time, I’m able to check against the glossary of specific terms almost with the same results as I normally get without the Whole words only option. I say almost because—and this is where the catch is—if I forget to add some of the original word forms of a term that falls below the character limit, Verifika will ignore those word forms. And those things that it ignores might be errors. This means that to run QA in a single session, we first need to add all those original word forms to the glossaries with the actual terms. But we don’t currently add the word forms to those glossaries. And I believe they don’t belong there.

The ideal solution

The ideal solution would, of course, be loading two glossaries and telling Verifika that one requires the Whole words only option and the other one doesn’t. Even though the Whole words shorter than option does have some value in this respect, it doesn’t seem the right solution for us. It’s a big step towards a more effective checking for us anyway, at least because it gives us more choices for optimizing the QA sessions. Bottom line: time savings and potential for coming up with a better way of checking against the glossaries.

Conclusion

Thank you reading this post and stay tuned for the next article in this series that compares QAD with Verifika.

So how are you checking the translations against a glossary of specific terms? If you also check against a glossary of high-risk general words, how do you marry the two checks?

10 comments

  • Вечеров Артём says:

    Доброго времени суток!

    А случалось ли Вам замечать, что Верифика почему-то не хочет добавлять какую-то словоформу? Зависимости определённой нет – просто на определённой словоформе не работает ни кнопка добавить, ни Alt + A, ни ручное добавление.

  • Вечеров Артём says:

    Уважаемый Роман, здравствуйте. По Вашему совету установил версию Verifika 1.6.1 – стало гораздо лучше, спасибо. Если Вас не затруднит, ответьте ещё на один вопрос, пожалуйста: где Verifika хранит добавленные словоформы? Я не вижу их в экспортированном файле Excel и на панели Terminology в проекте. Каким образом мне сохранить не только глоссарий, но и добавленные словоформы, плюс иметь возможность передать этот глоссарий со словоформами кому-либо ещё? Заранее спасибо!

    • Словоформы хранятся в этом файле: %APPDATA%\Palex\terminology-default.vforms, например в моем случае C:\Users\Роман\AppData\Roaming\Palex\Verifika\terminology-default.vforms. Если на другом компьютере подложить в аналогичную папку, то Verifika будет по умолчанию использовать именно этот подложенный файл. Посмотреть, какой файл используется и отредактировать слововформы можно, нажав кнопку, отмеченную на скриншоте. В принципе можно даже нажать соседнюю кнопку и выбрать произвольное местоположение файла со словоформами, если так вам удобнее, чем подкладывать.

  • Вечеров Артём says:

    Т.е., Роман, я правильно понимаю, что глоссарий со словоформами, по сути, представляет из себя два файла – соответствующий профиль Verifika (я сделал его на основе blank profile) и файл terminology-default.vforms? Могу ли я создавать разные глоссарии с разными словоформами? Сам принцип создания кастомного файла со словоформами мне не очень понятен, а всё пихать в terminology-default.vforms не знаю, правильно ли.

    • Смотрите, любой создаваемый с нуля профиль (то есть файл с настройками проверки) содержит ссылку на файл словоформ по умолчанию (%APPDATA%\Palex\terminology-default.vforms). Вы можете создать сколько угодно профилей, но независимо от выбранного профиля использоваться всегда будет один и тот же файл словоформ по умолчанию.
      Далее: если вам это не нравится и вы хотите использовать разные файлы словоформ, то вы можете это сделать так: создаете соответствующий профиль, заменяете в нем путь к файлу словоформ (скриншот выше) и сохраняете. В дальнейшем при выборе этого профиля будет использоваться именно тот файл словоформ, который вы указали. Аналогичным образом Verifika поступает с глоссарием: прикрепляете глоссарий к профилю и сохраняете, в дальнейшем при выборе этого профиля всегда подгружается данный глоссарий.
      Я бы так не стал делать, потому что а) словоформы — не термины, они универсальны и б) вы замучаетесь добавлять словоформы снова и снова в разные файлы (как раз чтобы этого избежать, и используется по умолчанию один файл).

  • Вечеров Артём says:

    Спасибо за развёрнутый ответ. Поясню, почему меня интересовало, как более правильно создавать отдельные глоссарии со связанными с ними словоформами.

    По большому счёту, глоссарий для Verifika я формирую на основе файла Exact Match Rule плагина TermInjector (http://www.tntranslations.com/TermInjectorHelp.html) для Trados Studio 2014, который, в свою очередь, формируется на основе файла .sdltb заказчика; терминологии, выдранной из документа с помощью Multiterm Extract; и терминологии, которую я сочту нужным добавить по ходу перевода.

    Т.е. глоссарий для Verifika уже содержит все используемые термины в именительном падеже и отдельные участки текста, которые идентичны по всему документу. Как я посмотрел и убедился, сам импортированный из Excel глоссарий хранится в сохранённом профиле с файловым расширением .vprofile, который представляет собой банальный XML документ с нодами и тремя атрибутами Source, Target и ForbiddenTarget. Словоформы там отсутствуют.

    Т.е., как я полагал, для передачи редактору бюро файла sdlxliff, исходного документа и профиля Verifika с использованным глоссарием нужно предварительно создавать и привязывать к данному глоссарию лишь относящиеся конкретно к нему словоформы (логика была такая: если редактор занимается Минюстом, то ему не нужны словоформы по глоссарию атомной отрасли). Рад узнать, что единый файл словоформ вполне пригоден (и даже желателен) для работы со всеми созданными профилями.

    То, что вы пишете относительно разных профилей по разным заказам, с использованием при этом одного файла словоформ, звучит очень логично. Уточню лишь, не влияет ли раздутый множественными тематиками файл словоформ на быстродействие программы в целом?

  • Вечеров Артём says:

    P.S. Для меня, в недавнем прошлом кинешемца, было приятным сюрпризом увидеть в Контактах, что Velior – ивановское бюро переводов.

    • По поводу быстродействия хороший вопрос. У меня файл словоформ сейчас весит около 500 КБ (шесть месяцев относительно интенсивного использования Verifika). Никакой разницы по сравнению с изначальным пустым файлом не замечаю. Будем надеяться, что так и будет. В любом случае считаю, что добавлять одни и те же по несколько раз в разные файлы словоформ — не вариант, так что без единого файла не обойтись.
      В вашем случае я бы спокойно отсылал свой единый файл словоформ редактору, если от вас требуют присылать его. Кстати, любопытно, кто это вас просит сдавать еще и профиль, редко когда с таким приходится сталкиваться.
      И спасибо на добром слове! Земляки 🙂

  • Вечеров Артём says:

    Нет, профиль присылать не требуют. Даже Verifika пользоваться не требуют, поскольку о ней мало кто из фрилансеров знает, и ещё меньше тех, кто пользуется. Это уж так – собственная инициатива. А профиль Verifika или словарь Exact Match Rule из TermInjector (по сути, содержимое у них одно и то же) – простой и быстрый способ для проверяющего редактора быстро сверить терминологию переводчика с терминологией, согласованной в редакторском отделе самого бюро переводов (обновлённые базы .sdltb не всегда присылаются вовремя, плюс в них могут забыть внести какие-либо термины).

Add comment


About the Author

Roman Mironov
Roman Mironov
CEO & Founder

As the founder of Velior, Roman has had the privilege of being able to turn his passion for languages into a business. He has over 15 years of experience in the translation industry. Roman has helped dozens of clients increase sales by making their products appealing for speakers of other languages.