Сервис расстояние Левенштейна: что это и как работает

Сегодня рассказываем о сервисе, который самостоятельно разработала наша команда на основании расстояния Левенштейна. В статье о его специфике и определенных моментах, с которыми можно столкнуться во время работы.

Что за сервис, его функции

Инструмент разработан нашим агентством и служит помощником в поиске «идентичности» двух строк, а именно незначительного количества вставок, удалений, редактирования одного символа, с помощью которых один URL превращается в другой.

Этот сервис подходит для написания 301 редиректов, которые применяются для создания переадресации со старой неактуальной страницы на новую рабочую.

Что такое расстояние Левенштейна

Расстояние Левенштейна, оно же дистанция редактирования или редакционное расстояние, измеряет отличия между двумя символами, идущими друг за другом.

Вот что говорит о понятии Википедия:

Расстояние Левенштейна(редакционное расстояние, дистанция редактирования) — метрика, измеряющая по модулю разность между двумя последовательностями символов. Она определяется как минимальное количество односимвольных операций (а именно вставки, удаления, замены), необходимых для превращения одной последовательности символов в другую. В общем случае, операциям, используемым в этом преобразовании, можно назначить разные цены. Широко используется в теории информации и компьютерной лингвистике.”

Проще говоря, можно определить, сколько нужно сделать «операций» по удалению или добавлению знаков для трансформирования старой строки в новую. Сегодня это помогает в настройке редиректов и других важных задачах.

Впервые определение этому феномену более 50 лет назад дал математик Владимир Левенштейн. Не сложно догадаться, что отсюда и название инструмента.

Как работает сервис

Механизм действия достаточно прост. Для вычисления расстояния Левенштейна необходимо:

  • добавить список старых адресов сайта или отдельной страницы;
  • добавить список всех текущих страниц сайта;
  • выбирать процент необходимого соответствия (рекомендуем выставить показатель в 60%);
  • проверить наличие сходства.

С чем можно столкнуться при работе инструмента

В сервисе, как и в других программах, можно столкнуться с определенными ограничениями, знания о которых предостерегают специалиста от каких-либо неточностей. Для работы с вычислением дистанции редактирования лучше использовать относительные URL-адреса. Также стоит помнить, что предел адреса составляет 5 000 символов, а каждый URL стоит писать в новой строке.

Образец работы софта

Вот что получится, если в строку вбить старый и новый адреса — виден процент соответствия ссылок. Кстати, данные можно выгрузить в CSV. Подобные программы помогут с поисковой выдачей и неточностями, которые могут встретиться потенциальным клиентам.