Сервіс відстань Левенштейна: що це і як працює

Сьогодні розповідаємо про сервіс, який самостійно розробила наша команда на підставі відстані Левенштейна. У статті про його специфіку і певних моментах, з якими можна зіткнутися під час роботи.

Що за сервіс, його функції

Інструмент розроблений нашим агентством і служить помічником в пошуку «ідентичності» двох рядків, а саме незначної кількості вставок, видалень, редагування одного символу, за допомогою яких один URL перетворюється в інший.

Цей сервіс підходить для написання 301 редиректів , які застосовуються для створення переадресації зі старою неактуальною сторінки на нову робочу.

Що таке відстань Левенштейна

Відстань Левенштейна, воно ж дистанція редагування або редакційне відстань, вимірює відмінності між двома символами, що йдуть один за одним.

Ось що говорить про поняття Вікіпедія :

Відстань Левенштейна (редакційна відстань, дистанція редагування) — метрика , що вимірює по модулю різниця між двома послідовностями символів. Вона визначається як мінімальна кількість односимвольних операцій (а саме вставки, видалення, заміни), необхідних для перетворення однієї послідовності символів в іншу. У загальному випадку, операціями, використовуваним в цьому перетворенні, можна призначити різні ціни. Широко використовується в теорії інформації та комп’ютерної лінгвістики .”

Простіше кажучи, можна визначити, скільки потрібно зробити «операцій» з видалення або додавання знаків для трансформування старої рядки в нову. Сьогодні це допомагає в налаштуванні редиректів і інших важливих завданнях.

Вперше визначення цьому феномену понад 50 років тому дав математик Володимир Левенштейн. Не складно здогадатися, що звідси і назва інструменту.

Як працює сервіс

Механізм дії досить простий. Для обчислення відстані Левенштейна необхідно:

  • додати список старих адрес сайту або окремої сторінки;
  • додати список всіх поточних сторінок сайту;
  • вибирати відсоток необхідного відповідності (рекомендуємо виставити показник в 60%);
  • перевірити наявність подібності.

З чим можна зіткнутися при роботі інструмента

У сервісі, як і в інших програмах, можна зіткнутися з певними обмеженнями, знання про які застерігають фахівця від будь-яких неточностей. Для роботи з обчисленням дистанції редагування краще використовувати відносні URL-адреси. Також варто пам’ятати, що межа адреси становить 5 000 символів, а кожен URL варто писати в новому рядку.

Зразок роботи софта

Ось що вийде, якщо в рядок вбити старий і новий адреси — видно відсоток відповідності посилань. До речі, дані можна вивантажити в CSV. Подібні програми допоможуть з пошуковою видачею і неточностями, які можуть зустрітися потенційним клієнтам.