Сервіс відстань Левенштейна: що це і як працює
Сьогодні розповідаємо про сервіс, який самостійно розробила наша команда на підставі відстані Левенштейна. У статті про його специфіку і певних моментах, з якими можна зіткнутися під час роботи.Що за сервіс, його функції
Інструмент розроблений нашим агентством і служить помічником в пошуку «ідентичності» двох рядків, а саме незначної кількості вставок, видалень, редагування одного символу, за допомогою яких один URL перетворюється в інший.
Цей сервіс підходить для написання 301 редиректів, які застосовуються для створення переадресації зі старою неактуальною сторінки на нову робочу.
Що таке відстань Левенштейна
Відстань Левенштейна, воно ж дистанція редагування або редакційне відстань, вимірює відмінності між двома символами, що йдуть один за одним.
Ось що говорить про поняття Вікіпедія:
«Відстань Левенштейна (редакційна відстань, дистанція редагування) — метрика , що вимірює по модулю різниця між двома послідовностями символів. Вона визначається як мінімальна кількість односимвольних операцій (а саме вставки, видалення, заміни), необхідних для перетворення однієї послідовності символів в іншу.
У загальному випадку, операціями, використовуваним в цьому перетворенні, можна призначити різні ціни. Широко використовується в теорії інформації та комп’ютерної лінгвістики.»
Простіше кажучи, можна визначити, скільки потрібно зробити «операцій» з видалення або додавання знаків для трансформування старої рядки в нову. Сьогодні це допомагає в налаштуванні редиректів і інших важливих завданнях.
Вперше визначення цьому феномену понад 50 років тому дав математик Володимир Левенштейн. Не складно здогадатися, що звідси і назва інструменту.
Як працює сервіс
Механізм дії досить простий. Для обчислення відстані Левенштейна необхідно:
- додати список старих адрес сайту або окремої сторінки;
- додати список всіх поточних сторінок сайту;
- вибирати відсоток необхідного відповідності (рекомендуємо виставити показник в 60%);
- перевірити наявність подібності.
З чим можна зіткнутися при роботі інструмента
У сервісі, як і в інших програмах, можна зіткнутися з певними обмеженнями, знання про які застерігають фахівця від будь-яких неточностей. Для роботи з обчисленням дистанції редагування краще використовувати відносні URL-адреси. Також варто пам’ятати, що межа адреси становить 5 000 символів, а кожен URL варто писати в новому рядку.
Зразок роботи софта
Ось що вийде, якщо в рядок вбити старий і новий адреси — видно відсоток відповідності посилань. До речі, дані можна вивантажити в CSV. Подібні програми допоможуть з пошуковою видачею і неточностями, які можуть зустрітися потенційним клієнтам.