• 27 Березня 2024

Як відрізнити текст, написаний штучним інтелектом

Популярність інструментів штучного інтелекту зростає кожного дня. Від застосування ChatGPT до спеціалізованих сервісів CopyAI — ШІ наразі одна з найпопулярніших тем для обговорень, оскільки, з одного боку, його застосування може спростити життя спеціалістів, а з іншого — призвести до ускладнень з просуванням сайтів і стати причиною низької якості текстів, інформації тощо.

Відповідно до росту популярності ШІ-інструментів, зростає й потреба у тому, щоб відрізнити згенерований контент від того, що створила людина. У цій статті ми розберемо питання того, чому ШІ-тексти можуть становити небезпеку для сайту та як відрізнити текст написаний штучним інтелектом від того, що написаний людиною.

Підписуйтесь на телеграм-канал Inweb, де можна знайти цікаві статті про ШІ, дослідження маркетингу, актуальні новини та корисні поради для диджитал-спеціалістів.

У чому проблема з текстами, написаними штучним інтелектом

Попри те, що тексти згенеровані штучним інтелектом можуть бути дешевшими, отримати їх можна швидше та якоюсь мірою вони можуть бути написані якісніше, у них є свої мінуси. І наразі цих мінусів стає все більше, оскільки Google вже може відрізняти контент згенерований та людський, а після нещодавнього оновлення може навіть понизити сайт у видачі, якщо на ньому є зловживання контентом згенерованим ШІ.

До того ж, неодноразово SEO-спеціалісти Inweb та інші звертали увагу на те, що ШІ-контент може нашкодити сайту, оскільки він, скоріше за все неунікальний, не має певної мети та не відповідає стандартам EEAT Google. Також були проведені дослідження, які виявили, що люди можуть відрізнити згенерований текст краще, ніж згенеровані картинки.

Чому не варто генерувати тексти з ШІ:

Google погано реагує на такі тексти, якщо вони не унікальні й не відповідають стандартам EEAT.
Генеративні тексти, зазвичай, низької якості та містять багато води.
У згенерованих текстах на специфічну тематику можуть міститися помилки у фактах, застаріла інформація, або інформація, яка не відповідає дійсності.
Такі тексти, скоріш за все, не будуть потрапляти у ToV бренду, якщо не прописати це у prompt.
Генеровані тексти вимагають додаткової редактури й перевірки, часто вона має бути набагато ретельнішою, ніж тексти, які написав автор.
ШІ-тексти не мають досвіду і, зазвичай, описують загальні поняття, які відомі усім.
У ШІ є свій стиль написання, який просто відрізнити аналізом, він має повторювані фрази та конструкції, які не несуть сенсу.

Однак це не означає, що копірайтерам, журналістам та райтерам потрібно повністю ігнорувати прогрес та відмовитися від використання ШІ. Навпаки, ШІ можна використовувати для генерації тексту, якщо правильно сформувати запит, проаналізувати результат, виправити його, відповідно до потреб та перевірити на унікальність, відповідність запитам замовника.

Що теж складає немалу роботу зі сторони спеціаліста, та може покращити його продуктивність і скоротити час на пошук ідей, формування структури статті чи пошуку певних цікавих інсайтів для розвитку думки. Тому не можна бути категоричними зі спеціалістами, які зазначають, що працюють з ШІ для текстів. Треба уточнювати, в яких процесах спеціаліст використовує ШІ та чи може він гарантувати якість написаного тексту, створеного зі штучним інтелектом.

Як відрізнити текст, згенерований ШІ

Можна піти простим способом і використати сервіс по типу ZeroGPT. Однак, як демонструє прикріплений приклад, сервіс не в змозі дати правдиву оцінку.

Неодноразово перевіряючи текст, написаний мною без використання ШІ він сприймав як згенерований, так само текст, згенерований ШІ, видавав як людський. І тут питання навіть не в мові, тому що тестувалися варіанти англійською та українською, а в стилі написання та логіці відстеження.

Приклад людського унікального тексту, який трекер розпізнав як згенерований.

Приклад генеративного тексту, який той же трекер розпізнав як людський.

З усіх сервісів, які я протестувала на власному прикладі, найближчим до правди виявився GPTZero. Однак й він дає похибки, тому не довіряйте йому на 100%.

Райтер, який хоче зекономити свій час і видати ШІ-текст за написаний людиною, знайде лазівку як обійти ці трекери. Тому варто розвивати у собі надивленність, яка здобувається тільки активним читанням великих обʼємів як «хороших», так і «поганих» статей, як написаних людиною, так і написаних ШІ.

Що виділяє тексти, написані штучним інтелектом

Щоб спростити задачу щодо надивленості, зібрала декілька видимих маркерів у текстах, які виділила для себе з часом роботи та вичитки. Вони допоможуть ідентифікувати абзаци, речення та цілі тексти, які могли бути написані штучним інтелектом.

Повторювані слова чи вислови

У ШІ є проблеми з повторенням слів, причому повторювати він може деякі неправильні конструкції. До прикладу: SEO-оптимізація (коли SEO вже має у собі search engine optimization), UGC-контент (коли UGC вже має у собі user-generated content) і цей список можна продовжувати. Також штучний інтелект може повторювати початки речень, робити однаковими початки списків, переспамлювати з використанням різних слів, які можна було б замінити синонімами.

Вислів «у сучасному світі» — фактично 70% статей, які генерує ШІ він чомусь починає з цієї фрази. Особливо, якщо prompt заданий примітивним чином і ця фраза повторюється. Відразу зверніть увагу на неї та намагайтеся уникати у своїх текстах.

Також повторюються вислови «є невідʼємною частиною», «інновації» фігурують у згенерованих текстах, здебільшого у вступах та висновках.

Проблема з узгодженням слів

Помилки з узгодженням слів можуть траплятися у людських текстах, коли автор раз чи два несвідомо помилився в узгодженні. Людський фактор може брати своє й іноді важко слідкувати за думкою, особливо коли текст обʼємний чи коли над ним працює команда.

Однак, якщо такі помилки повторюються і вони очевидні, скоріше за все, текст написав GPT, тому що поки що ШІ складно формулювати якісний текст українською мовою з дотриманням усіх узгоджень та правил милозвучності.

Надмірна загальність висловлення

Якщо тема — огляд конкретного пристрою, конкретних процедур, речей чи сенсів, а текст написаний так, що ці сенси можна замінити будь-чим іншим, можливо, автором був ШІ.

Приклад: Дизайн Samsung Galaxy S24 — це кульмінація найсучасніших технологій і естетичних тенденцій у світі смартфонів. Модель вирізняється майже безрамковим дисплеєм, який займає майже всю передню панель, за винятком фронтальної камери, втіленої за допомогою новітньої технології підекранної камери, що робить її майже непомітною.

Текст води, який нічого не каже про дизайн S24. Замініть S24 на S21, S22 — текст лишиться таким самим пустим і неінформативним для читача. Що зрозуміло, бо він 100% згенерований ШІ із найпримітивнішим prompt.

Відсутність стилю

Коли читаєш багато текстів різних людей, виробляється розуміння авторського стилю. У невеликій команді, з якою працюєш постійно, дуже просто запамʼятати конструкції та хід думок, як їх висловлює автор у тексті. Хтось пише, використовуючи порівняння, хтось — полюбляє чіткий фактаж, хтось любить «зайти здалеку», для когось принциповим є цифри у тексті. І цей почерк прослідковується від автора до автора.

До прикладу, у мене є формулювання: «У цій статті ми…». І це повторюється у 90% всіх моїх матеріалів. Я люблю вживати «наразі», «однак», намагаюся не починати речення з «але», слідкую за вживанням сполучників для милозвучності тощо. Так само я люблю спрощувати, виділяти важливе, адаптувати так, щоб статтю можна було читати частинами, які актуальні та не втрачати основної думки.

У ШІ ж усі тексти фактично однакові — лінійні, позбавлені індивідуальності та авторського досвіду. Однотипні та читаються доволі складно, через надмірність синонімів, які б звичайна людина, зазвичай, не вживала б у цьому випадку.

Відсутність досвіду

Google зробив експертність, досвід та авторитетність одними із важливих чинників формули EEAT. Тому що досвід здебільшого неможливо скопіювати чи вигадати. ШІ може репрезентувати чийсь досвід, він може вигадати цей досвід, але все одно вигаданий чи перенесений з чийогось досвід ШІ буде обмеженим і загальним, він буде виходити із вже наявної інформації та точно не даватиме ексклюзивного контенту. Навіть якщо контент ШІ буде унікальним, він буде таким самим як і тисяча подібних, що вже є в інтернеті.

Тому при перевірці звертайте увагу на приклади. Вживання у тексті вставок «мій досвід», «на практиці», «я зрозумів», «моя робота» тощо. Коли є підтвердження таким висловленням і вони унікальні — це текст, написаний людиною, а не ШІ.

Фейки у текстах

Маркер очевидний, але виявити його у тексті складно, особливо якщо текст багатий на факти. До прикладу, якась хроніка, інструкція чи історія чогось. Потрібно точково звіряти всі факти та шукати першоджерело, перевіряти чи інформація не застаріла.

ШІ любить додумувати факти, додавати нереальні джерела та оминати реальні сенси, на користь того, що просить написати автор prompt. Тому потрібно уважно вичитувати статті, у яких є звʼязок з правом, медициною, історією, технологіями тощо. Перевіряти імена у біографіях, порівнювати спірні моменти.

Лайфхак для перевірки

Для того, щоб перевірити унікальність тексту, можна скористатися наступним способом:

Виділіть текст до 5000 символів, можна частину написаного тексту.
Скориставшись перекладачем, перекладіть текст англійською.
Закиньте у будь-який сервіс перевірки унікальності.

Якщо текст має менш ніж 50% унікальності — це, скоріше за все, не людський текст. З практичного досвіду, навіть з урахуванням популярності теми та базового перекладу примітивного перекладача, авторський текст не матиме менш ніж 60% унікальності англійською мовою.

Приклад перевірки авторського тексту за способом перекладу тексту.

Приклад перевірки генеративного тексту з правками за методом перекладу.

Цей метод не ідеальний і часом він теж дає збій. Особливо, якщо тема дуже популярна чи якщо автор робив рерайт з певного джерела, перефразовуючи його. Також він не підійде для карток товарів чи категорій, де є згадка про бренди. Проте він допоможе базово зрозуміти, чи може бути текст написаний ШІ.

Чи можна точно визначити текст, написаний ШІ

Якщо текст написаний за примітивним prompt і не правився райтером — відрізнити ШІ-текст нескладно. Повторювані слова, конструкції, відсутність узгоджень, відсутність досвіду та конкретики, вода у тексті — вирізняють текст, написаний штучним інтелектом.

Однак, якщо райтер вичитав ШІ-текст, грамотно сформулював prompt, перевірив на помилки, додав особистого досвіду — такий текст ідентифікувати дуже важко. Тут потрібно докласти зусиль, розвинути надивленість, скористатися сервісами та перевірити на достовірність факти.

Перевірте себе у грі на визначення ШІ-тексту, яку створили в Університеті Пенсильванії. У ній можна обрати типи тексту та вказати, чому, на вашу думку, той чи той текст є згенерованим.

Софія Старк

• Media Editor

Агенція digital-маркетингу Inweb

Media Editor, дипломована журналістка із пристрастю до Digital та технологій. Маю стаж графічного дизайну розрізом у 5 років, вивчала основи SEO, email-маркетингу та була Head of SMM. Ваша персональна Сірі у світі digital, штучного інтелекту тощо. Педантична перфекціоністка із неймовірною допитливістю, тому збираю найцікавіше, щоб ви могли прочитати це в медіа. Обожнюю геймінг та практикую мобільну фотографію.