• 24 Липня 2024

Порівняння GPT-4o mini, GPT-4o та GPT-4 — що краще обрати під свої задачі

Штучний інтелект стрімко розвивається, і OpenAI постійно вдосконалює свої моделі GPT. На момент написання статті існують три основні версії: GPT-4o mini, GPT-4o та GPT-4.

У цій статті детально розглянули їхні можливості, переваги та недоліки, щоб допомогти визначити, яка модель найкраще підходить для конкретних задач.

Порівняння загальних можливостей моделей

GPT-4o mini — це нова компактна модель, особливістю якої є швидкість. Вона здатна генерувати текст швидше за інші моделі, що робить її ідеальною для задач, де важлива оперативність.

Наприклад, GPT-4o mini може бути ефективною для створення великої кількості постів для Instagram. Також її можна використовувати для генерації ідей, швидких відповідей тощо.

Проте в складних завданнях: математичні обчислення, складні логічні запитання, задачі з контекстом — модель може поступатися GPT-4o та GPT-4.

GPT-4o — це оптимізована модель, яка поєднує високу продуктивність та безкоштовний доступ. Вона добре справляється зі складними завданнями, зокрема зі створенням технічних описів, кістяків для статей, розвʼязання нескладних задач тощо.

Завдяки наявності контекстного вікна GPT-4o може обробляти значний обсяг інформації в одному запиті. Ця модель підійде для задач, де потрібна чіткість і деталізація, без «задушливості».

GPT-4 — це найбільша модель з трьох, яка забезпечує найвищу точність. Вона підходить для спеціалізованих завдань. Наприклад, якщо потрібно опрацювати наукові дослідження або зробити аналіз великих обсягів даних.

Модель GPT-4 можна використовувати для написання кістяків аналітичних статей, де потрібна максимальна точність і розуміння контексту. Попри її точність, іноді GPT-4 видає надто технічні статті, які потребують багатьох правок, також її мінусом є вартість.

Порівняння моделей у різних аспектах

Фото: Порівняння GPT-4o mini, GPT-4o та GPT-4 — що краще обрати під свої задачі

Для певних задач рекомендується використовувати різні моделі GPT. Ресурс Anakin проаналізував моделі за точністю, логікою, розумінням мови та зручністю для програмування.

Загальні знання та логіка моделей

Anakin провели ряд тестів, у яких зафіксували можливості кожної з моделей у відсотковому відношенні.

Тест	GPT-4o mini	GPT-4o	GPT-4
MMLU (загальні знання)	82.0%	88.7%	86.4%
ARC (аналіз міркування)	87.5%	95.9%	95.9%
HellaSwag (розуміння неформального мовлення)	89.1%	95.3%	95.3%
TruthfulQA (правдивість)	70.3%	71.5%	71.0%

Для розуміння кожного з тестів:

MMLU — оцінює загальні знання та логіку моделей. GPT-4o показав найкращий результат.
ARC — перевіряє здатність моделей міркувати та логічно мислити. GPT-4o та GPT-4 показали однакові результати, трохи випередивши GPT-4o mini.
HellaSwag — оцінює здатність моделей розуміти та генерувати неформальну мову. GPT-4o та GPT-4 тут теж показали однакові результати.
TruthfulQA — перевіряє здатність моделей генерувати правдиві та неупереджені відповіді. Всі три моделі показали схожі результати, але GPT-4o мав невелику перевагу.

GPT-4o загалом показав найкращі результати в цих тестах. Нова модель GPT-4o mini теж продемонструвала хороші результати, проте вона у всіх тестах поступалася моделям GPT-4o та GPT-4.

Тести не варто розглядати як еталон оцінки можливостей. Оскільки вони не дають остаточної оцінки можливостей моделей, тому що моделі постійно покращуються.

Математичні можливості

Для кращого розуміння математичних та логічних здібностей, Anakin провели тести GSM8K та MATH. Вони допомагають оцінити, наскільки добре кожна з моделей справляється з розв’язанням математичних задач та логічних проблем.

Тест	GPT-4o mini	GPT-4o	GPT-4
GSM8K	83.9%	92.0%	92.0%
MATH	45.8%	52.9%	52.9%

GSM8K перевіряє здатність моделі розв’язувати математичні задачі рівня початкової школи.
MATH оцінює складніші математичні здібності моделі.

Моделі GPT-4o та GPT-4 ефективніші для задач, що вимагають високого рівня математичних та логічних здібностей. Якщо необхідно опрацювати складні задачі, варто обрати одну з цих моделей.

Розуміння мови та генерація

Оцінка здатності моделі розуміти та генерувати текст є важливою для багатьох задач. Тести LAMBADA та WinoGrande допомагають оцінити здатність моделі розуміти контекст у тексті та можливість правильно інтерпретувати запити.

Тест	GPT-4o mini	GPT-4o	GPT-4
LAMBADA	89.1%	92.0%	92.0%
WinoGrande	87.5%	87.5%	87.5%

Тести демонструють, що задачі, які вимагають розуміння контексту та генерації тексту, краще довірити GPT-4o та GPT-4. А модель GPT-4o mini краще використовувати для генерації нескладних однотипних текстів, як от пости для соцмереж або теми для контенту.

Генерування коду та здатність до розвʼязання проблем з кодом

Багато айтівців використовують GPT для оптимізації коду та часткового його генерування, для спрощення щоденних задач. Тест HumanEval допомагає оцінити здатність моделі генерувати код та допомагати розробникам шукати помилки у коді.

Тест	GPT-4o mini	GPT-4o	GPT-4
HumanEval	75.6%	87.8%	87.8%

З результатів, якщо потрібна модель для написання коду та програмування, GPT-4o та GPT-4 є найкращим вибором.

Швидкість роботи моделей GPT

GPT-4o mini — це найшвидша модель серед порівнюваних. Вона генерує текст зі швидкістю 182.6 токенів на секунду. Для порівняння: GPT-4o видає 88.1 токенів на секунду, а GPT-4 25.2 токенів на секунду.

Проте GPT-4o має найменшу затримку (0.46 секунд) до генерування першого токену, тобто найменший час, який потрібен моделі, щоб почати видавати перший токен після отримання запиту. У GPT-4o mini цей показник становить 0.53 секунди, а в GPT-4 — 0.67 секунди.

Попри те, що GPT-4 здається повільнішою, вона обробляє складніші запити. Тому затримка та швидкість тут не пріоритетніші. Та якщо необхідна саме швидкість — краще обирати GPT-4o або GPT-4o mini.

Вартість моделей GPT в Україні

Безкоштовно доступна модель GPT-3.5, а також обмежений доступ до GPT-4o. Цього вистачає для базових задач, проте якщо є необхідність у великій кількості генерації тексту, або програмуванні, необхідно купувати місячний план за $20. Придбавши його отримуєте доступ до GPT-4o mini, GPT-4o та GPT-4 між якими можна перемикатися, якщо є така необхідність.

Я користуюся планом вже рік, враховуючи те, що працюю з GPT багато — він повністю себе окуповує, навіть з підвищенням курсу долара. Та якщо ви не плануєте застосовувати GPT надто часто, можливо, безкоштовного варіанту буде достатньо.

Висновки

Порівнявши GPT-4o mini, GPT-4o та GPT-4, можна зробити наступні висновки:

GPT-4o mini буде ідеальною для виконання швидких й простих завдань. Підійде для написання постів у соціальні мережі, адаптації контенту та створення текстів у персональні мініблоки.
GPT-4o — це модель кращої точності та з наявністю великого контекстного вікна. Вона є універсальним інструментом для різних задач: від генерування тексту до аналізу невеликих обʼємів даних.
GPT-4 поки що можна розцінювати як застарілу модель, оскільки працює повільно і не завжди точно. Проте вона підходить для спеціалізованих і складних завдань, таких як аналіз великих обсягів даних чи програмування.

Розуміючи особливості кожної з моделей, які можна простежити тільки у порівнянні, можна знайти ідеальну модель для своїх щоденних задач. Проте радимо комбінувати використання кожної з моделей і тестувати самостійно їх для того, щоб обрати оптимальне персональне рішення.

Софія Старк

• Media Editor

Агенція digital-маркетингу Inweb

Media Editor, дипломована журналістка із пристрастю до Digital та технологій. Маю стаж графічного дизайну розрізом у 5 років, вивчала основи SEO, email-маркетингу та була Head of SMM. Ваша персональна Сірі у світі digital, штучного інтелекту тощо. Педантична перфекціоністка із неймовірною допитливістю, тому збираю найцікавіше, щоб ви могли прочитати це в медіа. Обожнюю геймінг та практикую мобільну фотографію.