Що таке DeepSeek — порівняння з ChatGPT та проблеми з конфіденційністю
DeepSeek — компанія з Китаю, яка зуміла привернути увагу всього світу, і стати найзавантажуванішим застосунком, сколихнувши монополію GPT OpenAI та Google Gemini.
Ми вирішили розповісти, що таке DeepSeek, як працює, чим відрізняється від ChatGPT і Gemini, чи варто його використовувати.
Компанія DeepSeek — засновник та походження
Компанія розташована в Ханчжоу, провінція Чжецзян. DeepSeek спеціалізується на розробці великих мовних моделей (LLM) з відкритим кодом.
Засновник DeepSeek, Лян Венфен у 2015 році заснував High-Flyer Capital Management, хедж-фонд, який використовує алгоритми ШІ для прийняття торгових рішень. У 2023 році High-Flyer створив DeepSeek як лабораторію, присвячену дослідженню ШІ, окремо від свого фінансового бізнесу.
Її флагманська модель, DeepSeek-R1, перевершує потужність GPT-4o, при цьому, за словами засновника, вартість навчання становить лише 6 мільйонів доларів США, що значно менше порівняно зі 100 мільйонами доларів, витраченими на GPT-4 у 2023 році.
Попри обмеження США на експорт чипів Nvidia до Китаю, DeepSeek змогла створити свої моделі, використовуючи менші за потужністю чипи.
10 січня 2025 року компанія випустила безкоштовний чатбот на базі моделі DeepSeek-R1 для iOS та Android. До 27 січня програма обійшла ChatGPT, ставши найбільш завантажуваним безкоштовним застосунком в американському App Store, що призвело до падіння акцій Nvidia на 18%.
Моделі компанії DeepSeek хоч і не є повністю відкритими, вони доступні під ліцензіями, які дозволяють використання та модифікацію для комерційних і некомерційних цілей. За даними платформи Hugging Face, розробники вже створили понад 500 похідних моделей на основі DeepSeek, які разом отримали понад 2,5 мільйона завантажень.
Чому чатбот DeepSeek став популярним і що його вирізняє
Чатбот DeepSeek працює на основі моделей DeepSeek-V3 та R1, які відзначаються економічністю у використанні ресурсів. Модель R1 інтегрує так можливості «моделі роздумів» (reasoning model), що дозволяє їй перевіряти свої відповіді.
В основі роботи DeepSeek лежить архітектура Mixture of Experts (MoE), яка дозволяє активувати лише ті частини мережі, які необхідні для виконання конкретного завдання. Завдяки цьому ресурсозатрати значно знижуються, що дає можливість компанії пропонувати свій продукт за менших витрат на обчислення, ніж у конкурентів, таких як ChatGPT.
У чому відмінність DeepSeek від ChatGPT та Gemini
- Архітектура. DeepSeek використовує Mixture of Experts (MoE), GPT і Gemini — трансформерну.
- Ресурси. DeepSeek працює на Nvidia H800, GPT потребує масштабної інфраструктури.
- Спеціалізація. Китайський аналог ефективний у технічних задачах, а ChatGPT і Gemini більш універсальні.
- Вартість. DeepSeek дешевший і доступний для розробників.
- Конфіденційність. Дані DeepSeek зберігаються в Китаї, коли OpenAI і Google намагаються дотримуватися стандартів GDPR.
Відмінності у технічній архітектурі та навчанні
DeepSeek побудований на архітектурі Mixture of Experts (MoE), яка оптимізує використання обчислювальних ресурсів. Ця модель активує лише необхідні частини мережі для конкретного запиту, що знижує витрати на обчислення.
Модель DeepSeek-V3 навчали на 2 000 чипах Nvidia H800. Це зробило розробку набагато дешевшою: $5.6 мільйона проти мільярдів доларів, які витрачають конкуренти.
Для порівняння, ChatGPT використовує трансформерну архітектуру, яка обробляє кожен запит через всю мережу. Це забезпечує стабільність у продуктивності, але потребує значних обчислювальних ресурсів. За словами генерального директора OpenAI Сема Альтмана, навчання GPT-4 коштувало понад 100 мільйонів доларів.
За іншими даними, витрати OpenAI на навчання та розробку ШІ сягнули $7 млрд у 2024 році, причому лише витрати на навчання становлять $3 млрд.
Gemini, розроблений Google, схожий до підходу OpenAI, поєднує текстові та візуальні можливості. Це дозволяє йому не лише обробляти текстові запити, а й аналізувати зображення або створювати контент на основі мультимедійних даних.
Продуктивність у спеціалізованих задачах
Ключовою перевагою DeepSeek R1 є її здатність до роздумів (reasoning model). Це означає, що модель перевіряє свої відповіді перед тим, як їх відправити, що робить її ефективною для розв’язання технічних задач — програмування чи аналізу наукових даних. AI-експерти вказують, що DeepSeek успішно розв’язує проблеми, які залишаються поза межами можливостей інших моделей, таких як GPT-4o.
ChatGPT є більш універсальним і підходить для створення текстів, ведення розмов та контекстуального аналізу, що робить його популярним серед широкої аудиторії. Gemini кращий у роботі з мультимедійними даними. Він може генерувати опис до зображень або створювати текстові відповіді, які враховують візуальний контекст.
Проблеми з конфіденційністю у DeepSeek
Згідно з політикою конфіденційності DeepSeek, зібрана інформація зберігається на захищених серверах, розташованих у Китаї. До цієї інформації відносяться текстові та аудіодані, завантажені файли, історія чатів та інший наданий контент. Це і викликало занепокоєння щодо доступу китайського уряду до цих даних у США й країн ЄС.
Італійський орган із захисту даних (Garante) 29 січня запросив у DeepSeek детальну інформацію про типи зібраних даних, джерела, цілі збору, правові підстави та місце зберігання даних. DeepSeek має 20 днів для надання відповіді.
Офіційні особи США розглядають наслідки для національної безпеки, які може спричинити використання DeepSeek. Існують побоювання щодо можливого несанкціонованого отримання даних з технологій OpenAI групою, пов’язаною з DeepSeek.
OpenAI заявила, що має докази того, що китайська компанія використовувала її моделі для навчання власного чатбота. Йдеться про застосування техніки «дистиляції», коли одна модель ШІ використовує результати іншої для свого навчання.
Існують побоювання, що компанія DeepSeek фінансується урядом Китаю. Хоча прямих доказів фінансування немає, деякі експерти вважають, що успіх DeepSeek може бути частиною ширшої стратегії Китаю.
Чи безпечно використовувати DeepSeek
Використання DeepSeek може бути небезпечним, оскільки дані, включаючи текстові запити, файли та іншу інформацію, зберігаються на серверах у Китаї. Відповідно до місцевого законодавства, компанії зобов’язані надавати доступ до цих даних державним органам. Це викликає занепокоєння щодо конфіденційності, особливо в контексті міжнародних стандартів, таких як GDPR.
У грудні 2024 року в DeepSeek виявили вразливість, яка дозволяла викрадати облікові записи через механізм prompt injection. Попри те, що проблему швидко вирішили, це поставило під сумнів безпеку сервісу. Також існують звинувачення, що DeepSeek міг використовувати методи дистиляції для навчання своїх моделей на основі даних OpenAI, що може порушувати умови використання.