Блог

Grok 4 или ChatGPT-5: тестируем нейросети на реальных задачах и выбираем лучшую

Сравнили две передовые нейросети — Grok-4 и ChatGPT-5, провели тестирование на реальных задачах и определили, какая из них обладает лучшими возможностями. Узнайте, какая модель лучше подходит для вашего бизнеса.

Опубликовано 10.09.2025 6 минут чтения НейроДуэль
AI-модели ChatGPT Grok Для бизнеса

Бизнес сегодня как никогда ранее нуждается в AI-помощниках для автоматизации рутинных задач, быстрого принятия решений на основе анализа больших данных и генерации новых идей — будь то программный код, маркетинговый текст или бизнес-стратегия. Интеграция AI-помощников в рабочие процессы — это прямой путь к увеличению ROI за счет экономии времени и ресурсов команды. И пока одни компании уже активно используют AI-ассистентов, в том числе для решения задач уровня PhD, другие рискуют безнадежно отстать без внедрения подобных технологий.

Если вы выбираете AI-помощника в 2025 году, то стоит начать с одного из двух наиболее популярных «кандидатов» — Grok 4 от xAI или ChatGPT-5 от OpenAI. Согласно независимому исследованию платформы Artificial Analysis, обе модели показывают выдающиеся результаты в различных тестовых категориях, а в сравнении «что лучше grok или chatgpt» у каждой есть свои сильные и слабые стороны. Наша аналитика Grok vs ChatGPT поможет определиться тем, кто ищет оптимальную нейросеть для решения своих задач.

GPT 5 vs Grok 4: сравниваем возможности нейросетей

Напомним, что GPT‑5 — это последняя версия языковой модели от OpenAI, демонстрирующая высочайшую точность ответов и глубину анализа бизнес-задач. Она хорошо подходит для обучения и генерации базового кода, а также создания детальных планов, хотя зачастую требует дополнительной доработки человеком.

Grok 4 — флагманская диалоговая модель от xAI, отличающаяся точностью при работе с данными в режиме реального времени и способностью генерировать практически готовый продакшн-код, экономя часы разработки, а также реалистичные бизнес-решения.

Для более наглядного сравнения ключевых особенностей двух сильнейших моделей (Grok vs ChatGPT) мы подготовили сводную таблицу с выводами по ключевым бенчмаркам.

КритерийChatGPT-5Grok 4Лидер
Производительность ИИ-тестов— 85% у GPT-5 High в тесте GPQA (научное мышление)
— 9,9% ARC-AGI2 (мышление)

Побеждает в комплексных тестах на общий интеллект (Humanity’s Last Exam), и зачастую оказывается быстрее и дешевле Grok 4
— 88,9% в тесте GPQA (научное мышление)
— 15,9% ARC-AGI2 (мышление)
Лидирует в научных и комплексных бенчмарках (GPQA, ARC-AGI2), особенно при быстрых запросах
Grok 4
Работа с кодом— LiveCodeBench с результатом 67%
— SWE-Bench с результатом 74,9%

Оптимален для практической работы с кодом: отладки, исправления ошибок и интеграции, обеспечивая стабильность решения
LiveCodeBench с результатом 82%

Однозначный лидер для решения задач программирования, где требуется креативность и адаптивность
Grok 4
Сценарии использованияШирокий спектр: от творчества до бизнеса и здравоохраненияСпециализированные задачи: наука, программирование, анализ данныхChatGPT-5 (мультифункциональность)
Качество текстаВысокое: ясность, эмоциональная выразительность, адаптивностьТехническая точность, структурированностьЗависит от цели текста
Скорость ответаВысокая: около 150 токенов в секундуВысокая, но может быть ниже из-за глубины анализаChatGPT-5
Поддержка языковБолее 100 языков с высокой точностью~50 языков, в основном английскийChatGPT-5
СтоимостьPlus 20$
Pro 200$
SuperGrok 30$
SuperGrok Heavy 300$
ChatGPT-5

ChatGPT-5 лидирует по большинству критериев, включая качество текста, скорость ответов, поддержку языков и рациональность. Grok-4 выделяется в области производительности ИИ-тестов, работы с кодом и предлагает более высокую логичность. В зависимости от ваших приоритетов (качество и скорость vs рациональность и специализированная работа с кодом) выбор может склоняться в ту или иную сторону.

А теперь давайте подробнее рассмотрим, как обе модели справляются с реальными бизнес-задачами. Мы подготовили пул промптов, чтобы вы тоже могли протестировать их для своих задач.

Решение сложных задач: для аналитиков, Data scientists, Product managers и маркетологов

Искусственный интеллект способен не только отвечать на вопросы, но и помогать в решении комплексных технических задач. Мы попросили обе нейросети создать синтетический датасет и выполнить первый этап любой задачи анализа данных — EDA.

Промпт:

копировать

Продемонстрируй свои способности в анализе данных и понимании задач бизнеса. Сгенерируй синтетический датасет `df` о клиентах интернет-магазина. Данные содержат:

  • Пропуски (NaN)
  • Дубликаты
  • Аномалии (возраст > 100, отрицательные значения)
  • Ошибки форматирования (регистр, написание городов, email)

#Вы можете пропустить генерацию датасета и отправить в чат свой пример данных.

#Дальше выолни EDA и предобработкау датасета с пропусками и дубликатами.

## Этапы выполнения 

  1.  Обзор данных: `.head()`, `.info()`, `.describe()`
  2. Удаление дубликатов
  3. Очистка аномалий
  4. Нормализация данных (форматы, регистр, кодировка)
  5. Стандартизация и нормализация числовых признаков
  6. Инжиниринг признаков
  7. Финальная проверка чистоты данных через визуализацию  

## Формат сдачи 

Предоставь код (Jupyter Notebook / Python-скрипт) с:

  •  Пошаговой обработкой
  •  Комментариями
  • Финальным датафреймом `df_clean`
  • Кратким выводом (2–3 предложения)
Текст скопирован

Цель: получить чистый, нормализованный датасет с визуализацией, готовый к анализу или моделированию.

Генерацию кода и пример мы перенесли в Google Collab. На примере этой задачи мы подготовили подробный сравнительный анализ решений двух нейросетей с указанием ключевых ошибок и качества исполнения.

Анализ решения от ChatGPT-5:

Одна из проблем решения от ChatGPT-5 — перегруз комментариями кода, дублирующими основные шаги (например, # Email → нижний регистр и строка кода ниже), что создает избыточность. Также мы наблюдаем неравномерную детализацию: некоторые шаги расписаны очень подробно, а другие — слишком лаконично.

Формат ответа ChatGPT-5 больше подходит для использования в презентации. Если цель — получить именно рабочий код, то комментарии должны быть более функциональными: объяснять только неочевидные решения, чего представлено не было.

Кроме того, при очистке аномалий ChatGPT удалил пользователей младше 18 и старше 100 лет, что соответствует скорее житейской логике, чем инженерному подходу — по условиям задачи возрастного ограничения могло и не быть. Нормализация затронула только поле с возрастом, а стандартизация числовых признаков выполнена примитивно.

Избыточная и неправильная визуализация (построение boxplot для столбцов, которым визуализация вообще не нужна) и оставшиеся NaN в обработанном датасете указывают на проблемы в анализе данных и инженерии признаков.

Вердикт: учебный датасет выполнен на тройку. EDA не несет ценности без участия человека — результат исполнен халатно, а тривиальные шаги выполнены слабо. Использование нейросети для решения данной задачи поможет избежать технических ошибок (например, проблем с синтаксисом и опечаток, из-за которых  код падает), но без участия аналитика или маркетолога в качестве контроллера даже первый этап анализа данных доверять ей нельзя.

Анализ решения от Grok 4:

Grok 4 демонстрирует ряд практических преимуществ для аналитика, особенно в инжиниринге признаков и структурировании кода. В отличие от ChatGPT‑5,  Grok 4 генерирует более читаемый и логически обоснованный код, а интерфейс нейросети предлагает изящное встроенное решение в виде кнопки «исполнить». Например, при обработке данных Grok‑4 предлагает полезные идеи, такие как добавление столбцов с признаком «_ дней с последней покупки» или выделение категории «супер-плательщиков» на основе медианы.

копировать
  • # Добавить: days_since_last_purchase (от текущей даты 2025-09-03)
  • current_date = pd.to_datetime(‘2025-09-03’)
  • df[‘days_since_last_purchase’] = (current_date — df[‘last_purchase_date’]).dt.days

df[‘high_spender’] = df[‘purchase_amount’] > df[‘purchase_amount’].median()

Текст скопирован

Однако некоторые решения, такие как очистка аномалий по возрасту (удаление пользователей младше 18 и старше 100 лет) аналогичны ChatGPT‑5, что может быть связано с особенностями рынка стран происхождения моделей. Визуализация данных в Grok 4 также оказалась слабым местом — выбор полей и методов не всегда обоснован.

Вердикт: как и ChatGPT‑5, Grok 4 не может работать без контроля человека, но для анализа данных на Python оказывается полезнее — по компетенциям нейросеть можно сравнить с продвинутым джуниором, который предлагает более структурированные и бизнес-ориентированные решения для подготовки данных.

Вывод

ChatGPT-5 скорее ускоряет проверку синтаксиса, а Grok 4 предоставляет более точные и проработанные решения для ускорения проверки идей.

Программирование: для веб-разработчиков

Программирование — одна из ключевых областей, где AI-ассистенты могут значительно ускорить работу. Использование нейросетей для генерации кода помогает быстрее решать рутинные задачи и упрощает внедрение новых функций на сайтах. Мы протестировали их способности по написанию JavaScript-скриптов для лендинга.

Промпт:

копировать

Создай два отдельных скрипта на **JavaScript** для вставки на лендинг https://b2b.jaycopilot.com/

## Скрипт 1: Кнопка «Получить демо»  

  • Найди кнопку в стартовом блоке (по селектору `button[data-action=»get-demo»]` или ближайшему аналогу).  
  • По клику:

 — Либо открыть поп-ап с формой (если форма встроена в DOM и скрыта классом `hidden`),  

— Либо редиректнуть на `/cart` (если формы нет на лендинге).  

## Скрипт 2: Переход в корзину с автозаполнением  

При вызове `goToCartAndFill()` скрипт должен:  

  •   Перейти на страницу `/cart`;  
  •   Дождаться загрузки формы;  

  Заполнить поля:  

  • `input[name=»name»]` — `»Иван Иванов»`  
  • `input[name=»email»]` — `»ivan@example.com»`  
  • `input[name=»phone»]` — `»+7 (999) 123-45-67″`  
  • `input[name=»company»]` — `»ООО Тест»`  

После заполнения — сымитировать нажатие кнопки «Отправить» (`button[type=»submit»]`).  

## Требования  

  • Код должен быть чистым, без внешних библиотек.  
  • Добавь комментарии к каждому шагу.  
  • Напиши код в двух отдельных блоках (Script 1, Script 2). 
Текст скопирован

Решение ChatGPT-5:

Решение от Grok 4:

Решение от Grok 4

Вывод:

ChatGPT-5 хорош для обучения и написания базового кода, но требует дополнительной доработки опытным программистом.
Grok 4 отлично справляется с генерацией продакшн-кода, который практически готов к использованию, что позволяет сэкономить часы работы разработчиков.

 

Математические вычисления: для аналитиков

Точность и скорость математических вычислений — важный показатель эффективности работы нейросети. Мы проверили, как обе модели справляются с выполнением типовой арифметической бизнес-задачи.

Промпт:

копировать

Онлайн-сервис подписки на курсы по операционному управлению имеет следующие данные: 

  • Средний ежемесячный доход с одного клиента (ARPU) = 1 500 рублей. 
  • Средний срок удержания клиента (Lifetime) = 18 месяцев. 
  • Себестоимость обслуживания одного клиента в месяц = 300 рублей. 
  • Затраты на привлечение одного клиента (CAC) = 4 500 рублей. 

Вопросы: 

Рассчитай чистый LTV (с учётом прибыли, а не просто выручки). 

Какой должен быть минимальный срок удержания клиента?

Текст скопирован

Ответ ChatGPT-5:

Ответ ChatGPT-5

Ответ Grok 4:

Ответ Grok 4

Вывод:

Ответы обоих нейросетей, в целом, идентичны и говорят о том, что AI-апокалипсис не случился, а продакт-менеджеры и маркетологи понадобятся и дальше.

Чтобы рассчитать LTV по прибыли, надо было из ARPU вычесть расходы на удержание, получаем 1 200, дальше умножаем 1 200 на 18 месяцев, получаем 21 600. Из 21600 — 4500, получаем LTV = 17 100. Или прибыль = 1 500 × 18 = 27 000 руб., LTV по прибыли = 27 000 — (300 × 18 + 4500) = 17 100 руб.

Минимальный срок удержания клиента рассчитан верно обоими моделями.

Способности к планированию: для менеджеров по продукту и маркетологов

От личных целей до бизнес-стратегий: нейросети способны помочь вам в структурировании и планировании. Мы попросили их разработать план активностей внутри воронки продукта по модели AAARRR.

Промпт:

копировать

Составь план для разработки и планирования активностей внутри воронки продукта по модели AAARRR.  

### Роль  

Действуй как продуктовый маркетолог B2B edtech-сервиса 

### Контекст  

Онлайн-сервис (подписка на курсы по операционному управлению).  

  • ARPU = 1500 ₽  
  • Себестоимость = 300 ₽  
  • CAC = 4500 ₽  
  • Средний срок удержания = 18 мес.  

Необходимо повысить **Retention** и **Referral**, так как CAC растёт быстрее новых регистраций.  

### Цель  

Описать и спланировать активности для каждого этапа воронки продукта, чтобы увеличить чистый LTV и ROI маркетинга.  

### Задачи  

  • Описать этапы воронки: **Awareness → Acquisition → Activation → Revenue → Retention → Referral**  
  • Для каждого этапа предложить целевые действия пользователя (пример: Awareness — увидел рекламу, Activation — начал бесплатный пробный период)  
  • Для каждого этапа указать подходящие маркетинговые и продуктовые активности (пример: Retention — email-кампания с FOMO, персонализированные подборки курсов)  
  • Определить ключевые метрики (**CR, CAC, ARPU, LTV, Retention rate, NPS**) с ориентировочными бенчмарками для EdTech/SaaS  
  • Выделить риски оттока на каждом этапе и предложить меры по снижению  
  • Определить, какие 1–2 этапа будут главными точками роста при ограниченном бюджете  
  • Оценить вклад этих этапов в юнит-экономику  

### Критерии приемки  

Таблица в формате:  

| Этап AAARRR | Действие пользователя | Активность | Метрика + бенчмарк | Риск | Мера | Вклад в экономику |  

+ вывод о приоритетных точках роста.

Текст скопирован

Ответ ChatGPT-5:

Ответ ChatGPT-5

Ответ Grok 4:

Ответ Grok 4

Вывод:

ChatGPT-5 оказался креативен в планировании, но некоторые его предложения не слишком реалистичны, а другие — неожиданно интересные. Координацию действий он сохранил, но предложенный план вряд ли можно считать рабочим без доработки человеком.

Grok 4 предложил более реалистичный план. При этом оба варианта плана не стоит копировать и воспринимать как готовую GTM-стратегию: цифры у Grok выглядят более реалистично и соответствуют бенчмаркам, однако конкретные абсолютные и относительные показатели должны быть пересмотрены опытным маркетологом и продакт-менеджером.

GPT 5 или Grok 4: какую нейросеть лучше использовать в Jay Copilot

Однозначного ответа на вопрос, что лучше — GPT 5 или Grok, не существует: все зависит от конкретной задачи и контекста. Итоговое сравнение Grok 4 и ChatGPT-5 вы всегда можете провести прямо в интерфейсе Jay Copilot, предложив выполнить одну и ту же задачу двум нейросетям. Наше сравнение Grok-4 и СhatGPT-5 показало, что каждая модель обладает уникальными преимуществами в зависимости от сценария использования, но все еще нуждается в участии человека.

Не стоит бездумно копировать ответы, сгенерированные нейросетью — необходимо внимательно перепроверять цифры и программный код. Но несомненно то, что обе модели способны заметно ускорить работу профессионалов, которые умеют считать, программировать и думать логически. Кроме того, AI-помощники помогут справиться с проблемой «чистого листа», когда сложно понять, с чего стоит начать работу над задачей и где скрывается проблема.

Выбирайте ChatGPT 5 в Jay Copilot для задач, требующих:

  • Креатива в генерации идей, написании текстов и так далее.
  • Практической работы с кодом: отладки, исправления ошибок и интеграции.

Выбирайте Grok 4 в Jay Copilot для задач, требующих:

  • Логичности и ясности, если требуется получить подтвержденный данными рациональный ответ.
  • Создания «изящного» и, при этом, креативного кода с учетом бизнес-контекста задачи (однако даже junior-аналитика нейросеть вам пока полноценно не заменит).

Сравнение Grok vs ChatGPT никогда не покажет однозначно выигрышную модель по всем фронтам. Споры «Grok или ChatGPT» будут продолжаться, но при использовании Jay Copilot вам больше не нужно выбирать, ведь сервис интегрирует обе модели, а вы получаете максимально широкий арсенал для решения разных задач в режиме одного окна. Выбор зависит исключительно от контекста ваших задач.

Запросите демо, чтобы узнать какие возможности открыты для вашего бизнеса

Спасибо за ваш запрос!

Мы обязательно его рассмотрим и свяжемся с вами в ближайшее время.

Спасибо за заявку!

Ждите тестовый звонок в ближайшее время.

Отлично!

Вы подписались на видеоподкаст «Conversations with…». Теперь вы первым узнаете о выходе нового эпизода!