Сбер представил GigaChat 2.0 — новое поколение нейросети

Поделиться

13 марта Сбер представил новую версию нейросети GigaChat.

В компании называют GigaChat 2.0 сильнейшей нейросетью на русском языке. Пока она доступна только бизнес-клиентам. Расскажу, что изменилось.

Все модели GigaChat получили апгрейд производительности. Как заявляют в Сбере, модели нового поколения обрабатывают в четыре раза больше контекста: максимальный объем запроса вырос с 48 до 200 страниц А4. Всего новых моделей три:

  1. GigaChat 2.0 MAX — самая мощная в линейке.
  2. GigaChat 2.0 Pro — для задач, в которых важны креатив и точность.
  3. GigaChat 2.0 Lite — для решения простых задач.

GigaChat 2.0 в два раза лучше решает рабочие задачи. Модели точнее следуют инструкциям и на 25% лучше отвечают на вопросы, соблюдают условия и отвечают в заданном формате. Производительность GigaChat 2.0 Pro теперь на уровне MAX предыдущего поколения, а GigaChat 2.0 Lite — на уровне прошлой Pro-версии.

Сравнение GigaChat 2.0 MAX с другими ИИ-моделями в ряде бенчмарков 

Категория Название бенчмарка GigaChat 2 MAX Qwen 2.5 72B Llama 3.3 70B GPT-4o DeepSeek-V3
Общие знания MMLU (RU) 80,46 78,30 65,08 80,00 73,74
MMLU (EN) 86,00 83,85 78,57 88,70 85,24
Математика GSM8K 95,68 95,07 92,87 95,00 94,99
MATH 77,26 78,74 62,80 76,60 85,48
Работа с кодом HumanEval 87,20 86,60 86,00 84,00 91,46
Следование инструкциям IFEVAL (RU) 83,62 84,27 75,12 80,24 84,37
IFEVAL (EN) 89,99 90,43 90,83 88,51 92,21

Сравнение GigaChat 2.0 MAX с другими ИИ-моделями в ряде бенчмарков 

Общие знания. MMLU (RU)
GigaChat 2 MAX 80,46
Qwen 2.5 72B 78,30
Llama 3.3 70B 65,08
GPT-4o 80,00
DeepSeek-V3 73,74
Общие знания. MMLU (EN)
GigaChat 2 MAX 86,00
Qwen 2.5 72B 83,85
Llama 3.3 70B 78,57
GPT-4o 88,70
DeepSeek-V3 85,24
Математика. GSM8K
GigaChat 2 MAX 95,68
Qwen 2.5 72B 95,07
Llama 3.3 70B 92,87
GPT-4o 95,00
DeepSeek-V3 94,99
Математика. MATH
GigaChat 2 MAX 77,26
Qwen 2.5 72B 78,74
Llama 3.3 70B 62,80
GPT-4o 76,60
DeepSeek-V3 85,48
Работа с кодом. HumanEval
GigaChat 2 MAX 87,20
Qwen 2.5 72B 86,60
Llama 3.3 70B 86,00
GPT-4o 84,00
DeepSeek-V3 91,46
Следование инструкциям. IFEVAL (RU)
GigaChat 2 MAX 83,62
Qwen 2.5 72B 84,27
Llama 3.3 70B 75,12
GPT-4o 80,24
DeepSeek-V3 84,37
Следование инструкциям. IFEVAL (EN)
GigaChat 2 MAX 89,99
Qwen 2.5 72B 90,43
Llama 3.3 70B 90,83
GPT-4o 88,51
DeepSeek-V3 92,21

На русском языке GigaChat 2.0 MAX опережает GPT-4o и DeepSeek-V3. Среди ИИ-моделей новая MAX-версия занимает первое место в бенчмарке MERA для оценки больших языковых моделей для русского языка, а GigaChat 2.0 Pro — второе. При работе на английском языке нейросеть «не уступает мировым лидерам», утверждают в Сбере.

На базе GigaChat 2.0 можно создавать ИИ-агентов, которые способны рассуждать и решать сложные задачи без участия человека. Для этого моделям расширили знания в математике, естественных и гуманитарных науках, программировании.

Линейка GigaChat 2.0 пока доступна только для бизнеса. Ее можно протестировать в облаке через API или развернуть в локальной инфраструктуре компании. Когда модели станут доступны обычным пользователям, неизвестно.

Статья оригинал здесь

Понравилась статья? Поделиться с друзьями:
Добавить комментарий