Нейросетевая модель GigaChat, разработанная Сбером, показала отличные результаты в открытом бенчмарке MERA, превзойдя большинство моделей, доступных в открытом доступе.
В рамках тестирования были представлены две инструктивные модели: GigaChat PRO и GigaChat Lite+. По результатам теста GigaChat PRO набрал 51,3 балла из 100, опередив модель Mixtral 8x7B Instruct (47,8). В бенчмарк были включены сложные задачи, которые языковые модели до сих пор могут решать только с некоторыми ограничениями, в то время как человеческий интеллект справляется с ними более точно.
Чем выше баллы модели, тем более точные решения может предоставлять искусственный интеллект для различных интеллектуальных и бытовых задач: написание статей в нужном стиле и формате, поиск информации и подготовка аналитики на ее основе. Бизнес также может использовать модель для создания собственных решений и оптимизации внутренних процессов.
«В условиях активного развития больших языковых моделей важно иметь реальное представление о их возможностях. Благодаря оценке пользователи могут понять, как использовать GigaChat, а исследователи получают объективную информацию для дальнейшего обучения и развития больших языковых моделей. Это не только признание работы нашей команды, но и стимул для совершенствования сервиса, чтобы он стал еще более полезным и удобным для обычных пользователей и бизнеса», — подчеркнул Андрей Белевцев, старший вице-президент, CTO и руководитель блока «Технологии» в Сбербанке.