Казахстанский институт интеллектуальных систем и искусственного интеллекта (ISSAI) разработал крупную языковую модель ISSAI KAZ-LLM, поддерживающую четыре языка.
Эта инновация направлена на повышение качества жизни населения Казахстана, обеспечение экономического развития страны и сохранение национального культурного наследия.
Особенности модели ISSAI KAZ-LLM:
– Обученные данные: Для модели собрано более 150 миллиардов токенов на четырех языках — казахском, русском, английском и турецком. Около 95% этих данных были подготовлены командой ISSAI и включают материалы из казахстанских веб-сайтов, новостных статей и онлайн-библиотек. Кроме того, высококачественный английский контент был переведен на казахский язык.
– Техническая основа: Модель обучалась на платформе NVIDIA DGX H100 с использованием восьми облачных серверов. Доступны две версии — с 8 миллиардами и 70 миллиардами параметров, а также 4-битные квантованные версии для работы в условиях ограниченных ресурсов.
– Лицензия и использование: 10 декабря 2024 года открытые версии модели были предоставлены для временного использования под лицензией CC-BY-NC. Они размещены в публичном репозитории на Hugging Face и доступны для научных и академических целей.
Возможности и эффективность модели:
Для оценки эффективности модели были адаптированы бенчмаркинг-системы такие как ARC, GSM8K, HellaSwag, MMLU, Winogrande и DROP. На модели с 70 миллиардами параметров были достигнуты высокие результаты на казахском языке и значительные показатели на русском и английском, что демонстрирует их конкурентоспособность с моделями OpenAI.
Будущие планы:
Команда ISSAI планирует дальнейшее совершенствование модели и создание передовых AI-моделей. Ожидается интеграция языковых и визуальных данных, а также поддержка других тюркских языков, что будет способствовать укреплению связей между тюркоязычными сообществами. Также совместно с технологическими партнерами будут разрабатываться полезные AI-продукты и услуги для народа Казахстана, что будет способствовать экономическому росту страны.
Эта инициатива подчеркивает значимость искусственного интеллекта в современном мире и потенциал его применения для улучшения различных аспектов жизни общества.