На заседании Правительства РК под председательством Премьер-министра Олжаса Бектенова рассмотрена Концепция развития искусственного интеллекта. В рамках исполнения поручений Президента по развитию искусственного интеллекта МНВО РК проводит сбор массива данных для разработки проекта большой языковой модели на казахском языке «KazLLM», которая будет создана силами Nazarbayev University и АО «НИТ».
Модель «KazLLM» будет основана на 100 млрд. токенов. Для обеспечения высокого качества модели критически важно собрать максимальное количество данных на казахском языке. Для этих целей будет проведен масштабный сбор данных на платформе «Hugging Face», которая является лидером в области машинного обучения и предназначена для обмена исследованиями, на ее базе пользователи могут разрабатывать инструменты и создавать модели ИИ. Взаимодействие с открытым исходным кодом на платформе делает искусственный интеллект более доступным и стимулирует культуру обмена знаниями и прогрессом.
В результате общего сбора данных будет создана высококачественная модель обработки казахского языка. В будущем это поможет не только улучшить автоматический перевод, но и повысить качество и точность обработки текстов на казахском языке в целом.
Для сбора данных министерством сформирован консорциум, куда вошли Институт информационных и вычислительных технологий, Satbayev University, Nazarbayev University, ННПЦ «Тіл-Қазына» имени Ш.Шаяхметова, Институт языкознания им. А. Байтурсынова и КазНУ.
По программе целевого финансирования данного проекта министерством объявлен конкурс на общую сумму 3,9 млрд тенге.
Для наполнения массивов данных для «KazLLM» консорциумом, вузами и государственными органами ведется передача данных в информационно-аналитическую систему «Smart Data Ukimet».
Планируется представить первую версию «KazLLM» в декабре текущего года.
Comments