Перша українська велика мовна модель (LLM) запрацює в бета-тестуванні навесні 2026 року, повідомили в Мінцифрі.

На основі цієї технології з’являться українські ШІ-чати та цифрові асистенти для державних сервісів і бізнесу, зазначили в Мінцифрі. Вона працюватиме як ChatGPT або Gemini, тільки на базі українських даних.

Хто створює модель і на чому вона працюватиме

Технічним партнером став «Київстар». Компанія фінансує та веде розробку, а після завершення передасть мовну модель державі. Основою для моделі стали моделі Gemma від Google. Їх адаптують під українську мову та контекст.

На якому етапі створення моделі

Зараз команда працює над підготовкою даних для навчання мовної моделі. Їх збирають у державних установах, медіа, університетах і наукових організаціях. Частина текстів досі існує лише в паперовому вигляді, тому їх потрібно оцифрувати.

Також створили комітет експертів, який працює в чотирьох напрямах: технічному, правовому, культурно-історичному та мовному. Експерти розробляють систему тестування якості моделі. Додатково готують юридичні правила роботи з даними, щоб навчання моделі відповідало вимогам безпеки й авторського права.

Що зроблять уже у січні
  • Першу базу текстів для навчання мовної моделі
  • Покращений токенізатор, який розбиватиме слова на елементи. Це дозволить моделі обробляти українську мову швидше та продуктивніше, кажуть в Мінцифрі
  • Власну систему оцінки якості та безпеки моделі
  • Також запустять голосування в «Дії», щоб українці обрали назву для мовної моделі

   

В Україні почали розробляти національну велику мовну модель (LLM) у березні 2025 року. Її натренують виключно на українських даних, що дозволить враховувати контекст, діалекти й терміни. Це важливо з міркувань національної безпеки, адже уряд не може впливати на зміст іноземних мовних моделей, які можуть містити російську пропаганду.

Обкладинка: Unsplash, Igor Omilaev