Цифрландырудағы жетістік: KazLLM үлкен тілдік моделі пайдаланушыларға қолжетімді болады

96

Қазақстанда қазақ, ағылшын, орыс және түрік тілдерінде 148 миллиард токен негізінде үйретілген KazLLM үлкен тілдік моделі әзірленді. Бұл модель Назарбаев Университетінің Ақылды жүйелер және жасанды интеллект институты (ISSAI) командасымен ҚР ЦДИАӨМ және ҚР ҒЖБМ қолдауымен және үйлестіруімен жасалды.

Қазақстан Республикасы Цифрлық даму, инновациялар және аэроғарыш өнеркәсібі министрлігінің мәліметінше, аталмыш модель ғылыми қауымдастық, стартаптар мен ірі корпорациялар сияқты көптеген пайдаланушыларға қолжетімді болады. Мемлекет басшысының бастамасы бойынша KazLLM табиғи тілді өңдеу технологияларын түркітілдес кеңістікте дамытуға бағытталған ауқымды TurkLLM жобасының негізіне айналады. Тиісті келісім ТМҰ саммитінде қол қойылған.

Бұл жоба ұлттық AI инфрақұрылымын құрудағы маңызды кезең болып, Қазақстанның өңірлік технологиялық көшбасшы ретіндегі мәртебесін растайды. Жобаны іске асыру жасанды интеллекттің алдыңғы қатарлы құралының құрылуымен қатар, жасанды интеллект саласындағы адам капиталының өсуі мен дамуына ықпал етті.

Жобаға Тіл Қазына, «ҰАТ» АҚ, Maqsut Narikbayev University және басқа да институттар секілді лингвистикалық және ғылыми-өндірістік ұйымдар өз үлестерін қосты.

«KazLLM моделінің ашық кодты нұсқасының іске қосылуы Қазақстанның жасанды интеллект экожүйесін дамытудағы маңызды қадам болып табылады. Бұл бастама біздің инновацияларды қолдауға және технологиялық прогреске ықпал ететін ғылыми жетістіктерді ілгерілетуге деген ұмтылысымызды көрсетеді.Бұл заманауи модель әрбір қазақстандық үшін қолжетімді және инклюзивті цифрлық қызметтерді қамтамасыз етіп, цифрлық теңсіздікті жоюға көмектесетініне сенімдімін», – деп атап өтті министр Жаслан Мәдиев.

Модель 148 миллиард токен негізінде үйретілді. 8 миллиард және 70 миллиард параметрлері бар екі нұсқа әзірленді. Олар жасанды интеллект саласында жаңа өнімдер әзірлеудің негізі болып табылады және сапасы мен дәлдігі бойынша ұқсас модельдерден асып түседі.

Алғашқы кезеңде KazLLM әзірлеушілер, стартаптар мен компаниялар үшін ашық қолжетімді болады, бұл оның негізінде өнімдер мен қызметтер құруды ынталандырады. Әртүрлі жобаларға модельді жылдам интеграциялауға көмектесетін егжей-тегжейлі нұсқаулықтар дайындалды.

«Бұл модель Қазақстанның инновацияларға, тәуелсіздікке және өзінің технологиялық экожүйесінің өсуіне деген ұмтылысын көрсетеді. Біздің командамыз жоғары өнімді жүйелер мен шектеулі ресурстар ортасында оңтайландырылған Meta Llama архитектурасы негізінде 8 миллиард және 70 миллиард параметрлері бар KAZ-LLM екі нұсқасын дайындады. Осылайша, әзірлеушілер біздің модельді күрделі серверлерде де, ноутбуктерде де жүктеп, іске қоса алады», – деп түсіндірді Назарбаев Университетінің Ақылды жүйелер және жасанды интеллект институтының (ISSAI) директоры, профессор Хусейн Атакан Варол.

Ұлттық тілдік модельді жасау барысында Beeline Қазақстан және оның QazCode IT компаниясы негізгі серіктес болды. Kaz-RoBERTA сияқты тілдік модельдерді әзірлеудегі және шетелдік ұйымдармен серіктестікте шағын тіл топтары үшін жасанды интеллект шешімдерін жасаудағы тәжірибені біріктіре отырып, бұл компаниялар қазақстандықтар үшін инновациялық және қолжетімді модель жасауға айтарлықтай үлес қосты. 8 DGX H100 есептеу қуатымен қамтамасыз етілген серверді ұсыну оқу процесін айтарлықтай жеделдетіп, модельдің мүмкіндіктерін кеңейтті.

Салыстырмалы түрде алғанда, кәдімгі компьютерге 1 миллион фотосурет мұрағатын талдау үшін бірнеше күн қажет болса, KAZ-LLM-ді үйретуге пайдаланылған 8 DGX H100 сервері бұл тапсырманы бірнеше секундта орындай алады.

«Біздің командамыз Kaz-LLM моделін жасау және үйрету процесіне белсенді қатысты. Қазақ тілінің ерекшеліктерін ескеретін модельді жасау және 50 күндік есептеу жұмыстарын қамтитын күрделі процесс контексті жақсы түсінуге және пайдаланушылармен сапалы өзара әрекеттесуді қамтамасыз етуге мүмкіндік берді. Тестілеу модельдің мәдени ерекшеліктерді ескере отырып, техникалық тапсырмаларды тиімді орындайтынын көрсетті. Біз Kaz-LLM бүкіл Қазақстан үшін маңызды құралға айналып, тілдік цифрлық кедергілерді еңсеруге және аймақтағы цифрлық қызметтердің сапасын жақсартуға көмектесетініне сенімдіміз», – деп атап өтті QazCode компаниясының бас директоры Алексей Шаравар.

KazLLM — бұл қазақ тілінде мәтіндерді өңдеу, талдау және жасау үшін әзірленген заманауи жасанды интеллект тілдік моделі. Бұл қазақ тілінің цифрлық кеңістікте қолданылуын кеңейтуге, бизнеске, ғылымға және қоғамға қолдау көрсетуге бағытталған бірегей әзірлеме. Ол аударма және құжаттарды өңдеуден бастап, қарым-қатынасты автоматтандыруға дейінгі кең ауқымды тапсырмаларды орындай алады.

Ұлттық модель бизнеске чат-боттар, тұтынушыларды қолдау жүйелерін әзірлеуге, құжат айналымын автоматтандыруға және деректерді талдауға мүмкіндік береді. Мысалы, жергілікті банктер қазақ тіліндегі сұрауларды өңдеуді жеделдете алады, ал ритейл бұл модельді өз процестеріне енгізу арқылы пайдаланушы тәжірибесін жақсартады. Білім беру және ғылыми ұйымдар қазақ тілін үйренуге арналған қосымшалар мен ғылыми мәтіндерді талдау және студенттерге көмек көрсету құралдарын жасай алады. Медиа және контентпен айналысатындар жаңалықтар жасау, аударма сапасын жақсарту және мәтін жазуға арналған құралдарды жасау мүмкіндігіне ие болады.

KazLLM-ді пайдалану сілтемесі:

https://huggingface.co/collections/issai/issai-kazllm-10-6732d58c81bcaf177442c362

Жалпы, бүгінде БҰҰ бағалауынша еліміз цифрландыру саласында айтарлықтай жетістіктерге қол жеткізіп отыр. 193 мемлекет арасында Қазақстан 24-орында, сондай-ақ онлайн-қызметтер индексінде 10 көшбасшының қатарына кіреді. Мысалы, интернет арқылы мемлекеттік қызметтерге қол жеткізу 92%-ға жетті.

Елімізде биометриялық сәйкестендіру және QR-қолтаңба қызметтері енгізіліп жатыр, бұл электрондық қызметтерді алу үдерісін едәуір жеңілдеткен. 2024 жылы QR-кодтардың көмегімен 8 млн-нан астам қол қойылды, ал Digital ID жүйесі арқылы 18 млн-нан астам сәйкестендіру жүргізілді.2024 жылы еліміз IT-саласы қарқынды өсімді көрсетті. IT-компаниялардың саны 18 683-ке жетті. Соңғы үш жылда 16% өсім. Мәселен, елімізде «Astana Hub» халықаралық технология паркі жұмыс істейді. Бүгінде ол Қазақстандағы IT-стартаптарды дамыту орталығы ретіндегі рөлін айқындады. Технопарк 1,5 мыңнан астам қатысушыны біріктірді. Олардың ішінде 1102 отандық және 437 шетелдік компания бар. Қатысушылардың жалпы табысы 1,2 трлн теңгені құрады. Өсім соңғы бес жылда 31 есе артты. Биыл экспорттық түсім 140 млрд теңгеден асты. Төрт жылдағы жылдық өсім де 10 еседен астам. Осылайша, «Astana Hub» өңірдегі жетекші технопарк ретінде өз позициясын нығайтуда.

Еліміздің IT-қызметтерінің экспорты қарқынды өсімді көрсетіп отыр. 2023 жылы оның көлемі 529 млн дол­лар­ға жетті, ал 2024 жылдың бірінші жарты­жылдығында бұл көрсеткіш 305 млн доллардан асты. Яғни Мемлекет бас­шы­сының 2026 жылға қарай IT-қызмет экспортын 1 млрд долларға дейін жеткізу жөніндегі тапсырмасы сенімді түрде орын­далып жатыр. Ол үшін елімізде жетекші сарапшылар мен инвес­торлар тартылатын түрлі акселерациялық бағ­дар­ламалар жүргізіліп отыр. Осылай­ша, коммерциялық өнімдердің сыртқы нарықтарға шығуын жеңілдетеді.

2024 жылы IT-мамандардың орташа айлық жалақысы 54%-ға өсіп, 673 мың теңгеге жетті, бұл білікті кадрларға және бәсекеге қабілетті еңбек жағдайларына жоғары сұранысты көрсетеді. IT-саладағы жұмыспен қамту 12%-ға артып, 187 мың адамға жетті. Мемлекет басшысының тапсырмасын іске асыру мақсатында жеке IT-мектептерді ынталандыру арқылы 2025 жылға қарай 20 мың IT-маман даярлауға бағыт­талған «Tech Orda» бағдарламасы іске қосылды. Жеке IT-мектептер ақпа­рат­тық технология­лар саласында 16 мың­нан астам сарапшы дайындады.

Айта кетсек, Алматыда 2025 жылдың 31 қаңтары мен 1 ақпаны аралығында Digital Almaty 2025: «Industrial AI: жаңа дәуірге арналған технологиялар» атты халықаралық цифрлық форумы өтеді.

Жетекші халықаралық алаңда ЕАЭО елдерінің инновациялық даму келешегі мен цифрлық күн тәртібін талқылау үшін ЕАЭО елдерінің мемлекеттік қайраткерлері, жетекші сарапшылар мен кәсіпкерлер бас қосады. VII форум аясында Industry 4.0 AI Battle – жасанды интеллект саласында үздік стартап үшін ауқымды сайыс, ІТ-экожүйе саласындағы жобалар туралы тәжірибе алмасып, ақпаратты бөлісетін ірі қазақстандық жер қойнауын пайдаланушылар, өнеркәсіптік стартаптар, технопарктер, технологиялық компаниялардың көрмесі жоспарланған.

Толық ақпарат алу және тіркелу үшін DigitalAlmaty.kz ресми сайтын бақылап, жаңалықтарды қарай отырыңыз. БАҚ өкілдерін аккредиттеу: Ләззат Сағындықова +77017776917, media@almatydigital.kz