Дербес тіл моделін әзірлеу – жасанды интеллект саласындағы болашағы зор бағыттың бірі

64

Жасанды интеллект дәуіріндегі қазақ тілінің мәселесі де – өзекті. Әлемдік тілдік модельдерде қазақ тілінің сапалы деңгейде қолданылуы, қазақша мәтінді автоматты тану, интернет контентті қазақшалау, қазақ тіліне қатысты IT шешімдерді бір жолға түсіру қажеттілігін көріп жүрміз.

Түптің түбінде жасанды интеллектінің қазақ тілін толық игеруіне баса назар аударуымыз керек. Бұл мәселе бойынша әзірге нақты бір қадам бар. Ол – AI негізінде ұлттық тіл моделі іске қосу үдерісі.

Жалпы, жоспар бойынша елімізде жасанды интеллект саласында жыл сайын 1000 маман дарялануы керек. Мемлекет басшысының айтуынша, алдағы уақытта кейбір отандық жоғары оқу орындарында «Google» және «Huawei» халықаралық компанияларының тиісті курстары өтпек. Корея мен Қытайдың жоғары оқу орындарымен білім беру және мамандарды бірлесіп даярлау бойынша келісім жасалды. Жасанды интеллект саласында жыл сайын 100 стартап іске қосу бойынша өршіл міндет қойылып отыр.

Мемлекет басшысының айтуынша, дербес тіл моделін әзірлеу – жасанды интеллект саласындағы болашағы зор бағыттың бірі. Қазір қазақ тілі моделін жасау жұмысы қолға алынып жатыр. Осы жұмысқа сегіз ғылыми-зерттеу институты мен жоғары оқу орнынан тұратын консорциум тартылды. Бұл бастама цифрлық дербестігімізді қамтамасыз етеді. Сондай-ақ мемлекеттік тілді дамытуға мықты серпін бермек.

– Жасанды интеллект көмекшілері арасында тілді білу бойынша ресми градация жоқ, өйткені модельдер тез және біркелкі емес. Қазіргі тіл моделін қолайлы деңгейде оқыту үшін кем дегенде 10-100 ТБ таза мәтіндік деректер қажет деп есептеймін. Интернетте мұндай көлем жоқ, өйткені желідегі қазақ тіліндегі материалдардың 70 пайызы қате жазылған. Сондықтан ғылыми орталықтардың көмегінсіз мұндай жұмыс мүмкін емес. Логикалық тізбек құратын лингвистер қажет, олар бәрін кодқа оңтайландырады. Бұл үлкен қаржылық инвестицияны қажет етеді. Ақпарат сақталатын бұлтты серверлер әлі де қажет, – дейді практик-профессор және NeoAI компаниясының негізін қалаушы Айдын Маутан.