Қазақша аудионы мәтінге айнал­дыратын жасанды интеллектке негізделген қосымша бар

33

Түркістан облысының тұрғындарының назарына жасанды интеллекттің артықшылығы жөнінде ақпараттарды ұсынамыз. Тіл тек адамзаттың коммуникация құралы болған күн – тарих қойнауында, енді темір де адамша сөйлеуді үйрене бастады. Жасанды интеллект өміріміздің түрлі аспектілеріне сыналап еніп, қарым-қатынас пен байланыс тәсілін өзгертіп жатыр. Алгоритмдер мен лингвистиканың тоғысуы тіл мен жасанды интеллект арасындағы күрделі байланысты бекіте түсуде. Қазақ тілі де көштен қалмай жаңа дәуірге ақырындап қадам басып барады.  Жақында Kazakh Named Entity Recognition атты қазақша аудионы мәтінге айнал­дыратын жасанды интеллектке негізделген қосымша шықты. Бұған дейін, керісінше мә­тінді оқып беретін функция қолданысқа ен­ген еді. Жобаларды Назарбаев университеті жа­нындағы Жасанды интеллект пен ақылды жүйе­лер институтының ғалымдары әзірлеген.

Kazakh Named Entity Recognition жо­­­басына тоқталар болсақ, қазақ тіліндегі атау­лы мәндерді анықтауда (АМА) бұл алғаш­қы зерттеулер емес. Бұған дейін елімізде бас­қа ғылыми топтар мен зерттеу ұйымдары та­биғи тілді өңдеудің бұл түріне өз күш-жіге­рін салғанын атап өткен жөн. Қазақ тілінде ды­бысталған сөздерді мәтінге айналдыру бойын­ша аннотацияланған корпустар құрас­тырыл­ды. Алайда, осыған қарамастан, біздің білуі­мізше, құрастырылған корпустардың еш­қайсысына ашық түрде қол жеткізу мүмкін емес еді. Бұған қоса, қазақ тілінде АМА зерт­теу­лерінің ешқайсысында қазақ тілінің ерек­шелігі ескерілген аннотациялау нұсқаулығы бол­мады. Осыған байланысты жұмыс кезінде мә­селе туындады. Сөйтіп, аннотацияланған корпустардың жо­ғын ескеріп, зерттеуіміз арқылы осы салада бар олқылықтың орнын толтыруға және осы­лайша одан әрі дамытуға үлес қосуға үміт­тен­ген болатынбыз. Нәтижесінде, қазақ тіліндегі АМА-ға ар­нал­ған KazNERD корпусын құрдық. Ол 25 атау­лы мән түрін, 112 мыңнан астам сөйлемді және 136 мыңнан астам аннотацияны қамти­ды. Корпусты құрастыру үшін АМА-ға арнал­ған қазақ тіліндегі тұңғыш нұсқаулық әзір­лен­ді.  Осы кор­пус пен соның негізінде дыбысталған атау­лы мәндерді анықтай алатын автомат­тан­дырылған модель жобасымен былтыр Фран­цияның Марсель қаласында өткен LREC атты сөйлеу және табиғи тілді өңдеу техно­ло­гияларына арналған әлемдегі танымал және беделді конференция өтті.