Жасанды интеллект технологиялары негізінде табиғи тілді кешенді оқытуға бола ма?

147

Табиғи тілдерді өңдеу жүйелері бүгінде контент орталықтары сияқты салаларда сұранысқа ие, онда көптеген жағдайда адам-операторды әртүрлі сұрақтарға жауап бере алатын жасанды интеллект жүйелері “боттар” алмастыра алады. Тілді оқытудың міндеттері және машиналық аударма міндеті өте ұқсас міндеттер болып табылады, ең жоғары деңгейде екі тапсырма да тілді, мәтіндерді, сөйлемдерді түсіну мақсатына ұмтылады.  Мұндай жүйелердің қазақ тілінде болуы жақын арада түрлі автоматтандырылған зияткерлік жүйелерді енгізу үшін аса қажет болады.

Жобаның мақсаты

Жұмыстың мақсаты мемлекеттік қазақ тіліне баса назар аудара отырып, оқыту бойынша тиімді платформаларды зерттеу бойынша теориялық және әдіснамалық жұмыс қана емес, машиналық аударма, машиналық оқыту және сөйлеуді тануды қоса алғанда, жасанды интеллект жүйелерін пайдалана отырып, қазақ тілін оқытудың тиімді жүйелерін құру үшін әдістерді, алгоритмдерді және аспаптық құралдарды әзірлеу болып табылады.

Жобаның міндеттері

Осы мақсаттарға қол жеткізу үшін келесі негізгі міндеттерді шешу қажет:

* Пайдаланушыларды оқыту міндеті үшін де, жасанды интеллект міндеттері үшін де көлемді мәліметтер жиынтығын құру – машиналық аударма, сөйлеуді тану және терең оқыту. Мұндай корпустар оқыту қызметтері мен қосымшалары үшін де, машиналық оқыту және аударма үшін де қажетті және маңызды ақпарат көзі болып табылады.
* Интернеттен қазақ тіліндегі мәтіндік ақпарат массивтерін, сондай-ақ аудармалары бар мәтіндерді алу және сақтау үшін Интернет беттерінің “краулинг” механизмдері мен алгоритмдері әзірленеді, олар әрі қарай жұмыс істеу үшін қажетті мәтіндерді арнайы қоймаға жинап, кейін осы корпусты түрлі белгілер бойынша белгілейді.
* параллель мәтіндер массивінен параллель сөйлемдер корпусын автоматты режимде құруға мүмкіндік беретін параллель мәтіндерден параллель жұп сөйлемдерді бөліп көрсету үшін “теңестіру” интеллектуалды алгоритмін әзірлеу.
* Мәтіндерді өңдеу, оларды талдау және барлық қосымшалар мен қызметтердегі барлық бастапқы жұмыстар үшін автоматтандырылған морфологиялық анализатор әзірлеу
* Қазақ тілін оқытудың сервистері мен модульдерін машиналық аударма және сөйлеуді тану жүйелерімен әзірлеу және интеграциялау.
* Алынған құралдар мен алгоритмдерді іс жүзінде пайдалану үшін ақпараттық жүйе құру
2021 жыл бойынша алынған жоба нәтижелері
Зерттеу тақырыбы бойынша бар әдебиеттер мен қолжетімді онлайн дереккөздер зерттеленді. Зерттеудің негізгі бағыты таңдап алынды және нақтыланды. Зерттеу тақырыбы бойынша талдамалық шолу жүзеге асырылды.
Мемлекеттік тіл корпусы әзірленді. Қазақ тіліне қатысты электронды сөздіктер мен анықтамалықтар құрастыруға қолданылатын интеллектуалды талдаудың алгоритмі әзірленді
Оқыту жүйелері мен машиналық аударма жүйелерін құру міндеттері үшін параллель мәтіндерді (көлемі кемінде 3 миллион сөйлем) теңестіру әдісі мен алгоритмі әзірленді.
Әзірленген алгоритмдер тәжірибелік эксперименттермен және сапаны бағалаумен тексерілді және жұмыстардың жаңалығы халықаралық конференцияларда жарияланымдар мен баяндамалармен сынақтан өткізілді.