ЖИ-ді қазақшалау немесе толыққанды қазақ тіліндегі ЖИ моделін жасап шығуға миллиондаған қаржы кетуі мүмкін. Осы ретте, «Елімізде қазақ тіліндегі ақпаратты тұтынатын халықтың үлесі жоғары ма? Интернетте қазақша мәлімет іздеуге деген сұраныс жеткілікті деңгейде ме?» деген сұрақтар туындайды.
2023-2029 жылдарға арналған Тіл саясатын дамыту тұжырымдамасында Қазақстандықтардың 81%-ы мемлекеттік тілді білетіні және 2029 жылға қарай бұл көрсеткіш 84%-ға жететіні айтылған. Яғни, шамамен 16.2 миллион қазақстандық қазақ тілінде ақпарат іздейді. Онымен қоса, әлемнің 40-қа жуық елдерінде тұрып жатқан 5 миллион отандасымызды қосатын болсақ, әлеуетті қолданушылардың саны 20 миллионнан асып түсетіні анық. Бұл – жақсы нарық. Осы нарықта сәтті жұмыс істеп жатқан компанияның бірі – Яндекс.
Яндекс компаниясының Қазақстандағы Іздеу жүйесін дамыту департаментінің директоры Александр Поповскийден Яндекс өнімдерінде қазақ тіліне қаншалықты көңіл бөлінетінін сұрастырдық.
Біздің негізгі сервистеріміздің барлығында қазақ тілін таңдау мүмкіндігі бар. Біз қазақ тіліндегі функциялар неғұрлым көп болса, адамдарға соғұрлым ыңғайлы болатынына және олардың қазақ тілін негізгі тіл ретінде жиі таңдайтынына сенеміз. Мысалы, Яндекс.Картада интерфейсінен бөлек, барлық топонимдер мен ұйымдардың атаулары қазақ тіліне аударылған. Жұмыс істеп тұрған дәріхананы табу үшін іздеуге «дәріханалар тәулік бойы» деп жазу жеткілікті. «Кинопоиск» сайтында қазақ тіліндегі фильмдердің үлкен жинағы бар, сонымен қатар біз халықаралық хиттерді қазақ тіліне өзіміз аударамыз. Іздеу жүйесінде біз қазақ тілінде жылдам жауаптар ұсынамыз. Әрине, қазақ тіліндегі алғашқы виртуалды ассистент болған Алисаны атап өтпеу мүмкін емес, – дейді Александр Поповский.
Сондай-ақ дауыстық көмекші «Яндекс. Алисаға» қазақ тілін қалай үйретіп жатқаны туралы түсіндірді.
Алисаны қазақ тілін түсінуге және сөйлеуге үйрету үшін біз машиналық оқытуды қолдандық. Оқыту деректерін ана тілінде сөйлейтіндер мен кәсіби редакторлардың көмегімен жинадық, сондай-ақ диалогтарды қолмен аударып, жүздеген сағаттық аудиожазбаларды талдадық. Біз қазақ тіліндегі өнімдер мен қызметтердің маңыздылығын түсінеміз және Алисаны осы бағытта дамытуды жалғастырамыз. Атап айтқанда, қазақ тіліндегі Алисаны қолдайтын құрылғылар мен қосымшалардың санын көбейтуді жоспарлап отырмыз. Сондай-ақ, Алисаның моделін жетілдіріп, оның жауаптарының Қазақстанның ақпараттық және мәдени контекстіне сәйкес болуын қамтамасыз етуді жоспарлаймыз. Қазақ тіліндегі виртуалды ассистент қазіргі уақытта мобильді Браузерде және Яндекс қосымшасында қолжетімді. Пайдаланушылар Алисаға кез келген сұрақ қойып, Қазақстанның қалаларындағы ауа райы туралы сұрап, әзіл айтуын өтініп немесе жай ғана сөйлесе алады.
Біз қолданушылармен дұрыс және үйреншікті ауызекі қазақ тілінде қарым-қатынас жасау үшін бар күшімізді саламыз. Біріншіден, қазақ және орыс тілдерін бірдей жақсы білетін ана тілінде сөйлейтін кәсіби редакторларды тартамыз. Екіншіден, жауаптардың сапасын тексерудің көпсатылы жүйесін енгіздік. Үшіншіден, оқыту процесінде нақты сұрауларды пайдаланамыз. Мысалы, Алисаға қазақ тілін үйрету үшін, қазақ тілінде сөйлейтіндердің жазған шамамен 1000 сағаттық сөйлеу фрагменттерін жинадық. Алисамен диалог сценарийлерін әзірлеу барысында кәсіби лингвистерді тартып, әртүрлі жағдайлар үшін дұрыс тұжырымдарды табуға көмектесті. Бұл Алисамен қазақ тілінде қарым-қатынасты лингвистикалық тұрғыдан дұрыс әрі қолданушылар үшін табиғи етуге мүмкіндік берді, – дейді Александр Поповский.
Қазақстандағы іздеу жүйесіне жауапты маманнан Яндекс сервисіне қазақ тілін енгізу барысында туындаған қиындықтар қалай шешіліп жатқанын және қазақ тіліндегі контенттің сапасы туралы сұрадық.
Қазақ тілінде өнімдер мен қызметтер жасаудағы негізгі қиындық – ЖИ-ді қазақ тіліне үйрету және қазақ тіліндегі контент тапшылығы мәселесі. Мысалы, қазақ тіліндегі жылдам жауаптарды – іздеу жолағының астында пайда болатын қысқаша жауаптарды – жасау үшін көптеген деректерді өңдеу қажет болды. Бұл үшін нейрожелілік технологиялар мен машиналық оқытуды қолдандық, өйткені ақпаратты бірнеше дереккөзден бірден іздеу керек болды. Тар ауқымды сұрақтарға қазақ тілінде жауап табу жиі қиындық туғызады. Қызметтерімізді қазақстандықтар үшін ыңғайлы ету мақсатында, біз іздеуге қазақ тіліне нейрожелілік аударма жасалған мақалаларды қостық. Осылайша, біз мемлекеттік тілдегі пайдалы материалдар санын 15 миллионнан астамға арттыра алдық. Біз әрқашан контент жасаушыларға өнімдерін қазақ тіліне аударуды ұсынамыз. Осы арқылы интернеттегі қазақ тілді контент санын толықтырып отырамыз, – деп түсіндірді ол.
Яндекс өз қызметтерін қазақ тіліне бейімдеу саласындағы қызметтерін үнемі жетілдіріп отыратыны белгілі болды.
Біздің басты мақсатымыз – қазақстандықтар үшін қызметтердің бейімделуі мен қолжетімділігін қамтамасыз ету. Нәтижелер айқын: қазақ тіліндегі сұраулар саны екі есе өсті және қазір жалпы сұраулардың 15%-ын құрайды. Біз бұл көрсеткішпен тоқтап қалмаймыз, – дейді Александр Поповский.
Ал YandexGPT ChatGPT-ден қазақ тілінде жұмыс істеу контекстінде несімен ерекшеленеді? Сондай-ақ қазақ тіліндегі YandexGPT коммерциялық нұсқасының бизнеске арналған негізгі артықшылықтары туралы сұрадық.
Біз қазақ тіліне арналған генеративті модель жасап жатырмыз. Ол қазақ тіліндегі жүздеген мың сұраулар мен жауаптар негізінде оқытылған, бұл әртүрлі тақырыптар мен сұхбат контексттерін қамтиды. Бұл модельге тілді және мәдени кодты жақсырақ түсінуге мүмкіндік береді. Жауаптардың дәлдігін арттыру үшін модельді біздің жергілікті ЖИ-тренерлер қосымша оқытуды жалғастыруда. Қазіргі уақытта қазақстандық бизнес үшін YandexGPT API-і орыс тілінде қолжетімді: оны чат-боттар мен ақылды көмекшілер жасау, бизнес-қосымшалар мен веб-сервистерде мәтіндік ақпаратты генерациялау, құрылымдау және жинақтау үшін қолдануға болады. YandexGPT-пен жұмысты жеңілдету үшін біздің мамандар нейрожеліні пайдалану үшін ең танымал сценарийлерге арналған дайын промпттар кітапханасын жинақтады, – деп түсіндірді Александр Поповский.