Bridging The Language Gap: Evaluating And Enhancing Slovak Language Support in Large Language Models

Táto štúdia skúma súčasnú úroveň podpory slovenčiny vo veľkých jazykových modeloch (LLM) a navrhuje praktické cesty k vysokokvalitnému a zdrojovo efektívnemu nasadeniu. Porovnal som niekoľko najmodernejších open-source a komerčných LLM na novovytvorenej sade 100 slovenských otázok pokrývajúcich gram...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal: Skovajsa, Patrik
Format: Chapitre de livre
Langue:anglais
Sujets:
Tags: Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
Description
Résumé:Táto štúdia skúma súčasnú úroveň podpory slovenčiny vo veľkých jazykových modeloch (LLM) a navrhuje praktické cesty k vysokokvalitnému a zdrojovo efektívnemu nasadeniu. Porovnal som niekoľko najmodernejších open-source a komerčných LLM na novovytvorenej sade 100 slovenských otázok pokrývajúcich gramatiku, sémantiku, štýl, slang, preklad a zložité konštrukcie. Odpovede som automaticky vyhodnotil pomocou OpenAI GPT-4o-mini. Výsledky ukazujú, že Google Gemma 3 27 B dosahuje takmer paritu s GPT-4o pri spustení na jednom špičkovom GPU, pričom prekonáva LLaMA 3.1 70 B o 27 percentuálnych bodov v celkovej kvalite a štvornásobne znižuje latenciu. Moje zistenia zdôrazňujú Gemma 3 27 B ako najlepší súčasný kompromis pre slovenčinu a zároveň zdôrazňujú strategickú potrebu špecializovaného slovenského LLM postaveného na otvorených zdrojoch.