Bridging The Language Gap: Evaluating And Enhancing Slovak Language Support in Large Language Models

Táto štúdia skúma súčasnú úroveň podpory slovenčiny vo veľkých jazykových modeloch (LLM) a navrhuje praktické cesty k vysokokvalitnému a zdrojovo efektívnemu nasadeniu. Porovnal som niekoľko najmodernejších open-source a komerčných LLM na novovytvorenej sade 100 slovenských otázok pokrývajúcich gram...

Descrizione completa

Salvato in:
Dettagli Bibliografici
Autore principale: Skovajsa, Patrik
Natura: Capitolo di libro
Lingua:inglese
Soggetti:
Tags: Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
Descrizione
Riassunto:Táto štúdia skúma súčasnú úroveň podpory slovenčiny vo veľkých jazykových modeloch (LLM) a navrhuje praktické cesty k vysokokvalitnému a zdrojovo efektívnemu nasadeniu. Porovnal som niekoľko najmodernejších open-source a komerčných LLM na novovytvorenej sade 100 slovenských otázok pokrývajúcich gramatiku, sémantiku, štýl, slang, preklad a zložité konštrukcie. Odpovede som automaticky vyhodnotil pomocou OpenAI GPT-4o-mini. Výsledky ukazujú, že Google Gemma 3 27 B dosahuje takmer paritu s GPT-4o pri spustení na jednom špičkovom GPU, pričom prekonáva LLaMA 3.1 70 B o 27 percentuálnych bodov v celkovej kvalite a štvornásobne znižuje latenciu. Moje zistenia zdôrazňujú Gemma 3 27 B ako najlepší súčasný kompromis pre slovenčinu a zároveň zdôrazňujú strategickú potrebu špecializovaného slovenského LLM postaveného na otvorených zdrojoch.