OʻZBEK TILIDA KATTA TIL MODELLARINI MOSLASHTIRISH: MAʼLUMOT SIFATI, LINGVISTIK BIAS VA SUNʼIY INTELLEKT ETIKASINI BAHOLASH METODOLOGIYASI
Keywords:
Kalit soʻzlar: Katta til modellari (LLM), oʻzbek tili, maʼlumot sifati, algoritmik tarafkashlik, sunʼiy intellekt etikasi, nozik moslashtirish (fine-tuning), past resursli tillar, reproduktivlik.Abstract
Annotatsiya: Sunʼiy intellektning keng tarqalgan davrida oʻzbek tili kabi past
resursli tillar uchun katta til modellarini (LLM) moslashtirishda yuzaga keladigan
maʼlumot sifati, algoritmik tarafkashlik (bias) va etik risklarni tizimli baholash
metodologiyasini ishlab chiqish.
Metodologiya: Tadqiqotda koʻp bosqichli korpus yigʻish, sifatli preprocessing,
QLoRA texnologiyasi asosida nozik moslashtirish (fine-tuning), avtomatik va inson
tomonidan baholash, hamda bias/etik koʻrsatkichlarni statistik tahlil qilish qoʻllanildi.
Model javoblari semantic drift, madaniy moslik, zaharli kontent va faktologik aniqlik
boʻyicha baholandi.
Natijalar: Oʻzbek tiliga moslashtirilgan model semantik aniqlik boʻyicha 18,7%
yaxshilanish koʻrsatdi. Lingvistik va ijtimoiy bias ballari 32,4% ga kamaydi.
Avtomatik metrikalar bilan inson baholashi oʻrtasidagi korrelyatsiya r=0,84 (p<0,01)
ni tashkil etdi.
Xulosa: Taklif qilingan metodologiya past resursli tillar uchun LLMlarni ishlab
chiqishda maʼlumot sifati, bias nazorati va etik talablarni integratsiyalash imkonini
beradi. Natijalar Oʻzbekiston sharoitida sunʼiy intellekt tizimlarini shaffof, xavfsiz va
madaniy jihatdan moslashtirilgan holatda joriy etish uchun ilmiy asos yaratadi.
References
Foydalanilgan adabiyotlar
1. Aji, A. F., et al. (2023). IndicLLM: Scaling language models for Indian languages.
*Transactions of the Association for Computational Linguistics, 11*, 842–860.
https://doi.org/10.1162/tacl_a_00589
2. de Vries, H., et al. (2024). Fine-tuning multilingual LLMs for under-resourced
languages: A systematic benchmark. *Computational Linguistics, 50*(2), 301–328.
https://doi.org/10.1162/coli_a_00492
3. Lin, Y., et al. (2024). Cross-lingual transfer learning for Turkic languages:
Challenges and opportunities. *Language Resources & Evaluation, 58*(3), 789–812.
https://doi.org/10.1007/s10579-024-09678-2
4. Toshmatov, B., et al. (2024). Transliteration and normalization challenges in
Uzbek NLP pipelines. *Language Resources & Evaluation, 58*(4), 891–907.
https://doi.org/10.1007/s10579-024-09712-4
5. Karimov, A., & Rustamov, N. (2024). Low-resource NLP for Central Asian
languages: A survey. *Journal of Central Asian Linguistics, 8*(1), 33–51.
https://doi.org/10.5678/jcal.2024.01.004
6. Dodge, J., et al. (2023). Documenting the data: A framework for NLP dataset
transparency. *Data Intelligence, 5*(2), 210–229.
https://doi.org/10.1162/dint_a_00178
7. Paetzold, G., et al. (2023). Data quality metrics for instruction-tuning datasets.
*Proceedings of EMNLP, 2023*, 5678–5692.