OʻZBEK TILIDA KATTA TIL MODELLARINI MOSLASHTIRISH: MAʼLUMOT SIFATI, LINGVISTIK BIAS VA SUNʼIY INTELLEKT ETIKASINI BAHOLASH METODOLOGIYASI

Authors

  • Topivoldiyev Abbosbek Author
  • Turobjonov Shohjahon Author

Keywords:

Kalit soʻzlar: Katta til modellari (LLM), oʻzbek tili, maʼlumot sifati, algoritmik tarafkashlik, sunʼiy intellekt etikasi, nozik moslashtirish (fine-tuning), past resursli tillar, reproduktivlik.

Abstract

Annotatsiya: Sunʼiy intellektning keng tarqalgan davrida oʻzbek tili kabi past 
resursli  tillar  uchun  katta  til  modellarini  (LLM)  moslashtirishda  yuzaga  keladigan 
maʼlumot  sifati,  algoritmik  tarafkashlik  (bias)  va  etik  risklarni  tizimli  baholash 
metodologiyasini ishlab chiqish.   
  Metodologiya: Tadqiqotda koʻp bosqichli korpus yigʻish, sifatli preprocessing, 
QLoRA texnologiyasi asosida nozik moslashtirish (fine-tuning), avtomatik va inson 
tomonidan baholash, hamda bias/etik koʻrsatkichlarni statistik tahlil qilish qoʻllanildi. 
Model javoblari semantic drift, madaniy moslik, zaharli kontent va faktologik aniqlik 
boʻyicha baholandi.   
  Natijalar: Oʻzbek tiliga moslashtirilgan model semantik aniqlik boʻyicha 18,7% 
yaxshilanish  koʻrsatdi.  Lingvistik  va  ijtimoiy  bias  ballari  32,4%  ga  kamaydi. 
Avtomatik metrikalar bilan inson baholashi oʻrtasidagi korrelyatsiya r=0,84 (p<0,01) 
ni tashkil etdi.   
  Xulosa: Taklif qilingan metodologiya past resursli tillar uchun LLMlarni ishlab 
chiqishda maʼlumot sifati, bias nazorati va etik talablarni integratsiyalash imkonini 
beradi. Natijalar Oʻzbekiston sharoitida sunʼiy intellekt tizimlarini shaffof, xavfsiz va 
madaniy jihatdan moslashtirilgan holatda joriy etish uchun ilmiy asos yaratadi.   

References

Foydalanilgan adabiyotlar

1. Aji, A. F., et al. (2023). IndicLLM: Scaling language models for Indian languages.

*Transactions of the Association for Computational Linguistics, 11*, 842–860.

https://doi.org/10.1162/tacl_a_00589

2. de Vries, H., et al. (2024). Fine-tuning multilingual LLMs for under-resourced

languages: A systematic benchmark. *Computational Linguistics, 50*(2), 301–328.

https://doi.org/10.1162/coli_a_00492

3. Lin, Y., et al. (2024). Cross-lingual transfer learning for Turkic languages:

Challenges and opportunities. *Language Resources & Evaluation, 58*(3), 789–812.

https://doi.org/10.1007/s10579-024-09678-2

4. Toshmatov, B., et al. (2024). Transliteration and normalization challenges in

Uzbek NLP pipelines. *Language Resources & Evaluation, 58*(4), 891–907.

https://doi.org/10.1007/s10579-024-09712-4

5. Karimov, A., & Rustamov, N. (2024). Low-resource NLP for Central Asian

languages: A survey. *Journal of Central Asian Linguistics, 8*(1), 33–51.

https://doi.org/10.5678/jcal.2024.01.004

6. Dodge, J., et al. (2023). Documenting the data: A framework for NLP dataset

transparency. *Data Intelligence, 5*(2), 210–229.

https://doi.org/10.1162/dint_a_00178

7. Paetzold, G., et al. (2023). Data quality metrics for instruction-tuning datasets.

*Proceedings of EMNLP, 2023*, 5678–5692.

https://doi.org/10.18653/v1/2023.emnlp-main.401

Published

2026-05-12

How to Cite

Topivoldiyev Abbosbek, & Turobjonov Shohjahon. (2026). OʻZBEK TILIDA KATTA TIL MODELLARINI MOSLASHTIRISH: MAʼLUMOT SIFATI, LINGVISTIK BIAS VA SUNʼIY INTELLEKT ETIKASINI BAHOLASH METODOLOGIYASI . TADQIQOTLAR, 86(1), 193-201. https://journalss.org/index.php/tad/article/view/29540