OʻZBEK TILIDA KATTA TIL MODELLARINI MOSLASHTIRISH:  MAʼLUMOT SIFATI, LINGVISTIK BIAS VA SUNʼIY INTELLEKT  ETIKASINI BAHOLASH METODOLOGIYASI

Topivoldiyev Abbosbek; Turobjonov Shohjahon

Authors

Topivoldiyev Abbosbek Author
Turobjonov Shohjahon Author

Keywords:

Kalit soʻzlar: Katta til modellari (LLM), oʻzbek tili, maʼlumot sifati, algoritmik tarafkashlik, sunʼiy intellekt etikasi, nozik moslashtirish (fine-tuning), past resursli tillar, reproduktivlik.

Abstract

Annotatsiya: Sunʼiy intellektning keng tarqalgan davrida oʻzbek tili kabi past
resursli tillar uchun katta til modellarini (LLM) moslashtirishda yuzaga keladigan
maʼlumot sifati, algoritmik tarafkashlik (bias) va etik risklarni tizimli baholash
metodologiyasini ishlab chiqish.
Metodologiya: Tadqiqotda koʻp bosqichli korpus yigʻish, sifatli preprocessing,
QLoRA texnologiyasi asosida nozik moslashtirish (fine-tuning), avtomatik va inson
tomonidan baholash, hamda bias/etik koʻrsatkichlarni statistik tahlil qilish qoʻllanildi.
Model javoblari semantic drift, madaniy moslik, zaharli kontent va faktologik aniqlik
boʻyicha baholandi.
Natijalar: Oʻzbek tiliga moslashtirilgan model semantik aniqlik boʻyicha 18,7%
yaxshilanish koʻrsatdi. Lingvistik va ijtimoiy bias ballari 32,4% ga kamaydi.
Avtomatik metrikalar bilan inson baholashi oʻrtasidagi korrelyatsiya r=0,84 (p<0,01)
ni tashkil etdi.
Xulosa: Taklif qilingan metodologiya past resursli tillar uchun LLMlarni ishlab
chiqishda maʼlumot sifati, bias nazorati va etik talablarni integratsiyalash imkonini
beradi. Natijalar Oʻzbekiston sharoitida sunʼiy intellekt tizimlarini shaffof, xavfsiz va
madaniy jihatdan moslashtirilgan holatda joriy etish uchun ilmiy asos yaratadi.

References

Foydalanilgan adabiyotlar

1. Aji, A. F., et al. (2023). IndicLLM: Scaling language models for Indian languages.

*Transactions of the Association for Computational Linguistics, 11*, 842–860.

https://doi.org/10.1162/tacl_a_00589

2. de Vries, H., et al. (2024). Fine-tuning multilingual LLMs for under-resourced

languages: A systematic benchmark. *Computational Linguistics, 50*(2), 301–328.

https://doi.org/10.1162/coli_a_00492

3. Lin, Y., et al. (2024). Cross-lingual transfer learning for Turkic languages:

Challenges and opportunities. *Language Resources & Evaluation, 58*(3), 789–812.

https://doi.org/10.1007/s10579-024-09678-2

4. Toshmatov, B., et al. (2024). Transliteration and normalization challenges in

Uzbek NLP pipelines. *Language Resources & Evaluation, 58*(4), 891–907.

https://doi.org/10.1007/s10579-024-09712-4

5. Karimov, A., & Rustamov, N. (2024). Low-resource NLP for Central Asian

languages: A survey. *Journal of Central Asian Linguistics, 8*(1), 33–51.

https://doi.org/10.5678/jcal.2024.01.004

6. Dodge, J., et al. (2023). Documenting the data: A framework for NLP dataset

transparency. *Data Intelligence, 5*(2), 210–229.

https://doi.org/10.1162/dint_a_00178

7. Paetzold, G., et al. (2023). Data quality metrics for instruction-tuning datasets.

*Proceedings of EMNLP, 2023*, 5678–5692.

https://doi.org/10.18653/v1/2023.emnlp-main.401

OʻZBEK TILIDA KATTA TIL MODELLARINI MOSLASHTIRISH: MAʼLUMOT SIFATI, LINGVISTIK BIAS VA SUNʼIY INTELLEKT ETIKASINI BAHOLASH METODOLOGIYASI

Authors

Keywords:

Abstract

References

Downloads

Published

Issue

Section

How to Cite