Dolar 41,8298
Euro 48,4663
Altın 5.550,01
BİST 10.356,48
Adana Adıyaman Afyon Ağrı Aksaray Amasya Ankara Antalya Ardahan Artvin Aydın Balıkesir Bartın Batman Bayburt Bilecik Bingöl Bitlis Bolu Burdur Bursa Çanakkale Çankırı Çorum Denizli Diyarbakır Düzce Edirne Elazığ Erzincan Erzurum Eskişehir Gaziantep Giresun Gümüşhane Hakkari Hatay Iğdır Isparta İstanbul İzmir K.Maraş Karabük Karaman Kars Kastamonu Kayseri Kırıkkale Kırklareli Kırşehir Kilis Kocaeli Konya Kütahya Malatya Manisa Mardin Mersin Muğla Muş Nevşehir Niğde Ordu Osmaniye Rize Sakarya Samsun Siirt Sinop Sivas Şanlıurfa Şırnak Tekirdağ Tokat Trabzon Tunceli Uşak Van Yalova Yozgat Zonguldak
Bursa 17°C
Az Bulutlu
Bursa
17°C
Az Bulutlu
Pts 19°C
Sal 20°C
Çar 19°C
Per 18°C

Samsung, Yapay Zekâ Benchmark Çözümü TRUEBench’i Tanıttı

Samsung, Yapay Zekâ Benchmark Çözümü TRUEBench’i Tanıttı
3 Ekim 2025 12:42
6
A+
A-

Samsung Electronics, yapay zekâ verimliliğini ölçmek üzere Samsung Research tarafından geliştirilen tescilli benchmark çözümü TRUEBench’i (Trustworthy Real-world Usage Evaluation Benchmark) duyurdu.

TRUEBench, büyük dil modellerinin (LLM) gerçek iş dünyası senaryolarındaki performansını ölçmek için geliştirildi. Çözüm; içerik oluşturma, veri analizi, özet çıkarma ve çeviri gibi yaygın kurumsal görevleri 10 ana kategori ve 46 alt kategoride değerlendiriyor. Çok dilli test setleri ve diyalog tabanlı senaryolar sayesinde daha gerçekçi bir ölçüm sunuyor.

Samsung Electronics Dijital Deneyimler CTO’su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, şunları söyledi:
“Samsung Research, gerçek dünyadaki yapay zekâ deneyimleriyle müşterilerine güçlü bir uzmanlık ve rekabet avantajı kazandırıyor. TRUEBench’in üretkenlik işlerinde değerlendirme standartları oluşturacağına inanıyoruz.”

Mevcut benchmark’ların eksiklerini gideriyor

Günümüzde çoğu yapay zekâ benchmark’ı yalnızca İngilizce odaklı ve tek turlu soru-cevaplarla sınırlı kalıyor. Bu da gerçek iş ortamlarını yansıtma konusunda yetersizlik yaratıyor. TRUEBench, 12 dilde çalışan 2.485 test setiyle bu açığı kapatıyor ve diller arası senaryolara da olanak tanıyor.

İnsan + yapay zekâ iş birliğiyle geliştirilmiş kriterler

TRUEBench’in değerlendirme süreci, insan yorumcular ve yapay zekânın birlikte çalıştığı çapraz doğrulama yöntemine dayanıyor. Bu sayede kişisel önyargılar minimize ediliyor, kriterler sürekli rafine edilerek daha hassas puanlamalar elde ediliyor.

Açık kaynak üzerinden erişim

TRUEBench’in veri örnekleri ve puanlama tabloları Hugging Face üzerinde erişime açıldı. Kullanıcılar burada farklı modelleri karşılaştırabilir, performans ve yanıt sürelerine ilişkin kapsamlı verileri inceleyebilir.

ETİKETLER: , ,
YORUMLAR

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.