Samsung, Yapay Zekâ Benchmark Çözümü TRUEBench’i Tanıttı

Samsung Electronics, yapay zekâ verimliliğini ölçmek üzere Samsung Research tarafından geliştirilen tescilli benchmark çözümü TRUEBench’i (Trustworthy Real-world Usage Evaluation Benchmark) duyurdu.
TRUEBench, büyük dil modellerinin (LLM) gerçek iş dünyası senaryolarındaki performansını ölçmek için geliştirildi. Çözüm; içerik oluşturma, veri analizi, özet çıkarma ve çeviri gibi yaygın kurumsal görevleri 10 ana kategori ve 46 alt kategoride değerlendiriyor. Çok dilli test setleri ve diyalog tabanlı senaryolar sayesinde daha gerçekçi bir ölçüm sunuyor.
Samsung Electronics Dijital Deneyimler CTO’su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, şunları söyledi:
“Samsung Research, gerçek dünyadaki yapay zekâ deneyimleriyle müşterilerine güçlü bir uzmanlık ve rekabet avantajı kazandırıyor. TRUEBench’in üretkenlik işlerinde değerlendirme standartları oluşturacağına inanıyoruz.”
Mevcut benchmark’ların eksiklerini gideriyor
Günümüzde çoğu yapay zekâ benchmark’ı yalnızca İngilizce odaklı ve tek turlu soru-cevaplarla sınırlı kalıyor. Bu da gerçek iş ortamlarını yansıtma konusunda yetersizlik yaratıyor. TRUEBench, 12 dilde çalışan 2.485 test setiyle bu açığı kapatıyor ve diller arası senaryolara da olanak tanıyor.
İnsan + yapay zekâ iş birliğiyle geliştirilmiş kriterler
TRUEBench’in değerlendirme süreci, insan yorumcular ve yapay zekânın birlikte çalıştığı çapraz doğrulama yöntemine dayanıyor. Bu sayede kişisel önyargılar minimize ediliyor, kriterler sürekli rafine edilerek daha hassas puanlamalar elde ediliyor.
Açık kaynak üzerinden erişim
TRUEBench’in veri örnekleri ve puanlama tabloları Hugging Face üzerinde erişime açıldı. Kullanıcılar burada farklı modelleri karşılaştırabilir, performans ve yanıt sürelerine ilişkin kapsamlı verileri inceleyebilir.