Sierra'dan TAU-bench: Yapay Zeka Ajanlarını Değerlendirmede Yeni Bir Standart

OpenAI yönetim kurulu üyesi Bret Taylor ve Google AR/VR uzmanı Clay Bavor tarafından kurulan müşteri deneyimi yapay zeka girişimi Sierra, konuşma yapay zeka ajanlarının performansını değerlendirmek için TAU-bench adlı yeni bir kriteri tanıttı.

Bu yeni kriter, yapay zeka ajanlarını daha gerçekçi şekilde değerlendirmeyi amaçlıyor; bunu gerçekleştirmek için LLM simüle edilmiş kullanıcılarla çoklu diyaloglar üzerinden karmaşık görevleri tamamlama yeteneklerini test ediyor. İlk sonuçlar, işlev çağırma veya ReAct gibi basit LLM yapılarıyla oluşturulan yapay zeka ajanlarının bile nispeten basit görevlerle zorlandığını gösteriyor ve daha sofistike ajan mimarilerine ihtiyaç duyulduğunu vurguluyor. TAU-bench, genellikle tek tur insan ajan etkileşimlerine odaklanan ve gerçek dünya senaryolarının inceliklerini yakalayamayan mevcut kriterlerin sınırlamalarını ele almak için tasarlandı.

Yeni kriter, ajanları karmaşık politikaları takip etme, mantık yürütme ve uzun ve karmaşık bağlamlar boyunca bilgi tutma yeteneklerine göre değerlendiriyor. Ayrıca, yeni unsurların kolayca eklenmesini sağlayan modüler bir çerçeve sunuyor; bunlar arasında alanlar, veritabanı girdileri, kurallar, API'lar, görevler ve değerlendirme metrikleri bulunuyor. Bu yaklaşım, bir yapay zeka ajanının performansını ve güvenilirliğini daha kapsamlı ve objektif bir ölçüm sağlıyor. TAU-bench'in duyurulması önemli bir adım, çünkü mevcut yapay zeka kriterlerine meydan okuyor ve daha gelişmiş ve gerçekçi değerlendirme yöntemlerine duyulan ihtiyacı vurguluyor.

381 görüntüleme

21 Haz 2024