Google DeepMind Yapay Zekayı Anlamaya Yardımcı Olacak

Büyük dil modelleri (LLM'ler) son yıllarda büyük ilerlemeler kaydetti. Ancak, nasıl çalıştıklarını anlamak hala zor ve yapay zeka laboratuvarlarındaki bilim insanları bu "kara kutuyu" anlamaya çalışıyorlar. Bu konuda umut verici bir yaklaşım olan seyrek otoenkoder (sparse autoencoder - SAE), bir sinir ağının karmaşık aktivasyonlarını daha küçük, anlaşılabilir bileşenlere ayırarak insan tarafından okunabilir kavramlarla ilişkilendirebiliyor.

Google DeepMind araştırmacıları, yeni makalelerinde JumpReLU SAE adında yeni bir mimari tanıttılar. Bu mimari, LLM'ler için SAE'lerin performansını ve yorumlanabilirliğini artırıyor. JumpReLU, LLM aktivasyonlarında bireysel özellikleri tanımlamayı ve izlemeyi kolaylaştırarak, LLM'lerin nasıl öğrendiğini ve düşündüğünü anlamaya yönelik bir adım olabilir.

SAE'ler, bir tür girdi verisini ara bir temsile kodlayan ve ardından orijinal formuna geri çeviren sinir ağlarıdır. JumpReLU SAE, aktivasyon fonksiyonunu değiştirerek bu işlemi iyileştirir. DeepMind'ın Gemma 2 9B LLM'inde yapılan testlerde, JumpReLU SAE'nin performansının diğer mevcut SAE mimarilerine göre üstün olduğu görüldü. Bu gelişme, LLM'lerin iç işleyişini anlamaya ve kontrol etmeye yardımcı olabilir, böylece önyargı ve toksisite gibi bazı eksikliklerin giderilmesine katkıda bulunabilir.

151 görüntüleme

27 Tem 2024