İngiltere Yapay Zeka Güvenlik Enstitüsü ile Stanford, Berkeley ve Oxford’un da aralarında bulunduğu 14 kurumdan 29 araştırmacı, “Önemli Olanı Ölçmek: Büyük Dil Modeli Kıyaslamalarında Yapı Geçerliği” başlıklı ortak bir çalışma yürüttü.
Bilim insanları, yapay zekanın alt alanları olan doğal dil işleme ve makine öğrenimi konularında önde gelen konferanslardan elde edilen 445 değerlendirme testini sistematik biçimde inceledi. Araştırma sonucunda, testlerin neredeyse tamamında “sonuçların geçerliliğini zedeleyebilecek hatalar” bulunduğu belirlendi.
Çalışmanın baş yazarı Oxford İnternet Enstitüsü’nden Andrew Bean, The Guardian gazetesine yaptığı açıklamada, bu testlerin büyük teknoloji şirketlerinin geliştirdiği yapay zeka modellerini değerlendirmede kullanıldığını söyledi. Bean, “Bu testler, yapay zekayla ilgili tüm iddiaların temelini oluşturuyor. Ortak tanımlar ve sağlam ölçüm yöntemleri olmadan modellerin gerçekten gelişip gelişmediğini anlamak neredeyse imkânsız hale geliyor.” ifadelerini kullandı.



