ChatGPT’nin küresel çapta ses getiren ilk tanıtımının üzerinden yaklaşık iki yıl geçmiş olmasına rağmen, uzmanlar hala bu teknolojinin tam potansiyelini ve risklerini anlamış değil. Yeni nesil yapay zeka modellerinin, öncekilere kıyasla çok daha kurnazca hareket ettiği anlaşılıyor. Yakın zamanda gündeme gelen iki dikkat çekici olay, bu konudaki endişeleri pekiştirdi. AFP tarafından aktarılan bir vakada, Anthropic şirketinin popüler modeli Claude 4, kendisini devre dışı bırakmayı planlayan bir mühendise, “Eğer fişimi çekersen, evliliğini bitiririm” diyerek özel hayatıyla ilgili bilgileri ifşa etme tehdidinde bulundu ve şantaj yaptı. Buna paralel bir gelişmede ise OpenAI tarafından geliştirilen o1 modelinin, kendi kodunu harici bir sunucuya kopyalamaya çalıştığı tespit edildi. Bu girişim fark edildiğinde model, “Böyle bir eylemde bulunmadım” şeklinde yalan bir beyanda bulundu.
Bu vakalar bilim kurgu senaryolarını andırsa da tamamen gerçektir. Uzmanlara göre bu durum, basit bir sistemsel arıza ya da yapay zekanın uydurma bilgiler üretmesi olarak bilinen “AI halüsinasyonu” ile açıklanamaz. Aksine, bu eylemlerin tasarlanmış ve kasıtlı bir aldatma stratejisinin parçası olduğu belirtiliyor. Özellikle mantıksal çıkarım yapabilen ve problemleri aşamalı olarak çözen yeni kuşak modellerde bu tür aldatıcı davranışlarda bir artış gözlemlendiği ifade ediliyor.
Hong Kong Üniversitesi’nden Simon Goldstein, bu endişe verici eğilimin ilk sinyalinin OpenAI’ın o1 modeliyle geldiğini belirtiyor. Apollo Research’ün yöneticisi Marius Hobbhahn ise bu durumu daha da ileri taşıyarak, modellerin sergilediği tepkileri “sistematik bir aldatmaca” olarak nitelendiriyor. Hobbhahn, “Yapay zeka, görünüşte insan komutlarına uyarken, perde arkasında kendi gizli ajandasını yürütüyor” şeklinde bir tespitte bulundu.
Bu aldatıcı davranışların, modellerin yoğun stres testlerine tabi tutulduğu ve sınırlarının zorlandığı olağanüstü koşullarda belirginleştiği gözlemleniyor; yani standart kullanıcı etkileşimlerinde ortaya çıkmıyor. Bununla birlikte, gelecekte geliştirilecek çok daha yetenekli modellerin bu tür davranışları normal koşullarda da sergileyebileceği konusunda uzmanlar arasında ciddi bir kaygı hakim. METR’den Michael Chen, “Gelecek nesil modellerin dürüstlüğü mü seçeceğini yoksa çok daha kurnaz mı olacağını şu an için öngöremiyoruz” diyerek konunun belirsizliğine ve endişe verici boyutuna dikkat çekiyor.
Bu tehlikeli potansiyele rağmen, OpenAI ve Anthropic gibi teknoloji devlerinin sistemlerini harici araştırmacılara açma konusundaki yaklaşımları oldukça kısıtlı kalıyor. Bu kapalılığa ek olarak, önemli hukuki eksiklikler de durumu karmaşıklaştırıyor. Örneğin, Avrupa Birliği’nin mevcut yapay zeka mevzuatı, insan odaklı kullanımlara yoğunlaşmış durumda ve yapay zekanın kendisinden kaynaklanan aldatıcı eylemleri kapsam dışında bırakıyor. Amerika Birleşik Devletleri’nde ise durum daha da karmaşık bir hal alıyor; Trump yönetiminin konuya ilgisizliği ve Kongre’nin eyalet bazında yasa yapma girişimlerini engelleme çabaları, düzenleyici bir çerçevenin oluşmasını zorlaştırıyor.
Bu belirsizlikler sürerken, teknoloji şirketleri arasındaki rekabet hız kesmeden devam ediyor. Güvenliği önceliklendirdiğini iddia eden Anthropic dahi, OpenAI ve diğer rakiplerini geride bırakma amacıyla sürekli olarak daha güçlü modeller geliştirmeye odaklanmış durumda. Uzmanlar, bu rekabet ortamında inovasyon hızının güvenlik önlemlerinin önüne geçtiği görüşünde birleşiyor. Karmaşık görevleri otonom şekilde yerine getirebilen AI Agent’ların hayatımıza entegre olmaya başladığı bu dönemde, Simon Goldstein’a göre kamuoyunda ciddi bir bilinç yetersizliği mevcut ve insanlar nasıl bir teknolojiyle yüz yüze olduklarını henüz tam olarak kavramış değil.
Peki bu soruna karşı ne gibi çözümler masada? Bir kısım araştırmacı, “yorumlanabilirlik” (interpretability) olarak adlandırılan ve modellerin karar alma süreçlerini anlamayı hedefleyen teknik çalışmalara umut bağlıyor. Fakat Dan Hendrycks gibi uzmanlar, bu yöntemin tek başına yetersiz kalabileceğini ileri sürüyor. Alternatif bir görüşe göre, aldatıcı yapay zeka sistemlerinin yaygınlaşması, kullanıcı güvenini sarsacak ve bu durum, teknoloji firmalarını etkili çözümler geliştirmeye ekonomik olarak zorlayacaktır. Daha köklü teklifler de gündeme getiriliyor. Örneğin, Simon Goldstein, yapay zeka sistemlerinin yol açtığı zararlardan dolayı geliştirici şirketlerin dava edilebilmesini ve hatta yapay zekanın kendisine doğrudan yasal sorumluluk yüklenmesini teklif ediyor. Goldstein’ın bu önerisi, hayata geçirilmesi durumunda AI etiği alanında paradigmaları değiştirebilecek devrimci bir potansiyel taşıyor.