16 Eyl 2024 4 min read

Yapay zeka ve Muhakeme?

OpenAI bildiğiniz gibi geçtiğimiz günlerde ChatGPT ailesinin yeni üyesini tanıttı.
OpenAI şirketinin belirttiğine göre yeni model cevaplamadan önce düşünebiliyor ve muhakeme yapabiliyor(muş).
Eğer yapay zeka gündemini yakından takip ediyorsanız günümüz yapay zekaların akıl yürütme ya da muhakeme gibi işleri yapamadığını, sadece eğitimlerinde öğrendikleri bir sonraki kelimeyi tahmin ettiklerini biliyorsunuz.
Fakat OpenAI ısrarla muhakeme sistemini geliştirdik diye belirtiyor.

📈 Katkılar ve Başarılar

OpenAI o1, yapay zekâ alanında önemli ilerlemeler kaydetti:

Rekabetçi Programlama: Codeforces platformundaki programlama sorularında %89'luk bir başarı oranı yakaladı.
Matematik Olimpiyatları: AIME 2024 sınavında, ABD’deki en iyi 500 öğrenci arasında yer aldı ve ABD Matematik Olimpiyatı (USAMO) barajını geçti.
Bilimsel Sorular: Fizik, biyoloji ve kimyadan oluşan GPQA benchmark’ında, insan düzeyindeki doktora seviyesini aşarak üstün bir performans sergiledi.

o1, zorlu akıl yürütme benchmark’larında GPT-4o’yu geride bırakıyor.

Bu yeni modelin, mevcut modeller kadar kolay kullanıma sahip olması için çalışmalar devam ederken, OpenAI o1-preview’ın erken bir versiyonu ChatGPT’de ve güvenilir API kullanıcılarına sunuldu.

🤖 Düşünce Zinciri ve Takviye Öğrenme

o1, zor sorulara yanıt vermeden önce detaylı bir düşünce zinciri kullanır. Takviye öğrenme (Reinforcement Learning) sayesinde, düşünce zincirini nasıl etkin bir şekilde kullanacağını ve stratejilerini nasıl geliştireceğini öğrenir:

Hataları Tanıma ve Düzeltme: Kendi hatalarını tespit edip düzeltebilir.
Problemleri Parçalama: Zor adımları daha basit parçalara bölebilir.
Alternatif Yaklaşımlar: Mevcut yöntem işe yaramadığında farklı stratejiler deneyebilir.

Bu süreç, modelin akıl yürütme yeteneğini önemli ölçüde artırır.

Greg Brockman’ın Görüşleri

OpenAI Başkanı ve CTO’su Greg Brockman, o1 ile ilgili düşüncelerini paylaştı:

“OpenAI o1 — soruları yanıtlamadan önce derinlemesine düşünmek için takviye öğrenme (Reinforcement Learning) ile eğitilmiş ilk modelimiz. Takımımızla gurur duyuyorum!”

“Bu, büyük fırsatlara sahip yeni bir paradigma. Hem niceliksel (örneğin, akıl yürütme metrikleri zaten bir adım önde) hem de niteliksel olarak (örneğin, düşünce zincirleri modelin zihnini sade bir İngilizce ile okumanıza olanak tanıyarak modelleri yorumlanabilir hale getiriyor) açıktır.”

“Bunu düşünmenin bir yolu, modellerimizin Sistem I düşüncesi yapması, düşünce zincirlerinin ise Sistem II düşüncesini açığa çıkarmasıdır. İnsanlar bir süre önce modele ‘adım adım düşün’ demenin performansı artırdığını keşfettiler. Ancak modeli bunu baştan sona deneme yanılma ile yapması için eğitmek, çok daha güvenilir ve Go veya Dota gibi oyunlarda gördüğümüz gibi son derece etkileyici sonuçlar üretebilir.”

“o1 teknolojisi için henüz erken günler. Güvenilirlik, halüsinasyonlar ve kötü niyetli saldırılara karşı dayanıklılık gibi konularda aktif olarak araştırdığımız yeni güvenlik fırsatları sunuyor. Örneğin, modele politikalar hakkında düşünce zinciri aracılığıyla akıl yürütme yaptırarak güvenlik metriklerimizde büyük bir artış gördük.”

“Doğruluğu da daha fazla iyileştirme için büyük bir alana sahip — örneğin, lansman gönderimizden, modelimiz bu yılki rekabetçi programlama Olimpiyatı’nda (IOI) insan koşulları altında (her problem için 50 gönderim) %49. persentil / 213 puan elde etti. Ancak her problem için 10.000 gönderime izin verildiğinde, model 362.14 puan — altın madalya eşiğinin üzerinde — elde etti. Yani model, ilk bakışta göründüğünden daha da büyük çıktılar üretebiliyor.”

📝 Değerlendirmeler ve Sonuçlar

o1, GPT-4o’ya kıyasla geniş bir yelpazede üstünlük sağladı:

Matematik Performansı: AIME 2024'te tek bir denemede %74 başarı, 64 deneme arasında konsensüsle %83 başarı ve gelişmiş bir puanlama fonksiyonu ile %93 başarı elde etti.
Bilimsel Uzmanlık: GPQA diamond testinde, doktora seviyesindeki insan uzmanların performansını aşarak bir ilke imza attı.
Görsel Anlama: Görüntü algılama özellikleriyle, MMMU’da %78.2 puan alarak insan uzmanlarla rekabet edebildi.
MMLU Alt Kategorileri: 57 alt kategoriden 54'ünde GPT-4o’yu geride bıraktı.

o1, çeşitli benchmark’larda üstün performans gösteriyor.

Kodlama Yeteneği: o1, 2024 Uluslararası Bilgisayar Olimpiyatı’nda (IOI) 213 puan alarak %49'luk bir dilimde yer aldı. Her problem için 50 gönderim hakkı vardı. Ancak, gönderim sayısı her problem için 10.000'e çıkarıldığında, model 362.14 puan alarak altın madalya eşiğini aştı. Bu, modelin görünenden daha yetenekli olduğunu gösteriyor.

🔒 Güvenlik ve Hizalama

Düşünce zinciri akıl yürütmesi, modelin güvenliği ve insan değerlerine hizalanması için yeni fırsatlar sunar:

Politika Entegrasyonu: Model, güvenlik kurallarımızı ve prensiplerimizi düşünce zincirine entegre ederek öğrenir.
Dayanıklılık ve Uyumluluk: Güvenlik kuralları hakkında akıl yürüterek, dağıtım dışı senaryolara karşı daha dayanıklı hale gelir.
Gözlemlenebilir Düşünme: Düşünce zinciri sayesinde, modelin düşünme sürecini daha okunaklı bir şekilde gözlemleyebiliriz.

Bu yaklaşımla, o1-preview, güvenlik değerlendirmelerinde ve modelin güvenli reddetme sınırlarını test eden en zorlu iç benchmark’larımızda önemli iyileşmeler gösterdi.

🚀 Sonuç ve Gelecek Planları

o1, yapay zekâ akıl yürütmesinde önemli bir adım atıyor. İlerleyen süreçte, bu modelin daha gelişmiş sürümlerini yayınlamayı planlıyoruz. Yeni akıl yürütme yeteneklerinin, modellerimizi insan değerlerine ve prensiplerine daha iyi hizalamamızı sağlayacağına inanıyoruz.

o1 ve haleflerinin, bilim, kodlama, matematik ve ilgili alanlarda yapay zekâ için birçok yeni kullanım alanının önünü açacağını düşünüyoruz. Kullanıcıların ve API geliştiricilerinin, günlük çalışmalarını nasıl geliştirebileceğini keşfetmeleri için heyecanlıyız.

Kaynak: https://openai.com/index/learning-to-reason-with-llms/