DeepSeekMath-V2 ürkütücü geliyor: İnsanları geride bıraktı

DeepSeekMath-V2, Putnam yarışmasında insan skorunu geçti ve IMO düzeyinde performans göstererek yapay zekada yeni dönem başlattı.
DeepSeekMath-V2 ürkütücü geliyor: İnsanları geride bıraktı

Çin merkezli yapay zeka şirketi DeepSeek kendi hatalarını tespit edip düzeltebilen gelişmiş matematiksel akıl yürütme modeli DeepSeekMath-V2’yi tanıttı. Model, yalnızca doğru yanıt vermekle sınırlı değil; aynı zamanda çözdüğü matematiksel problemlerin mantıksal bütünlüğünü de kontrol edebiliyor. Bu yetenek, yapay zekanın matematik gibi yüksek doğruluk gerektiren alanlarda insana yaklaşan değil, onu aşan bir noktaya ulaştığını gösteriyor. Modelin performansı, standart soru çözme becerisinin ötesine geçerek matematiğin temel yapı taşlarından biri olan ispat yöntemlerini doğru kurabilme yeteneğiyle öne çıkıyor. Uzmanlar bu gelişmenin yapay zekanın gelecekte bilimsel araştırma yöntemlerini nasıl dönüştürebileceğine dair önemli sinyaller verdiğini söylüyor.

Putnam yarışmasında tarihi başarı

089f9999-e7a9-49db-a4d1-32b0d37bfa5f.webp

DeepSeekMath-V2 dünyanın en prestijli lisans düzeyindeki matematik yarışmalarından biri olan 2024 William Lowell Putnam Mathematical Competition sorularında 120 üzerinden 118 puan almayı başardı. Bu puan, önceki yılın en yüksek insan skorunun 90 olması nedeniyle yapay zekanın artık yalnızca bir problem çözücü değil, aynı zamanda üst düzey bir matematikçi seviyesine ulaştığını ortaya koyuyor. Model, yalnızca Putnam’da değil, aynı zamanda 2025 Uluslararası Matematik Olimpiyatı (IMO) altın madalya seviyesinde performans sergileyerek yeteneklerini global ölçekli matematik organizasyonlarında da kanıtladı. Ayrıca 2024 Çin Matematik Olimpiyatı sorularında da benzer ölçüde üstün bir başarıya imza attı. Imperial College London’dan matematikçi Kevin Buzzard, “Artık yapay zekâ akıllı bir lisans öğrencisi kadar iyi matematik yapabiliyor, bu gerçekten heyecan verici.” diyerek geldiğimiz noktanın önemine vurgu yaptı.

Matematiksel mantık için yeni yaklaşım

Araştırma ekibine göre önceki matematik odaklı yapay zeka modelleri büyük oranda yalnızca son cevabın doğruluğuna odaklanıyordu. Ancak doğru sonuç, her zaman doğru muhakemenin yapıldığını göstermediği gibi, kimi zaman hatalı adımların şans eseri doğru çıktıya yol açtığı durumlar yaşanabiliyordu. Bu da özellikle matematiksel ispat gibi süreç odaklı alanlarda ciddi bir güvenilirlik sorunu yaratıyordu. Bilim insanları son yıllarda bu problem üzerinde yoğunlaşarak yalnızca sonuca değil, sürece de odaklanan modeller geliştirmeye yöneldi. UNSW Sydney’de yapay zeka destekli keşifler üzerine çalışan Tong Xie, DeepSeek ve Gemini’nin arkasındaki ekiplerin uzun süredir bu sorunu çözmeye çalıştığını ve mantıksal akıl yürütmeye verilen ödülün artık cevaptan daha değerli hale geldiğini belirtiyor.

DeepSeekMath-V2’nin en dikkat çekici özelliği, kendi ürettiği matematiksel ispatları yine kendisinin değerlendirebilmesi olarak öne çıkıyor. Modelde ilk olarak bir ispat üretici yer alıyor ve bu bileşen soruya adım adım çözüm üretiyor. Ardından devreye giren doğrulayıcı, ispatı mantıksal tutarlılık açısından inceliyor ve hata olup olmadığını belirlemek için bir puanlama sistemi kullanıyor. Daha sonra meta-doğrulama aşaması, doğrulayıcının yaptığı eleştirilerin gerçekten doğru olup olmadığını kontrol ederek modelin “halüsinasyon” üretme ihtimalini azaltıyor. Sonuç olarak ortaya çıkan yapı, ispat üretebilen, kendi hatalarını bulabilen ve zamanla kendi kendini geliştiren döngüsel bir yapay zeka sistemi oluşturuyor.

Model kendi kendini eğitiyor ve güçleniyor

DeepSeek ekibi modelin çalışma prensibini “kendini eğiten bir matematikçi” olarak tanımlıyor. Çünkü üretilen ispatlar doğrulayıcının değerlendirmesi sonucunda geri bildirim haline geliyor ve ispat üretici bu geri bildirimle yeniden daha güçlü çözümler üretmeyi öğreniyor. Üretilen daha zorlu ispat örnekleri zamanla doğrulayıcı için yeni eğitim verileri anlamına geliyor ve doğrulayıcı da bu sayede gittikçe güçleniyor. Böylece model her aşamada kendini daha karmaşık problemlere hazırlayabilen bir öğrenme ekosistemine dönüşüyor. Bu yaklaşım, yapay zekanın yalnızca verilen soruları çözmesinin değil, düşünme biçimini geliştirmesinin de önünü açıyor.

Model, 2025 Uluslararası Matematik Olimpiyatı sorularının altı tanesinden beşini çözerek yüzde 83,3 başarı oranına ulaştı. Bu oran, altın madalya seviyesinin üzerinde bir performans anlamına geliyor ve yapay zekanın olimpiyat seviyesinde düşündüğünü açıkça gösteriyor. Ancak model, hem 2025 sorularındaki hem de geçmiş yıllardaki en zor kategoride yer alan problemlerde başarı elde edemedi. Bu durum uzmanlara göre iki önemli mesaj veriyor: Birincisi yapay zekâ artık üst düzey matematik problemlerini çözebilecek güce sahip. İkincisi ise insan matematikçilerin hâlâ benzersiz yaratıcılık gerektiren problemler üretebildiği gerçeği. Bu boşluk, yapay zekanın gelecekte çözmesi gereken en kritik akademik zorluklardan biri olarak görülüyor.