20 Haziran 2024

Yapay öğrenme ve istatistik gözünden EURO 2024: Hesaplamalara göre olası şampiyon kim, Türkiye'nin durumu ne?

Modelin takım takım maç tahminlerine baktığımızda, ilk haftanın sonunda Ukrayna-Romanya, Belçika-Slovakya ve Slovenya-Danimarka maçları hariç sonuçların doğru bir şekilde tahmin ettiği görülüyor

Futbol severler için yılın en keyifli dönemlerinden birini yaşıyoruz bu aralar. Geçtiğimiz hafta Almanya'da başlayan ve Türkiye'nin de yer aldığı 2024 Avrupa Futbol Şampiyonası, bilinen adıyla EURO 2024, şu ana kadar seyir zevki açısından iyi bir turnuva oluyor.

Teknolojik gelişmelerin ve ilerlemelerin pek çok alanda olduğu gibi elbette futbol sporuna da etkileri ve katkıları oldu, olmaya devam ediyor. Özellikle futbol veri tabanlarının oluşturulması, daha sonra bu verilerin bilgisayarlarca işlenebilir ve analiz edilebilir formatlarda sunulması, futbolu sadece futbolla ilgilenenler için değil, aynı zamanda veri analizi yapabilen araştırmacılar için de ilgi çekici kıldı. Araştırmalar denince aklınıza sadece akademik araştırmalar gelmesin. Bugün aklınıza ilk gelen tüm futbol takımlarının kendilerine ait irili ufaklı bir veri ekibi var ve gerek uzun vadeli gerek kısa vadeli matematiksel modeller kullanarak birtakım analizler gerçekleştirip, elde ettikleri sonuçlar doğrultusunda gerek saha içi gerek saha dışı çeşitli aksiyonlar alıyorlar.

Futbol ve veri analizi bu denli iç içe bir hale bürünmüşken, Euro 2024 de bu ilgiden kaçamazdı şüphesiz. Gerek turnuvanın başlangıcından çok önce, gerek turnuvanın başlamasına kısa bir zaman kala akademik ve/veya bireysel çapta yapay öğrenme ve/veya makine öğrenmesi ve/veya istatistiksel öğrenme ve/veya olasılıksal modeller kullanılarak turnuvaya dair analizler yapıldı, tahminler paylaşıldı.

Bir önceki paragrafta bahsettiğim çalışmalardan bir tanesi 9 Haziran günü yayımlandı. Dortmund Teknik Üniversitesi, Münih Teknik Üniversitesi, Lüksemburg Üniversitesi ve Molde Üniversitesinden araştırmacılardan oluşan bir ekip, turnuvanın olası gidişatını simüle ederek maç sonuçlarını ve nihai şampiyonu tahmin edebilecek, yapay öğrenme ve istatistiksel öğrenmelere dayanan hibrit bir model oluşturdu.

Geliştirilen bu model, dört ana kaynaktan gelen bilgileri birleştiren bir yapay öğrenimi topluluğuna, birden fazla modelin sonuçlarının birleşiminden meydana gelen model yapısına topluluk denir, dayanıyor: Takımların tarihsel maçlarına dayanan güç tahminleri, 28 uluslararası bahisçiden elde edilen bahis oranları, oyuncuların kulüp ve milli takım performanslarına dayanan ortalama oyuncu puanları ve takım ve ülke özellikleri (örneğin, piyasa değeri veya GSYİH). Oluşturulan bu hibrit modelin eğitimi için 2004'ten 2020'ye kadar olan Avrupa Şampiyonası turnuvalarının sonuçları kullanılmış ve mevcut bilgilere uygulanarak UEFA Euro 2024 için tahminler yapılmış.

Tahmin sürecinde ise işlemler tam olarak şöyle ilerliyor. İlk olarak model, turnuvadaki tüm olası maçlar için her milli takım için beklenen gol sayısını tahmin ediyor ve bu sayede her maç için kazanma, berabere kalma veya kaybetme olasılıkları, istatistikteki Poisson dağılımı kullanılarak hesaplanıyor.

Poisson dağılımı nedir?

Bu noktada Poisson dağılımı nedir ve niye kullanılır biraz açmak gerekiyor. Futbol bağlamında, goller ve köşe vuruşları gibi olaylar genellikle rastgele ve öngörülemez bir şekilde gerçekleşiyor gibi görünür. Ancak bu görünürdeki bu kaos, aslında matematiksel olarak hesaplanabilir bir belirsizliği barındırır ve Poisson dağılımı bu hesaplama için kullanılan istatistiksel dağılımın adıdır.

Olasılık teorisi ve istatistikte, Poisson dağılımı, belirli bir zaman veya mekân aralığında, bilinen sabit bir ortalama oranla ve önceki olaydan bağımsız olarak gerçekleşen belirli sayıda olayın meydana gelme olasılığını ifade eden bir kesikli olasılık dağılımıdır.

Bu dağılımı karakterize eden parametre lambda olarak adlandırılır. Yine futbol bağlamında gol sayısı ya da başka bir metrik lambda değeri olarak kullanılır ve bu değer üzerinden bir olasılık hesabı yapılır.

Eldeki veriye en uygun lambda değeri nasıl seçilir?

Eldeki veriye en uygun lambda değerini seçmek oldukça önemli bir işlemdir, çünkü eğer hatalı bir parametre değeri seçilir ve tüm analiz onun üzerinden yürütülürse elde edilen sonuçlar hatalı olacaktır.

En iyi parametre değeri olmak için parametre uzayı adını verdiğimiz bir küme içerisinde birçok aday değer yer alır. Bu değerler arasından en uygununu bulmak için bir optimizasyon hesaplaması yapılır ve bu hesaplama sonunda Poisson dağılımı için en iyi lambda değeri ilgilendiğiniz verinin ortalama değeridir.

Ne demek istediğimi bir örnekle açıklayayım. Olasılık hesabı yaparken kullanmak istediğiniz gösterge gol sayısı olsun ve elinizde de her ülkenin son 50 maçta her maç attığı gol sayısı olsun. Her bir ülke için olasılık hesabı yaparken kullanılan lamba değeri o 50 maçlık veri setindeki her ülkenin ortalama gol değeri olacaktır.

Bu açıklama sonrası tekrar çalışmanın içeriğine dönersek eğer, olasılık hesabı yapan bu model tüm takım kombinasyonları için 100.000 kez tekrarlanarak her takım için kazanma olasılıkları belirleniyor. Sonuçlar, Fransa'nın yüzde 19.2, İngiltere'nin yüzde 16.7 ve Almanya'nın yüzde 13.7 olasılıkla turnuvanın favorileri olduğunu gösterirken, Türkiye'nin şansını yüzde 1.2 olarak görüyor.

Modelin takım takım maç tahminlerine baktığımızda ise ilk haftanın sonunda Ukrayna-Romanya, Belçika-Slovakya ve Slovenya-Danimarka maçları hariç sonuçların doğru bir şekilde tahmin ettiği görülüyor.

Her ne kadar model, Fransa ve İngiltere'yi favori gösterse de, futbolun içinde barındırdığı dinamikler ve sürprizler her zaman sonucu etkileyebilir. Kylian Mbappe'nin sakatlığı ya da Mert Müldür'ün jeneriklik bir golü gibi faktörler, tahmin edilemeyen anları yaratabilir. Tarihte de buna benzer sürprizler gördük; 2004'te Yunanistan'ın, 2008'de Türkiye'nin, 2012'de İtalya'nın ve 2016'da Portekiz'in beklenmedik başarıları gibi. 14 Temmuz günü geldiğinde, sayıların söylediği mi yoksa futbolun kendi dinamikleri mi kazanacak, bunu hep birlikte göreceğiz. Ancak kesin olan tek şey, futbolseverlerin eğlenceli ve heyecan dolu bir turnuva izleyeceği gerçeği.

Ozancan Özdemir kimdir?

Ozancan Özdemir, lisans ve yüksek lisans derecelerini ODTÜ İstatistik Bölümü'nden aldı. Yüksek lisans döneminde aynı zamanda Anadolu Üniversitesi yerel yönetimler bölümünden mezun oldu.

Bir süre ODTÜ İstatistik Bölümü'nde araştırma görevlisi olarak çalışan Özdemir, şu günlerde Groningen Üniversitesi Bernoulli Enstitüsü'nde finans ve yapay zekâ alanındaki doktora çalışmalarını sürdürüyor.

Pandemi döneminde bir grup öğrenciyle birlikte gönüllü bir oluşum olan VeriPie adlı güncel veri gazetesini kurdu.

Araştırma alanları yapay öğrenme ve derin öğrenme uygulamaları, zaman serisi analizi ve veri görselleştirme olan Ozancan Özdemir, ayrıca yerel yönetimler ve veriye dayalı politika geliştirme konularında da çeşitli platformlarda yazılar yazmaktadır.

Yazarın Diğer Yazıları

Chomsky'nin ölümü (!)

Dünya Ekonomik Forumu'na göre, yanlış bilgi (misinformation-mezenformasyon) global risklerden biri olarak kabul ediliyor ve şüphesiz sosyal medya bu riski yaratan ve/veya büyüten en temel faktörlerin başında geliyor