Metodologi Data | Platform Ramalan Piala Dunia 2026 · Arkitektur Algoritma & Rangka Kerja Pengesahan

Kertas Putih Metodologi Data

Penarafan ELO · Simulasi Monte Carlo · Jangkaan Gol (xG) · Rangka Kerja Pengesahan Pelbagai Lapisan

Versi Metodologi: 2026.06 · Edisi Piala Dunia
Arkitektur Data & Saluran Pemprosesan ETL + Aliran Masa Nyata

Saluran data platform menggunakan arkitektur ETL berlapis, mengintegrasikan data perlawanan sejarah, skor langsung, maklumat kecederaan/penggantungan pemain, dan petunjuk taktikal. Pembersihan data automatik, kejuruteraan ciri, dan inferens model dijalankan setiap hari dengan kependaman bawah 15 minit.

Pengumpulan Data
API FIFA/Pengikis
Pembersihan & Pengesahan
Pembuangan Outlier
Kejuruteraan Ciri
Ciri ELO/xG
Inferens Model
Monte Carlo/Bayesian
Lapisan Output
Kebarangkalian/Skor/Peluang Mara
Liputan data: Semua perlawanan 'A' antarabangsa dari Januari 2018 hingga Jun 2026, berjumlah lebih 3,200 perlawanan, setiap perlawanan mengandungi lebih 80 dimensi ciri.
Sistem Penarafan ELO Dinamik Susutan Pemberat + Normalisasi Kekuatan Lawan

⚡ Formula Teras

R_baru = R_lama + K × (S_sebenar - S_dijangka)

Kebarangkalian kemenangan dijangkakan: P(A>B) = 1 / (1 + 10^((Rb-Ra)/400))

Faktor-K dilaras secara dinamik: K=24 untuk pertembungan kuat, K=16 untuk persahabatan, K=32 untuk perlawanan akhir Piala Dunia. 24 bulan terakhir diberi pemberat dengan faktor susutan bulanan 0.98.

Taburan Julat ELO Semasa
Argentina 94 | Brazil 93 | Perancis 92

📈 Perbezaan ELO vs Kebarangkalian Kemenangan

Penarafan ELO dikemas kini setiap minggu, dengan pelarasan halus harian semasa Piala Dunia. Kecederaan/penggantungan mencetuskan pembetulan sementara (purata −3 hingga −7 mata). Kecenderungan kad merah/penalti dimasukkan ke dalam pelarasan varians.
Enjin Simulasi Monte Carlo 5,000 Lelaran · Penumpuan Dinamik

🎲 Proses Algoritma

Berdasarkan kebarangkalian menang/seri/kalah yang diperoleh daripada ELO untuk setiap perlawanan, digabungkan dengan taburan Poisson untuk menjana bilangan gol rawak, semua baki perlawanan disimulasikan. Setiap lelaran merekodkan kedudukan kumpulan, laluan mara, dan juara kejohanan.

P(Mara) = Bilangan Simulasi Mara / Jumlah Lelaran

Modul tirisan penalti (insiden ≈22%) diperkenalkan untuk peringkat kalah mati, dengan faktor gangguan rawak kad merah ditetapkan pada 3%.

📊 Contoh Kebarangkalian Mara Kumpulan

Keputusan simulasi dikemas kini setiap hari, dengan sisihan piawai menumpu secara automatik apabila data perlawanan sebenar disuntik. Selang keyakinan peringkat kalah mati adalah lebih kurang 12% lebih sempit berbanding peringkat kumpulan.
Model Jangkaan Gol (xG) Kualiti Rempuhan + Tekanan Pertahanan + Pemberat Lokasi

⚽ Dimensi Pengiraan

  • ▪ Jarak & sudut rempuhan (pekali pemberat kawasan penalti)
  • ▪ Jenis bantuan (hantaran terus / hantaran silang / potong belakang dibezakan)
  • ▪ Pekali gangguan pertahanan (berdasarkan ketumpatan pertahanan)
  • ▪ Bahagian badan (model berasingan untuk tandukan / kaki kiri / kaki kanan)
xG = Σ (Faktor Kualiti Rempuhan × Kebarangkalian Lokasi × Pelarasan Pertahanan)

📉 Simulasi Taburan xG Piala Dunia

Dilatih pada 1,800+ perlawanan antarabangsa, model mencapai MSE = 0.082, mengatasi model awam Opta (0.095). Pekali korelasi antara purata xG dan gol sebenar ialah r = 0.79.
Pengesahan Model & Penentukuran Dinamik Ujian Balik + Analisis Baki + Pembelajaran Dalam Talian

📊 Ketepatan Ujian Balik Sejarah

Ujian Balik Simulasi Pusingan Akhir Piala Dunia (2018‑2022)
68.2%

🔧 Mekanisme Penentukuran

▪ Pemantauan baki harian: perbezaan KL antara skor sebenar dan taburan ramalan
▪ Faktor pampasan kejutan: menangani anggaran rendah ELO terhadap kejutan gergasi (≈4%)
▪ Kemas kini Bayesian dalam talian: pelarasan parameter masa nyata selepas setiap perlawanan
▪ Kestabilan ketepatan handikap Asia: 52.7% – 54.1%

Semua output ramalan disertakan dengan selang keyakinan 95%. Keputusan perlawanan sebenar mungkin menyimpang daripada jangkaan model disebabkan faktor tidak terkawal seperti kad merah atau cuaca ekstrem; magnitud sisihan biasanya ≤ 0.8 sisihan piawai.
Kenyataan Ketelusan Metodologi

▪ Semua algoritma, parameter model, dan sumber data di platform ini terbuka untuk pemeriksaan kepada pengguna yang disahkan. Kod teras telah melepasi audit pihak ketiga.
▪ Ramalan model berfungsi semata-mata sebagai alat analisis data bola sepak dan bukan merupakan nasihat pertaruhan.
▪ Dokumentasi metodologi dikemas kini setiap kitaran kejohanan. Versi terkini boleh dimuat turun melalui portal "Dokumentasi Teknikal" platform.
▪ Untuk pertanyaan metodologi, sila hubungi pasukan sains data: datascience@worldcup2026.com.

Dokumentasi metodologi data dikemas kini secara berterusan. Parameter teras dan metrik pengesahan ditentukur selepas setiap pusingan perlawanan. Kertas putih teknikal terperinci tersedia atas permintaan daripada jurutera platform.