Abstract | Predviđanje sportskih procesa, vršeno na temelju iskustva ili znanja o određenom procesu i korištenjem informacija o događaju, zanimljivo je široj javnosti u vidu sportskog klađenja, a dostupnošću velikih količina podataka sve češće postaje i tema znanstvenih istraživanja. Osim uobičajenih statističkih metoda za analizu podataka, koristi se i strojno učenje kako bi se ostvarili što bolji rezultati predviđanja sportskih ishoda. Rezultati znanstvenih istraživanja o sportskim događajima posebno su zanimljivi ekspertima, trenerima, sportskim menadžerima i upravama sportskih klubova koji ih koriste u svrhu vrednovanja učinka igrača i momčadi, kod odabira igrača, identifikacije sportskih talenata, definiranja novih strategija, itd.
U disertaciji je tema istraživanja primjena metoda strojnog učenja u predviđanju sportskih ishoda. Osim pruženog detaljnog uvida u dostupnu literaturu i trenutna postignuća u području, napravljena je i analiza znanstvenih radova i ostvarenih rezultata istraživanja te analiza dostupnih podataka o sportskim događajima kako bi se identificiralo značajke od interesa za izradu modela predviđanja sportskih ishoda. U radu su opisani postojeći indeksi korisnosti te je predložen sveobuhvatni indeks korisnosti prilagodljiv različitim sportovima koji predstavlja temelj predložene metode. Ispitana je hipoteza da za učinkovit model nije potrebno poznavanje cijele povijesti, već je dovoljno pronaći reprezentativni dio povijesti koji se u ovom slučaju naziva optimalnim vremenskim prozorom. Također, zaključeno je kako je događaje moguće klasificirati u različite kategorije kako bi se primjenom prilagodljive metode predviđanja dobili još bolji rezultati.
U radu je predstavljen sveobuhvatni indeks korisnosti kojim se može, ovisno o konkretnom problemu, vrednovati učinak igrača ili momčadi, a koji se u kasnijim fazama koristi kao početna točka predviđanja ishoda. Predložen je i postupak optimiranja parametara sveobuhvatnog indeksa korisnosti korištenjem kombinacije linearnih i nelinearnih doprinosa, a predstavljen je i algoritam izračuna i prilagodbe optimalnog vremenskog prozora sa svrhom ograničavanja doprinosa događaja iz daleke prošlosti. Sam postupak optimiranja je iterativan, a osim pronalaska optimalnog doprinosa, uključuje i postupak definiranja redoslijeda optimizacije skupa korištenih značajki. Optimalni vremenski prozor predstavlja kontinuirani vremenski period koji se koristi u svrhu određivanja relevantnosti statističkih podataka o prethodnim događajima s ciljem pronalaska podskupa skupa za učenje koji najbolje opisuje trenutno stanje analiziranog procesa, a da pritom ne doprinosi posljedičnom smanjenju rezultata predviđanja. U radu je predložen način izračuna optimalnog vremenskog prozora na temelju prosječnog učinka ili prosječnog indeksa korisnosti. Proces izračuna i prilagodbe optimalnog vremenskog prozora uključuje dva koraka. Jedan je
131
izračun početnog vremenskog prozora, a drugi je prilagodba vremenskog prozora na eventualne promjene. U svrhu poboljšanja rezultata predviđanja predložen je i način identifikacije događaja povećane neizvjesnosti. Događaji povećane neizvjesnosti omogućuju primjenu prilagodljivog postupka u vidu određivanja razine složenosti i načina predviđanja s konačnim ciljem poboljšanja rezultata predviđanja. Predloženi model ispitan je korištenjem skupa podataka o utakmicama NBA lige. |
Abstract (english) | Although the sporting process prediction, which is based on the experience or knowledge of a particular process and the use of information about the event, is interesting to the general public mainly in the form of sports betting, the availability of large data amounts is increasingly becoming a topic of scientific research. Currently, in addition to the application of common statistical methods to analyze the available data, machine learning is used to achieve the best possible results in predicting sports outcomes. Scientific research results on sporting events are of particular interest to experts, coaches, sports managers and the management of sports clubs who use them to evaluate the players’ and team’s performance, to select players, to identify sporting talents, to define new strategies, etc.
The research topic of the dissertation pertains to the application of machine learning methods in predicting sports outcomes. In addition to providing a detailed insight into the available literature and the current achievements in the field, an analysis of scientific papers and research results was carried out, together with an analysis of the available data on sporting events, all in order to identify the features of interest for the development of models for predicting sports outcomes. The dissertation describes the existing efficiency indexes, specific to individual sports, which are used to assess the players’ and team’s performance; and it proposes a comprehensive efficiency index which can be used to assess performance in different sports. The proposed comprehensive efficiency index is the basis of the proposed predicting method. The hypothesis that was tested states that an effective model does not require the knowledge of the entire history, but that it is enough to find a representative part of history and use it to make predictions with satisfactory accuracy, which is achieved by applying the optimal time window. In the proposed method, the time window, in addition to being determined before the beginning of the application, is adjusted on the basis of the data present during the application itself, i.e. during the testing of the model.
The dissertation presents a comprehensive efficiency index which can, depending on the specific problem, evaluate the players’ or team’s performance, and which is to be used in the later stages as a starting point for predicting the outcome. A procedure of optimizing the parameters of the comprehensive efficiency index by using a combination of linear and nonlinear contributions is also proposed, and an algorithm for calculating and adjusting the optimal time window is presented in order to limit the event contribution from the distant past. The goal of the optimization process
133
is to reduce the dimensionality problem by identifying irrelevant and redundant features for the purpose of faster and more efficient execution of the prediction algorithm. The optimization process is iterative, and in addition to finding the optimal contribution, it also includes the process of defining the order of the optimization of the used set of features. The optimal time window is a continuous period used to determine the relevance of the statistical data of previous events. The goal of the optimal time window is to find a training subset that best describes the current state of the analyzed process, without consequently reducing the prediction results. The dissertation proposes a method of calculating the optimal time window based on the average process performance or average process efficiency index. The process of calculating and adjusting the optimal time window involves two steps – one is to define the initial time window, and the other is to adjust the time window in case of any changes. The proposed model was evaluated by using the NBA league game dataset. |