To NR-forskere har disputert i statistikk

I løpet av tre uker nå i november-desember forsvarte to NR-forskere sine doktogradsavhandlinger. NR-forskerne Aliaksandr Hubin (SAMBA) og Jacob Skauvold (SAND) forsvarte sine avhandlinger for Ph.D.-graden ved henholdsvis Universitetet i Oslo og NTNU Trondheim. Begge to begynte ved NR nå i høst etter at de hadde levert sine avhandlinger i statistikk.

Norsk Regnesentral gratulerer!

Forsker Aliaksandr Hubin ved SAMBA:

Ph.D. Aliaksandr Hubin sammen med bedømmelseskomiteen: Fra venstre: Ørnulf Borgan (UiO), Leonardo Bottolo (Uni Cambridge), Aliaksandr Hubin (UiO/NR), Jo Eidsvik (NTNU) 9. november 2018 forsvarte Aliaksandr Hubin sin dr.gradsavhandling "Bayesian model configuration, selection and averaging in complex regression contexts" ved Matematisk institutt, Universitetet i Oslo. Veilederne har vært: professor Geir Olve Storvik, Matematisk institutt, UiO, professor Ole Christian Lingjærde, Institutt for informatikk, UiO, professor Paul Grini, Institutt for biovitenskap, UiO og førsteamanuensis Melinka Butenko, Institutt for biovitenskap, UiO.

Bedømmelseskomiteen bestod av:

Reader Leonardo Bottolo, University of Cambridge
Professor Jo Eidsvik, Institutt for matematiske fag, NTNU
Professor Ørnulf Borgan, Matematisk institutt, Universitetet i Oslo

Sammendrag:

In this PhD thesis problems of Bayesian model selection and model averaging are addressed in various regression contexts. The approaches developed within the thesis are based on the idea of marginalizing out parameters from the likelihood. This allows to work on the marginal space of models, which simplifies the search algorithms significantly. For the linear models an efficient mode jumping Monte Carlo Markov chain (MJMCMC) algorithm was suggested. The approach performed very well on simulated and real data. Further, the algorithm was extended to work with logic regressions, where one has a feature space consisting of various complicated logical expressions, which makes enumeration of all features computationally and memory infeasible in most of the cases.

The genetically modified MJMCMC (GMJMCMC) algorithm was suggested to tackle this issue. The algorithm combines the idea of keeping and updating the populations of highly predictive logical expressions combined with MJMCMC for the efficient exploration of the model space. Several simulation and real data studies show that logical expressions of high orders can be recovered with large power and low false discovery rate. Moreover, the GMJMCMC approach is adapted to make inference within the class of deep Bayesian regression models (which is a suggested in the thesis extension of various machine and statistical learning models like artificial neural networks, classification and regression trees, logic regressions and linear models).

The reversible GMJMCMC, named RGMJMCMC, is also suggested. It makes transitions between the populations of variables in a way that satisfies the detailed balance equation. Based on several examples, it is shown that the DBRM approach can be efficient for both inference and prediction in various applications. In particular, two ground physical laws (planetary mass law and third Kepler’s law) were recovered from the data with large power and low false discovery rate. Three classification examples were also studied, where the comparison to other popular machine and statistical learning approaches was performed.

Finally, a thorough study comparing different Bayesian approaches to genome wide association was done. It was shown that the developed in this thesis approaches can be efficiently applied to data with a huge number of covariates.

Tema for prøveforelesningen var "Theory and applications of reversible jump MCMC sampling".

Ph.D. Jacob Skauvold sammen med hovedveileder og bedømmelseskomité: Fra venstre: Jo Eidsvik, Hans Wackernagel, Jacob Skauvold, Sara Martino og Geir Storvik.

Forsker Jacob Skauvold ved SAND:

3. desember forsvarte Jacob Skauvold sin dr.gradsavhandling "Ensemble-based data assimilation methods applied to geological process modeling" ved Institutt for matematiske fag, NTNU. Veilederne har vært professor Jo Eidsvik og professor Karl H. Omre (biveileder), begge Institutt for matematiske fag, NTNU.

Bedømmelseskomiteen bestod av:

Professor Hans Wackernagel, MINES ParisTech - Centre de Géosciences, France
Professor Geir O. Storvik, Matematisk institutt, Universitetet i Oslo
Førsteamanuensis Sara Martino, Institutt for matematiske fag, NTNU

Sammendrag:

Dataassimilering er kunsten å betinge en numerisk simulasjon av en fysisk prosess på observasjoner av den reelle prosessen. Det vil si å justere estimater slik at de er forenlige ikke bare med en matematisk modell av virkeligheten, men også med direkte målinger.

Dataassimilering er essensielt for en rekke geofysiske anvendelser fra sirkulasjonsmodeller av atmosfæren og havene til værprognoser og prediksjon av flom og tørke. Metoder for dataassimilering bygger på en statistisk beskrivelse av en fysisk simulasjonsmodell på den ene siden, og av en datagenererende prosess på den andre. Ved å kombinere informasjonen fra disse to kildene på en konsistent måte, oppnås et kompromiss mellom teoretisk simulasjon og empirisk observasjon.

Den faktiske tilstanden til et sammensatt fysisk system, selv et idealisert og forenklet et, er nesten alltid underbestemt av data. Flere mulige tilstander kan ha gitt opphav til de samme observasjonene, slik at sannheten i praksis aldri lar seg bestemme entydig. Et ensemble er i denne sammenhengen et utvalg varianter eller realisasjoner av tilstanden til det simulerte systemet. Realisasjonene i ensemblet skiller seg fra hverandre ved tilfeldig variasjon, og målet er at variasjonen skal gjenspeile den epistemiske usikkerheten som hefter ved systemets egentlige tilstand.

I ensemblebaserte dataassimileringsmetoder bygges et ensemble opp ved at hver realisasjon simuleres forover i tid fra starttidspunktet til et senere tidspunkt. Ensemblet sammenlignes så med observasjoner av systemet på dette tidspunktet, og på bakgrunn av sammenligningen manipuleres ensemblet slik at avstanden til observasjonene blir mindre. Slik assimileres informasjon fra data inn i den statistiske modellen.

Avhandlingen dreier seg om å anvende metoder av denne typen på en geologisk prosessmodell, nærmere bestemt en stratigrafisk modell som simulerer dannelse av sedimentære bergarter ved avsetning av sand, silt og leire. Som regel finnes ikke observasjoner av forløpet til sedimenteringsprosessen. Derimot foreligger det gjerne data knyttet til sluttproduktet, altså den ferdig dannede sedimentære lagstrukturen. Slike data kan for eksempel være målinger tatt på ulike dybder i en brønn boret i forbindelse med oljeleting.

Siden de sedimentære bergartene ligger kronologisk ordnet, med de eldste lagene nederst og de yngste øverst, er det mulig å starte på bunnen og

assimilere målinger av stadig yngre lag samtidig som man simulerer sedimenteringen forover i tid. Resultatet er at den geologiske simulasjonen betinges på de tilgjengelige dataene.

Tema for prøveforelsningen var "Gaussian processes for non-parametric prediction".

Search form

Search form