Reinforcement Learning
bij AMLab

Verken Q-Learning en AMLab via een interactieve demo.

UvA Amsterdam Machine Learning Lab • Research in Action

Amsterdam Machine Learning Lab

AMLab is onderdeel van het Informatics Institute aan de UvA. Het lab doet fundamenteel onderzoek in machine learning en AI, met focus op grote wetenschappelijke datasets. Ze werken aan generatieve modellen, probabilistisch programmeren, en andere technieken voor complexe data-analyse.

Centrale vraag: "Hoe maken we ML algoritmes beter in generaliseren?"

Het onderzoek van AMLab heeft directe impact in domeinen zoals scheikunde, natuurkunde en robotica.

Onderzoeksgebieden

  • Reinforcement Learning - Agenten die leren door interactie
  • Deep Learning - Neurale netwerken en representaties
  • Probabilistic Methods - Bayesiaanse modellen
  • Generative Models - VAEs, GANs, diffusion models

Impact & Toepassingen

  • AlphaGo en game-playing AI
  • Robotica en autonomous agents
  • Healthcare en drug discovery
  • Natural language processing

Drie Belangrijke Onderzoeksvragen

1. "Hoe gaan we om met onzekerheid?"

Modellen moeten niet alleen voorspellingen doen, maar ook aangeven hoe zeker ze daarvan zijn. AMLab ontwikkelt technieken om deze onzekerheid te kwantificeren.

2. "Hoe integreren we geometrie en fysica in AI?"

Veel data komt uit de fysieke wereld met specifieke structuren en symmetrieën. Door dit in modellen in te bouwen kunnen ze beter generaliseren.

3. "Hoe modelleren we causale relaties?"

Correlatie is niet hetzelfde als causaliteit. AMLab werkt aan methodes om oorzaak-gevolg relaties te identificeren, wat cruciaal is voor robuuste AI.

Relevant Onderzoek (voor ons onderwerp)

Kuric, D.; Infante, G.; Gómez, V.; Jonsson, A.; van Hoof, H. (2024)

In plaats van één grote policy te leren voor complexe taken, leer je meerdere kleine sub-policies die je combineert met planning. Klinkt simpel maar werkt verrassend goed - ze bereiken zelfs optimale oplossingen in stochastische environments.

Biza, O.; Weng, T.; Sun, L.; et al. incl. van de Meent, J.-W. (2024)

Training robots is meestal heel langzaam omdat je goede reward signals nodig hebt. Deze paper gebruikt video's van succesvolle en mislukte pogingen om automatisch rewards te leren - ongeveer 2x betere resultaten dan baseline methodes.

Samenwerkingen

AMLab werkt samen met bedrijven en academische partners:

  • • Microsoft Research
  • • Qualcomm
  • • Bosch & Philips
  • • Janssen Pharmaceutica
  • • Amsterdam UMC

Onderwijs

AMLab verzorgt diverse vakken:

  • • Machine Learning 1 & 2
  • • Reinforcement Learning
  • • Deep Learning 2
  • • Bayesian Statistics for ML

AMLab binnen UvA

Universiteit van Amsterdam (UvA)

Informatics Institute (IvI)

Onderzoek in computer science & AI

Amsterdam Machine Learning Lab (AMLab)

Fundamenteel ML onderzoek

Reinforcement Learning

Deep Generative Models

Bayesian Learning

Causal Inference

Evolutie van Reinforcement Learning

1957: Bellman Vergelijking

Grondlegger van RL optimalisatie

1989: Q-Learning (Watkins)

Model-free RL algoritme

2013: Deep Q-Network (DeepMind)

Deep learning + RL = DQN

2016: AlphaGo verslaat Go kampioen

RL doorbraak in strategie

2024+: Moderne Toepassingen

Robotica, RLHF, autonomous systems

Plaats binnen Computer Science

AI & Machine Learning vormen een van de snelst groeiende gebieden binnen de informatica. AMLab's onderzoek past binnen het bredere veld van kunstmatige intelligentie, specifiek gericht op hoe systemen kunnen leren van data en ervaring.

Reinforcement Learning, zoals gedemonstreerd in deze demo, is een fundamentele benadering waarbij agents leren optimaal gedrag door trial-and-error interactie met hun omgeving. Dit contrasteert met supervised learning (leren van gelabelde data) en unsupervised learning (patronen ontdekken in ongelabelde data).

De methoden ontwikkeld door AMLab vinden toepassingen in diverse domeinen: van robotica tot healthcare, van game AI tot resource optimization. Hun werk draagt bij aan het uiteindelijke doel van Artificial General Intelligence (AGI) - systemen die flexibel kunnen leren en redeneren over diverse taken.

Reinforcement Learning: De Basics

Anders dan supervised learning (labels) of unsupervised learning (patronen), leert RL door trial-and-error in een environment. Probeer, kijk wat gebeurt, pas aan.

AgentPolicy π(s)
observe(s_t)
action(a_t)
reward(r_t)
EnvironmentMarkov Decision Process

Goal: Maximize cumulative reward

G_t = r_{t+1} + γ r_{t+2} + γ^2 r_{t+3} + ...

Markov Property

Toekomst hangt alleen af van nu, niet van het verleden. Dat maakt RL bruikbaar: P(s_{t+1} | s_t, a_t)

Credit Assignment

Welke acties uit het verleden zorgden voor huidige rewards? Discount factor γ geeft recente acties meer gewicht.

Q-Tabel

Q-Learning

werkt eigenlijk best simpel: je houdt in een tabel bij hoe goed elke actie is in elke situatie. Hogere waarde? Betere actie!

Voor beginners: Wat is een Q-waarde?

Een Q-waarde is gewoon een getal dat aangeeft hoe "goed" een actie is in een bepaalde situatie. Hoe hoger, hoe beter.

De agent leert deze waarden door trial-and-error: probeer een actie, krijk een beloning (of straf), update de Q-waarde. Herhaal dit vaak genoeg en de agent weet uiteindelijk welke acties waar het beste werken.

De "Q" staat voor "Quality" - de kwaliteit van een (state, action) paar.

Q-Tabel

ToestandUPDOWNLEFTRIGHT
voedsel_rechts
0.1
0.1
-0.2
0.8
gevaar_links
0.3
0.3
-0.9
0.5
veilig
0.2
0.2
0.2
0.2

Groen = goede actie, Rood = slechte actie

Hoe het leert

1

Probeer een actie, zie wat gebeurt

2

Krijg reward (+1 voor eten, -1 voor doodgaan)

3

Update Q-waarde met Bellman formule

De Bellman Vergelijking (de wiskunde erachter)

Q(s,a) = Q(s,a) + alpha * (reward + gamma * maxQ(s') - Q(s,a))

In het Nederlands: neem de oude Q-waarde, voeg een beetje van de nieuwe info toe (reward + wat de beste volgende stap oplevert). Alpha bepaalt hoeveel je leert per stap.

Live Demonstratie: Q-Learning in Actie

Zie hoe de agent leert door trial-and-error. Kijk hoe de Q-table zich vult, rewards groeien, en de exploration-exploitation trade-off

zich ontwikkelt.

State space reductie: We gebruiken relatieve posities ipv absolute coördinaten. Dat reduceert van 10^20+ states naar ~512 states - veel efficiënter!

Learning dynamics: Agent begint met ε (epsilon)

=0.3 (veel random exploratie), daalt langzaam naar 0.01. Vroege episodes zijn chaotisch, later wordt het strategisch.

Convergentie: Na 100-1000+ episodes convergeert Q(s,a) naar de optimale waarden.

Training Arena

Episode 1
Score: 0
Max: 0
0 stappen
Exploiteren
10x

Tip: Begin op 1-5x om individuele beslissingen te volgen. Zet 'm op 100-500x om snel te convergeren.

Leerprogressie (Cumulatieve Reward)

Blauw = episode rewards, oranje = gemiddelde. Stijgende lijn? Agent wordt beter!

Q-Tabel

Start training om Q-waarden te zien verschijnen...

Groen = goede acties, rood = slechte acties.

Hyperparameters

0.70
0.95
0.30
ExploiterenExploreren

70% gebruikt geleerde kennis

Probeer: α=1.0 voor snel (maar wispelturig) leren, of γ=0.1 voor kortzichtig gedrag (negeert toekomst).

Wat We Geleerd Hebben

Reflectie op het bouwen van deze interactieve demonstratie en wat het ons leerde over reinforcement learning, onderzoek, en kunstmatige intelligentie.

Ons Perspectief

Wat We Leerden

Eerlijk gezegd dachten we dat AI veel ingewikkelder was. Q-Learning blijkt gewoon een formule te zijn die waarden bijwerkt - geen magie, gewoon wiskunde. Het coole aan RL is dat je geen gelabelde data nodig hebt, alleen een doel en de mogelijkheid om dingen uit te proberen. Dat maakt het eigenlijk veel toegankelijker dan we dachten.

Waarom Dit Belangrijk Is

Het is eigenlijk gek: de Bellman vergelijking van 1957 draait nu in deze browser, stuurt robots aan, en zit zelfs in ChatGPT (via RLHF). Dat laat zien hoe fundamenteel onderzoek uiteindelijk overal opduikt. Wat nu abstract wiskundig lijkt kan over 20 jaar de basis zijn van alledaagse tech.

Wat Ons Verbaasde

Eerlijk, we verwachtten dat je deep learning nodig had voor iets interessants. Maar met alleen een tabel en wat updates kan de agent Snake verrassend goed spelen. Soms zijn simple methoden beter dan complexe - hoewel dat natuurlijk niet altijd geldt.

Vragen Voor De Toekomst

Snake is leuk maar simpel - gecontroleerde omgeving, duidelijke rewards. Maar hoe schaalt RL naar echte, chaotische problemen? Wat gebeurt er als de omgeving constant verandert? En hoe maak je RL veilig genoeg voor kritische toepassingen? Dit zijn vragen waar AMLab (en eigenlijk de hele community) nog mee worstelt.

Belangrijkste Bevindingen

1
Leren door ervaring

Agent leert gedrag zonder expliciete code - alleen door te proberen en feedback te krijgen. Dit principe zie je terug in AlphaGo, ChatGPT's RLHF, etc.

2
Exploration vs Exploitation

Moet je nieuwe dingen proberen of bij je bestaande kennis blijven? Deze trade-off is niet alleen fundamenteel in RL, maar eigenlijk overal (ook in onderzoek).

3
State representation matters

We reduceerden van 10^20+ naar ~512 states door slimme feature engineering (relatieve posities ipv absolute). Hoe je het probleem representeert maakt enorm verschil.

Visie op Informatica Onderzoek

Fundamenteel onderzoek: Bellman's vergelijking van 1957 is nog steeds de basis van moderne RL. Dat laat zien waarom fundamenteel onderzoek belangrijk blijft - wat nu abstract lijkt kan later overal gebruikt worden.

Deep Learning challenges: Modellen worden steeds groter en krachtiger, maar hebben nog moeite nog met de fysieke wereld. AMLab werkt aan geometrische structuren en inductieve biases om dit op te lossen. AGI is waarschijnlijk nog ver weg, maar betrouwbare ML applicaties worden wel steeds breder ingezet.

Interactieve demos: Door visualisatie kan je complexe algoritmes toegankelijk maken. Het haalt de mystiek weg - AI is uiteindelijk gewoon wiskunde.

Onderzoek draait niet alleen om antwoorden vinden, maar ook om de juiste vragen stellen en de tools bouwen om die te beantwoorden.

Gemaakt door

Alex Arentz (14621002)

Luna Neuhaus (15859924)

Charlize Plet (15228681)

Interactieve demonstratie • UvA Informatica 2026