Reinforcement Learning
at AMLab
Exploring Q-Learning through an interactive demonstration
UvA Amsterdam Machine Learning Lab • Research in Action
Amsterdam Machine Learning Lab
AMLab is een toonaangevende onderzoeksgroep binnen de UvA die zich richt op fundamenteel en toegepast machine learning onderzoek. Hun werk op het gebied van reinforcement learning vormt de basis van deze demonstratie.
Onderzoeksgebieden
- •Reinforcement Learning - Agenten die leren door interactie
- •Deep Learning - Neurale netwerken en representaties
- •Probabilistic Methods - Bayesiaanse modellen
- •Generative Models - VAEs, GANs, diffusion models
Impact & Toepassingen
- •AlphaGo en game-playing AI
- •Robotica en autonomous agents
- •Healthcare en drug discovery
- •Natural language processing
Plaats binnen Computer Science
AI & Machine Learning vormen een van de snelst groeiende gebieden binnen de informatica. AMLab's onderzoek past binnen het bredere veld van kunstmatige intelligentie, specifiek gericht op hoe systemen kunnen leren van data en ervaring.
Reinforcement Learning, zoals gedemonstreerd in deze interactive, is een fundamentele benadering waarbij agents leren optimaal gedrag door trial-and-error interactie met hun omgeving. Dit contrasteert met supervised learning (leren van gelabelde data) en unsupervised learning (patronen ontdekken in ongelabelde data).
De methoden ontwikkeld door AMLab vinden toepassingen in diverse domeinen: van robotica tot healthcare, van game AI tot resource optimization. Hun werk draagt bij aan het uiteindelijke doel van Artificial General Intelligence (AGI) - systemen die flexibel kunnen leren en redeneren over diverse taken.
Reinforcement Learning: De Basics
In tegenstelling tot supervised learning (gelabelde data) en unsupervised learning (patronen ontdekken), leert een RL-agent door trial-and-error interactie met een environment.
Goal: Maximize cumulative reward
G_t = r_{t+1} + γ r_{t+2} + γ^2 r_{t+3} + ...
Markov Property
De toekomst hangt alleen af van de huidige state, niet van de geschiedenis. Dit maakt het probleem tractable: P(s_{t+1} | s_t, a_t)
Credit Assignment
Welke acties uit het verleden zijn verantwoordelijk voor huidige rewards? De discount factor γ lost dit op door recente acties meer gewicht te geven.
Ontmoet de Q-Tabel
Q-Learning gebruikt een simpel maar krachtig idee: bijhouden in een tabel hoe goed elke actie is in elke situatie. Hogere waarden = betere acties\!
Interactieve Q-Tabel
| Toestand | UP | DOWN | LEFT | RIGHT |
|---|---|---|---|---|
| voedsel_rechts | 0.1 | 0.1 | -0.2 | 0.8 |
| gevaar_links | 0.3 | 0.3 | -0.9 | 0.5 |
| veilig | 0.2 | 0.2 | 0.2 | 0.2 |
Beweeg over cellen om te verkennen\! Groen = goede actie, Rood = slechte actie
Hoe het leert
Probeer een actie en zie wat er gebeurt
Ontvang een beloning (+1 voor voedsel, -1 voor dood)
Update de Q-waarde met de Bellman vergelijking
De Magische Formule
Vertaling: combineer de oude waarde met de nieuwe beloning, rekening houdend met wat de beste toekomstige actie kan opleveren.
Live Demonstratie: Q-Learning in Actie
Deze interactieve demonstratie toont hoe een RL-agent incrementeel leert door trial-and-error. Observeer hoe de Q-table zich vult, rewards accumuleren, en de exploration-exploitation trade-off zich ontwikkelt.
State space reductie: In plaats van absolute posities (10×10 grid = 10^20+ states) gebruiken we relatieve posities: voedsel richting (8) × gevaar detectie (16) × bewegingsrichting (4) ≈ 512 states.
Learning dynamics: De agent start met ε=0.3 (30% random exploratie) en decay naar ε=0.01. Observeer hoe vroege episodes chaotisch lijken maar geleidelijk strategischer worden.
Convergentie: Bij voldoende training convergeert Q(s,a) naar Q*(s,a), de optimale action-value functie. Dit kan 100-1000+ episodes duren.
Training Arena
Tip: Start op lage snelheid (1-5x) om individuele beslissingen te zien. Verhoog naar 100-500x voor snelle convergentie en populatie-level gedrag.
Leerprogressie (Cumulatieve Reward)
Grafiek toont episode rewards (blauw) en voortschrijdend gemiddelde (oranje). Stijgende trend = succesvoller gedrag door Q-learning updates.
Q-Tabel
Start training om Q-waarden te zien verschijnen...
Groen = positieve Q-waarden (goede acties), Rood = negatieve (slechte acties). De huidige state is gemarkeerd.
Hyperparameters
70% gebruikt geleerde kennis
Inzichten & Reflectie
Door Q-Learning interactief te demonstreren, wordt duidelijk hoe fundamenteel onderzoek praktische toepassingen mogelijk maakt.
Belangrijkste Bevindingen
Q-Learning toont aan hoe een agent effectief gedrag kan leren zonder expliciete programmering. Dit principe ligt ten grondslag aan veel moderne AI-systemen, van AlphaGo tot ChatGPT's RLHF training.
De spanning tussen nieuwe dingen proberen en bestaande kennis gebruiken is een fundamenteel probleem in zowel RL als breder onderzoek. Het vinden van de juiste balans is cruciaal voor efficiënt leren.
Door de state space te versimpelen (relatieve posities i.p.v. absolute coördinaten) reduceren we van 10^20+ naar ~512 states. Dit design choice illustreert het belang van goede feature engineering - een principe dat breder geldt in ML.
Visie op Informatica Onderzoek
Fundamenteel onderzoek als katalysator: AMLab's werk aan reinforcement learning laat zien hoe fundamenteel onderzoek doorwerkt in praktische toepassingen. Het Bellman-principe uit 1957 vormt nog steeds de basis van moderne RL-algoritmes die games winnen en robots aansturen.
Interactieve demonstraties als onderwijs: Deze demonstratie toont dat complexe algoritmes toegankelijk gemaakt kunnen worden door visualisatie en interactie. Het demystificeert "AI" door te laten zien dat het uiteindelijk wiskundige optimalisatie is.
Iteratief en empirisch: Net zoals de Snake agent leert door trial-and-error, is onderzoek een iteratief proces van hypotheses testen, falen, en verfijnen. De exploration-exploitation trade-off geldt ook voor onderzoekers: wanneer nieuwe richtingen verkennen vs. bestaande ideeën uitdiepen?
Onderzoek is niet alleen het vinden van antwoorden, maar vooral het stellen van de juiste vragen en het ontwikkelen van tools om die vragen te kunnen beantwoorden.
Verder Lezen
Interactieve demonstratie • UvA Informatica Onderzoek 2026