Reinforcement Learning
at AMLab

Exploring Q-Learning through an interactive demonstration

UvA Amsterdam Machine Learning Lab • Research in Action

Scroll om te verkennen

Amsterdam Machine Learning Lab

AMLab is een toonaangevende onderzoeksgroep binnen de UvA die zich richt op fundamenteel en toegepast machine learning onderzoek. Hun werk op het gebied van reinforcement learning vormt de basis van deze demonstratie.

Onderzoeksgebieden

  • Reinforcement Learning - Agenten die leren door interactie
  • Deep Learning - Neurale netwerken en representaties
  • Probabilistic Methods - Bayesiaanse modellen
  • Generative Models - VAEs, GANs, diffusion models

Impact & Toepassingen

  • AlphaGo en game-playing AI
  • Robotica en autonomous agents
  • Healthcare en drug discovery
  • Natural language processing

Plaats binnen Computer Science

AI & Machine Learning vormen een van de snelst groeiende gebieden binnen de informatica. AMLab's onderzoek past binnen het bredere veld van kunstmatige intelligentie, specifiek gericht op hoe systemen kunnen leren van data en ervaring.

Reinforcement Learning, zoals gedemonstreerd in deze interactive, is een fundamentele benadering waarbij agents leren optimaal gedrag door trial-and-error interactie met hun omgeving. Dit contrasteert met supervised learning (leren van gelabelde data) en unsupervised learning (patronen ontdekken in ongelabelde data).

De methoden ontwikkeld door AMLab vinden toepassingen in diverse domeinen: van robotica tot healthcare, van game AI tot resource optimization. Hun werk draagt bij aan het uiteindelijke doel van Artificial General Intelligence (AGI) - systemen die flexibel kunnen leren en redeneren over diverse taken.

Reinforcement Learning: De Basics

In tegenstelling tot supervised learning (gelabelde data) en unsupervised learning (patronen ontdekken), leert een RL-agent door trial-and-error interactie met een environment.

AgentPolicy π(s)
observe(s_t)
action(a_t)
reward(r_t)
EnvironmentMarkov Decision Process

Goal: Maximize cumulative reward

G_t = r_{t+1} + γ r_{t+2} + γ^2 r_{t+3} + ...

Markov Property

De toekomst hangt alleen af van de huidige state, niet van de geschiedenis. Dit maakt het probleem tractable: P(s_{t+1} | s_t, a_t)

Credit Assignment

Welke acties uit het verleden zijn verantwoordelijk voor huidige rewards? De discount factor γ lost dit op door recente acties meer gewicht te geven.

Ontmoet de Q-Tabel

Q-Learning gebruikt een simpel maar krachtig idee: bijhouden in een tabel hoe goed elke actie is in elke situatie. Hogere waarden = betere acties\!

Interactieve Q-Tabel

ToestandUPDOWNLEFTRIGHT
voedsel_rechts
0.1
0.1
-0.2
0.8
gevaar_links
0.3
0.3
-0.9
0.5
veilig
0.2
0.2
0.2
0.2

Beweeg over cellen om te verkennen\! Groen = goede actie, Rood = slechte actie

Hoe het leert

1

Probeer een actie en zie wat er gebeurt

2

Ontvang een beloning (+1 voor voedsel, -1 voor dood)

3

Update de Q-waarde met de Bellman vergelijking

De Magische Formule

Q(s,a) = Q(s,a) + alpha * (reward + gamma * maxQ(s') - Q(s,a))

Vertaling: combineer de oude waarde met de nieuwe beloning, rekening houdend met wat de beste toekomstige actie kan opleveren.

Live Demonstratie: Q-Learning in Actie

Deze interactieve demonstratie toont hoe een RL-agent incrementeel leert door trial-and-error. Observeer hoe de Q-table zich vult, rewards accumuleren, en de exploration-exploitation trade-off zich ontwikkelt.

State space reductie: In plaats van absolute posities (10×10 grid = 10^20+ states) gebruiken we relatieve posities: voedsel richting (8) × gevaar detectie (16) × bewegingsrichting (4) ≈ 512 states.

Learning dynamics: De agent start met ε=0.3 (30% random exploratie) en decay naar ε=0.01. Observeer hoe vroege episodes chaotisch lijken maar geleidelijk strategischer worden.

Convergentie: Bij voldoende training convergeert Q(s,a) naar Q*(s,a), de optimale action-value functie. Dit kan 100-1000+ episodes duren.

Training Arena

Episode 1
Score: 0
Max: 0
0 stappen
Exploiteren
10x

Tip: Start op lage snelheid (1-5x) om individuele beslissingen te zien. Verhoog naar 100-500x voor snelle convergentie en populatie-level gedrag.

Leerprogressie (Cumulatieve Reward)

Grafiek toont episode rewards (blauw) en voortschrijdend gemiddelde (oranje). Stijgende trend = succesvoller gedrag door Q-learning updates.

Q-Tabel

Start training om Q-waarden te zien verschijnen...

Groen = positieve Q-waarden (goede acties), Rood = negatieve (slechte acties). De huidige state is gemarkeerd.

Hyperparameters

0.70
0.95
0.30
ExploiterenExploreren

70% gebruikt geleerde kennis

Experimenteer: Probeer α=1.0 voor snelle maar instabiele learning, of γ=0.1 voor myopisch gedrag (alleen directe rewards).

Inzichten & Reflectie

Door Q-Learning interactief te demonstreren, wordt duidelijk hoe fundamenteel onderzoek praktische toepassingen mogelijk maakt.

Belangrijkste Bevindingen

1
Leren door ervaring

Q-Learning toont aan hoe een agent effectief gedrag kan leren zonder expliciete programmering. Dit principe ligt ten grondslag aan veel moderne AI-systemen, van AlphaGo tot ChatGPT's RLHF training.

2
Exploration vs Exploitation

De spanning tussen nieuwe dingen proberen en bestaande kennis gebruiken is een fundamenteel probleem in zowel RL als breder onderzoek. Het vinden van de juiste balans is cruciaal voor efficiënt leren.

3
State representation matters

Door de state space te versimpelen (relatieve posities i.p.v. absolute coördinaten) reduceren we van 10^20+ naar ~512 states. Dit design choice illustreert het belang van goede feature engineering - een principe dat breder geldt in ML.

Visie op Informatica Onderzoek

Fundamenteel onderzoek als katalysator: AMLab's werk aan reinforcement learning laat zien hoe fundamenteel onderzoek doorwerkt in praktische toepassingen. Het Bellman-principe uit 1957 vormt nog steeds de basis van moderne RL-algoritmes die games winnen en robots aansturen.

Interactieve demonstraties als onderwijs: Deze demonstratie toont dat complexe algoritmes toegankelijk gemaakt kunnen worden door visualisatie en interactie. Het demystificeert "AI" door te laten zien dat het uiteindelijk wiskundige optimalisatie is.

Iteratief en empirisch: Net zoals de Snake agent leert door trial-and-error, is onderzoek een iteratief proces van hypotheses testen, falen, en verfijnen. De exploration-exploitation trade-off geldt ook voor onderzoekers: wanneer nieuwe richtingen verkennen vs. bestaande ideeën uitdiepen?

Onderzoek is niet alleen het vinden van antwoorden, maar vooral het stellen van de juiste vragen en het ontwikkelen van tools om die vragen te kunnen beantwoorden.

Interactieve demonstratie • UvA Informatica Onderzoek 2026