Reinforcement Learning
bij AMLab
Verken Q-Learning en AMLab via een interactieve demo.
UvA Amsterdam Machine Learning Lab • Research in Action
Amsterdam Machine Learning Lab
AMLab is onderdeel van het Informatics Institute aan de UvA. Het lab doet fundamenteel onderzoek in machine learning en AI, met focus op grote wetenschappelijke datasets. Ze werken aan generatieve modellen, probabilistisch programmeren, en andere technieken voor complexe data-analyse.
Centrale vraag: "Hoe maken we ML algoritmes beter in generaliseren?"
Het onderzoek van AMLab heeft directe impact in domeinen zoals scheikunde, natuurkunde en robotica.
Onderzoeksgebieden
- •Reinforcement Learning - Agenten die leren door interactie
- •Deep Learning - Neurale netwerken en representaties
- •Probabilistic Methods - Bayesiaanse modellen
- •Generative Models - VAEs, GANs, diffusion models
Impact & Toepassingen
- •AlphaGo en game-playing AI
- •Robotica en autonomous agents
- •Healthcare en drug discovery
- •Natural language processing
Drie Belangrijke Onderzoeksvragen
1. "Hoe gaan we om met onzekerheid?"
Modellen moeten niet alleen voorspellingen doen, maar ook aangeven hoe zeker ze daarvan zijn. AMLab ontwikkelt technieken om deze onzekerheid te kwantificeren.
2. "Hoe integreren we geometrie en fysica in AI?"
Veel data komt uit de fysieke wereld met specifieke structuren en symmetrieën. Door dit in modellen in te bouwen kunnen ze beter generaliseren.
3. "Hoe modelleren we causale relaties?"
Correlatie is niet hetzelfde als causaliteit. AMLab werkt aan methodes om oorzaak-gevolg relaties te identificeren, wat cruciaal is voor robuuste AI.
Relevant Onderzoek (voor ons onderwerp)
Kuric, D.; Infante, G.; Gómez, V.; Jonsson, A.; van Hoof, H. (2024)
In plaats van één grote policy te leren voor complexe taken, leer je meerdere kleine sub-policies die je combineert met planning. Klinkt simpel maar werkt verrassend goed - ze bereiken zelfs optimale oplossingen in stochastische environments.
Biza, O.; Weng, T.; Sun, L.; et al. incl. van de Meent, J.-W. (2024)
Training robots is meestal heel langzaam omdat je goede reward signals nodig hebt. Deze paper gebruikt video's van succesvolle en mislukte pogingen om automatisch rewards te leren - ongeveer 2x betere resultaten dan baseline methodes.
Samenwerkingen
AMLab werkt samen met bedrijven en academische partners:
- • Microsoft Research
- • Qualcomm
- • Bosch & Philips
- • Janssen Pharmaceutica
- • Amsterdam UMC
Onderwijs
AMLab verzorgt diverse vakken:
- • Machine Learning 1 & 2
- • Reinforcement Learning
- • Deep Learning 2
- • Bayesian Statistics for ML
AMLab binnen UvA
Universiteit van Amsterdam (UvA)
Informatics Institute (IvI)
Onderzoek in computer science & AI
Amsterdam Machine Learning Lab (AMLab)
Fundamenteel ML onderzoek
Reinforcement Learning
Deep Generative Models
Bayesian Learning
Causal Inference
Evolutie van Reinforcement Learning
1957: Bellman Vergelijking
Grondlegger van RL optimalisatie
1989: Q-Learning (Watkins)
Model-free RL algoritme
2013: Deep Q-Network (DeepMind)
Deep learning + RL = DQN
2016: AlphaGo verslaat Go kampioen
RL doorbraak in strategie
2024+: Moderne Toepassingen
Robotica, RLHF, autonomous systems
Plaats binnen Computer Science
AI & Machine Learning vormen een van de snelst groeiende gebieden binnen de informatica. AMLab's onderzoek past binnen het bredere veld van kunstmatige intelligentie, specifiek gericht op hoe systemen kunnen leren van data en ervaring.
Reinforcement Learning, zoals gedemonstreerd in deze demo, is een fundamentele benadering waarbij agents leren optimaal gedrag door trial-and-error interactie met hun omgeving. Dit contrasteert met supervised learning (leren van gelabelde data) en unsupervised learning (patronen ontdekken in ongelabelde data).
De methoden ontwikkeld door AMLab vinden toepassingen in diverse domeinen: van robotica tot healthcare, van game AI tot resource optimization. Hun werk draagt bij aan het uiteindelijke doel van Artificial General Intelligence (AGI) - systemen die flexibel kunnen leren en redeneren over diverse taken.
Reinforcement Learning: De Basics
Anders dan supervised learning (labels) of unsupervised learning (patronen), leert RL door trial-and-error in een environment. Probeer, kijk wat gebeurt, pas aan.
Goal: Maximize cumulative reward
G_t = r_{t+1} + γ r_{t+2} + γ^2 r_{t+3} + ...
Markov Property
Toekomst hangt alleen af van nu, niet van het verleden. Dat maakt RL bruikbaar: P(s_{t+1} | s_t, a_t)
Credit Assignment
Welke acties uit het verleden zorgden voor huidige rewards? Discount factor γ geeft recente acties meer gewicht.
Q-Tabel
Q-Learning werkt eigenlijk best simpel: je houdt in een tabel bij hoe goed elke actie is in elke situatie. Hogere waarde? Betere actie!
Voor beginners: Wat is een Q-waarde?
Een Q-waarde is gewoon een getal dat aangeeft hoe "goed" een actie is in een bepaalde situatie. Hoe hoger, hoe beter.
De agent leert deze waarden door trial-and-error: probeer een actie, krijk een beloning (of straf), update de Q-waarde. Herhaal dit vaak genoeg en de agent weet uiteindelijk welke acties waar het beste werken.
De "Q" staat voor "Quality" - de kwaliteit van een (state, action) paar.
Q-Tabel
| Toestand | UP | DOWN | LEFT | RIGHT |
|---|---|---|---|---|
| voedsel_rechts | 0.1 | 0.1 | -0.2 | 0.8 |
| gevaar_links | 0.3 | 0.3 | -0.9 | 0.5 |
| veilig | 0.2 | 0.2 | 0.2 | 0.2 |
Groen = goede actie, Rood = slechte actie
Hoe het leert
Probeer een actie, zie wat gebeurt
Krijg reward (+1 voor eten, -1 voor doodgaan)
Update Q-waarde met Bellman formule
De Bellman Vergelijking (de wiskunde erachter)
In het Nederlands: neem de oude Q-waarde, voeg een beetje van de nieuwe info toe (reward + wat de beste volgende stap oplevert). Alpha bepaalt hoeveel je leert per stap.
Live Demonstratie: Q-Learning in Actie
Zie hoe de agent leert door trial-and-error. Kijk hoe de Q-table zich vult, rewards groeien, en de exploration-exploitation trade-off zich ontwikkelt.
State space reductie: We gebruiken relatieve posities ipv absolute coördinaten. Dat reduceert van 10^20+ states naar ~512 states - veel efficiënter!
Learning dynamics: Agent begint met ε (epsilon) =0.3 (veel random exploratie), daalt langzaam naar 0.01. Vroege episodes zijn chaotisch, later wordt het strategisch.
Convergentie: Na 100-1000+ episodes convergeert Q(s,a) naar de optimale waarden.
Training Arena
Tip: Begin op 1-5x om individuele beslissingen te volgen. Zet 'm op 100-500x om snel te convergeren.
Leerprogressie (Cumulatieve Reward)
Blauw = episode rewards, oranje = gemiddelde. Stijgende lijn? Agent wordt beter!
Q-Tabel
Start training om Q-waarden te zien verschijnen...
Groen = goede acties, rood = slechte acties.
Hyperparameters
70% gebruikt geleerde kennis
Wat We Geleerd Hebben
Reflectie op het bouwen van deze interactieve demonstratie en wat het ons leerde over reinforcement learning, onderzoek, en kunstmatige intelligentie.
Ons Perspectief
Wat We Leerden
Eerlijk gezegd dachten we dat AI veel ingewikkelder was. Q-Learning blijkt gewoon een formule te zijn die waarden bijwerkt - geen magie, gewoon wiskunde. Het coole aan RL is dat je geen gelabelde data nodig hebt, alleen een doel en de mogelijkheid om dingen uit te proberen. Dat maakt het eigenlijk veel toegankelijker dan we dachten.
Waarom Dit Belangrijk Is
Het is eigenlijk gek: de Bellman vergelijking van 1957 draait nu in deze browser, stuurt robots aan, en zit zelfs in ChatGPT (via RLHF). Dat laat zien hoe fundamenteel onderzoek uiteindelijk overal opduikt. Wat nu abstract wiskundig lijkt kan over 20 jaar de basis zijn van alledaagse tech.
Wat Ons Verbaasde
Eerlijk, we verwachtten dat je deep learning nodig had voor iets interessants. Maar met alleen een tabel en wat updates kan de agent Snake verrassend goed spelen. Soms zijn simple methoden beter dan complexe - hoewel dat natuurlijk niet altijd geldt.
Vragen Voor De Toekomst
Snake is leuk maar simpel - gecontroleerde omgeving, duidelijke rewards. Maar hoe schaalt RL naar echte, chaotische problemen? Wat gebeurt er als de omgeving constant verandert? En hoe maak je RL veilig genoeg voor kritische toepassingen? Dit zijn vragen waar AMLab (en eigenlijk de hele community) nog mee worstelt.
Belangrijkste Bevindingen
Agent leert gedrag zonder expliciete code - alleen door te proberen en feedback te krijgen. Dit principe zie je terug in AlphaGo, ChatGPT's RLHF, etc.
Moet je nieuwe dingen proberen of bij je bestaande kennis blijven? Deze trade-off is niet alleen fundamenteel in RL, maar eigenlijk overal (ook in onderzoek).
We reduceerden van 10^20+ naar ~512 states door slimme feature engineering (relatieve posities ipv absolute). Hoe je het probleem representeert maakt enorm verschil.
Visie op Informatica Onderzoek
Fundamenteel onderzoek: Bellman's vergelijking van 1957 is nog steeds de basis van moderne RL. Dat laat zien waarom fundamenteel onderzoek belangrijk blijft - wat nu abstract lijkt kan later overal gebruikt worden.
Deep Learning challenges: Modellen worden steeds groter en krachtiger, maar hebben nog moeite nog met de fysieke wereld. AMLab werkt aan geometrische structuren en inductieve biases om dit op te lossen. AGI is waarschijnlijk nog ver weg, maar betrouwbare ML applicaties worden wel steeds breder ingezet.
Interactieve demos: Door visualisatie kan je complexe algoritmes toegankelijk maken. Het haalt de mystiek weg - AI is uiteindelijk gewoon wiskunde.
Onderzoek draait niet alleen om antwoorden vinden, maar ook om de juiste vragen stellen en de tools bouwen om die te beantwoorden.
Verder Lezen
Gemaakt door
Alex Arentz (14621002)
Luna Neuhaus (15859924)
Charlize Plet (15228681)
Interactieve demonstratie • UvA Informatica 2026