EITC/AI/ARL Advanced Reinforcement Learning on eurooppalainen IT-sertifiointiohjelma, joka käsittelee DeepMindin lähestymistapaa tekoälyn oppimisen vahvistamiseen.
EITC/AI/ARL Advanced Reinforcement Learningin opetussuunnitelma keskittyy vahvistusoppimistekniikoiden teoreettisiin näkökohtiin ja käytännön taitoihin DeepMindin näkökulmasta seuraavan rakenteen mukaisesti, ja se sisältää kattavan didaktisen videosisällön tämän EITC-sertifioinnin referenssinä.
Vahvistusoppiminen (RL) on koneoppimisen alue, joka koskee sitä, kuinka älykkäiden agenttien tulisi toimia ympäristössä kumulatiivisen palkkion käsitteen maksimoimiseksi. Vahvistusoppiminen on yksi kolmesta koneoppimisen paradigmasta ohjatun ja valvomattoman oppimisen rinnalla.
Vahvistusoppiminen eroaa valvotusta oppimisesta siinä, että siinä ei tarvita merkittyjä syöttö- ja tuotospareja ja että ei tarvita optimaalista heikompia toimia nimenomaisesti korjattaviksi. Sen sijaan keskitytään löytämään tasapaino etsinnän (kartoittamattoman alueen) ja hyödyntämisen (nykyisen tiedon) välillä.
Ympäristö ilmoitetaan tyypillisesti Markov-päätöksentekoprosessina (MDP), koska monet vahvistusoppimisalgoritmit tälle kontekstille käyttävät dynaamisia ohjelmointitekniikoita. Tärkein ero klassisten dynaamisten ohjelmointimenetelmien ja vahvistusoppimisalgoritmien välillä on, että jälkimmäiset eivät oleta tietoja MDP: n tarkasta matemaattisesta mallista ja ne kohdistavat suuriin MDP: iin, joissa tarkat menetelmät ovat mahdottomia.
Vahvistusoppimista tutkitaan yleisyytensä vuoksi monilla tieteenaloilla, kuten peliteoriassa, ohjausteoriassa, operaatiotutkimuksessa, informaatioteoriassa, simulaatioon perustuvassa optimoinnissa, moniagenttijärjestelmissä, parviälyssä ja tilastoissa. Operaatiotutkimus- ja kontrollikirjallisuudessa vahvistuksen oppimista kutsutaan likimääräiseksi dynaamiseksi ohjelmoinniksi tai neurodynamiikkaiseksi ohjelmoinniksi. Vahvistusoppimisen kiinnostavia ongelmia on tutkittu myös optimaalisen kontrollin teoriassa, joka koskee enimmäkseen optimaalisten ratkaisujen olemassaoloa ja luonnehdintaa sekä algoritmeja niiden tarkalle laskennalle ja vähemmän oppimista tai lähentämistä, erityisesti ilman ympäristön matemaattinen malli. Taloustieteessä ja peliteoriassa vahvistusoppimista voidaan käyttää selittämään, kuinka tasapaino voi syntyä rajoitetun rationaalisuuden alaisuudessa.
Perusvahvistus mallinnetaan Markovin päätöksentekoprosessina (MDP). Matematiikassa Markovin päätöksentekoprosessi (MDP) on diskreettiaikainen stokastinen ohjausprosessi. Se tarjoaa matemaattisen kehyksen päätöksenteon mallintamiseen tilanteissa, joissa tulokset ovat osittain satunnaisia ja osittain päättäjän valvonnassa. MDP: t ovat hyödyllisiä dynaamisen ohjelmoinnin avulla ratkaistavien optimointiongelmien tutkimiseen. MDP: t tunnettiin ainakin jo 1950-luvulla. Markovin päätöksentekoprosessien ydintutkimus johtui Ronald Howardin 1960-kirjasta, Dynaaminen ohjelmointi ja Markov-prosessit. Niitä käytetään monilla aloilla, mukaan lukien robotiikka, automaattinen ohjaus, taloustiede ja valmistus. MDP: n nimi tulee venäläiseltä matemaatikolta Andrey Markovilta, koska ne ovat Markov-ketjujen jatke.
Kussakin vaiheessa vaihe on jossakin tilassa S, ja päätöksentekijä voi valita minkä tahansa toiminnon a, joka on käytettävissä tilassa S. Prosessi reagoi seuraavalla kerralla siirtymällä satunnaisesti uuteen tilaan S 'ja antamalla päättäjälle vastaava palkinto Ra (S, S ').
Valittu toimenpide a vaikuttaa prosessin todennäköisyyteen siirtyä uuteen tilaan S '. Erityisesti sen antaa tilansiirtofunktio Pa (S, S '). Siten seuraava tila S 'riippuu tämänhetkisestä tilasta S ja päättäjän toiminnasta a. Mutta kun otetaan huomioon S ja a, se on ehdollisesti riippumaton kaikista aikaisemmista tiloista ja toiminnoista. Toisin sanoen MDP: n tilasiirtymät tyydyttävät Markov-ominaisuuden.
Markovin päätöksentekoprosessit ovat jatkoa Markov-ketjuille; ero on toimintojen (valinnan salliminen) ja palkintojen (motivaation antaminen) lisääminen. Ja päinvastoin, jos kullekin tilalle on olemassa vain yksi toiminto (esim. "Odota") ja kaikki palkkiot ovat samat (esim. "Nolla"), Markovin päätöksentekoprosessi pienenee Markov-ketjuun.
Vahvistava oppimisagentti on vuorovaikutuksessa ympäristönsä kanssa erillisissä aikavaiheissa. Kullakin hetkellä t agentti vastaanottaa senhetkisen tilan S (t) ja palkkion r (t). Sitten se valitsee toiminnon a (t) käytettävissä olevien toimintojen joukosta, joka lähetetään myöhemmin ympäristöön. Ympäristö siirtyy uuteen tilaan S (t + 1) ja määritetään siirtymään liittyvä palkkio r (t + 1). Vahvistavan oppimisagentin tavoitteena on oppia käytäntö, joka maksimoi odotetun kumulatiivisen palkkion.
Ongelman muotoileminen MDP: ksi olettaa, että agentti tarkkailee suoraan nykyistä ympäristön tilaa. Tässä tapauksessa ongelman sanotaan olevan täysin havaittavissa. Jos agentilla on pääsy vain osajoukkoihin tiloja tai jos havaittujen tilojen toiminta vioittuu melun avulla, agentilla sanotaan olevan osittainen havaittavuus, ja muodollisesti ongelma on muotoiltava osittain havaittavana Markovin päätöksentekoprosessina. Molemmissa tapauksissa agentin käytettävissä olevia toimintoja voidaan rajoittaa. Esimerkiksi tilin saldon tila voidaan rajoittaa positiiviseksi; jos tilan nykyinen arvo on 3 ja tilasiirtymä yrittää vähentää arvoa 4, siirtymä ei ole sallittua.
Kun edustajan suorituskykyä verrataan optimaalisesti toimivan aineen suorituskykyyn, suorituskykyero aiheuttaa katumuksen käsitteen. Toimiakseen lähellä optimaalisesti edustajan on perusteltava toimintansa pitkäaikaiset seuraukset (eli maksimoitava tulevat tulot), vaikka tähän liittyvä välitön palkkio saattaa olla negatiivinen.
Siten vahvistava oppiminen soveltuu erityisen hyvin ongelmiin, joihin sisältyy pitkän aikavälin vai lyhyen aikavälin palkkojen vaihto. Sitä on sovellettu menestyksekkäästi erilaisiin ongelmiin, kuten robottien hallintaan, hissien ajoitukseen, tietoliikenteeseen, backgammoniin, tammi ja Go (AlphaGo).
Kaksi elementtiä tekee vahvistamisen oppimisesta tehokkaan: näytteiden käyttö suorituskyvyn optimoimiseksi ja toimintojen lähentämisen käyttö suurissa ympäristöissä. Näiden kahden avainkomponentin ansiosta vahvistusoppimista voidaan käyttää suurissa ympäristöissä seuraavissa tilanteissa:
- Ympäristömalli on tunnettu, mutta analyyttinen ratkaisu ei ole käytettävissä.
- Annetaan vain ympäristön simulointimalli (simulointipohjaisen optimoinnin aihe).
- Ainoa tapa kerätä tietoa ympäristöstä on olla vuorovaikutuksessa sen kanssa.
Kahta ensimmäistä näistä ongelmista voidaan pitää suunnitteluongelmina (koska jonkinlainen malli on käytettävissä), kun taas viimeistä voidaan pitää aitona oppimisongelmana. Vahvistusoppiminen muuntaa kuitenkin molemmat suunnitteluongelmat koneoppimisongelmiksi.
Tutkimuksen ja hyväksikäytön välistä kompromissia on tutkittu perusteellisimmin moniaseisen rosvojen ongelman ja rajallisten tilatila-avaruusohjelmien osalta Burnetasissa ja Katehakisissa (1997).
Vahvistusoppiminen vaatii älykkäitä etsintämekanismeja; satunnaisesti valitut toiminnot, viittaamatta arvioituun todennäköisyysjakaumaan, osoittavat heikkoa suorituskykyä. Markovin (pienten) äärellisten päätösprosessien tapaus on suhteellisen hyvin ymmärretty. Koska kuitenkin ei ole algoritmeja, jotka skaalautuisivat hyvin tilojen lukumäärän kanssa (tai skaalautuisivat ongelmiin äärettömien tilatilojen kanssa), yksinkertaiset etsintämenetelmät ovat käytännöllisimpiä.
Vaikka etsintäkysymys jätetään huomiotta ja vaikka valtio olisi havaittavissa, ongelmana on edelleen käyttää aiempia kokemuksia sen selvittämiseksi, mitkä toimet johtavat korkeampaan kumulatiiviseen palkkioon.
Tutustuaksesi sertifioinnin opetussuunnitelmaan yksityiskohtaisesti voit laajentaa ja analysoida alla olevaa taulukkoa.
EITC/AI/ARL Advanced Reforcement Learning Certification Curriculum -opetusohjelma viittaa avoimen pääsyn didaktisiin materiaaleihin videomuodossa. Oppimisprosessi on jaettu vaiheittaiseen rakenteeseen (ohjelmat -> oppitunnit -> aiheet), joka kattaa olennaiset opetussuunnitelman osat. Tarjolla on myös rajoittamaton konsultointi toimialueen asiantuntijoiden kanssa.
Katso tarkemmat tiedot sertifiointimenettelystä Miten se toimii.
Opetussuunnitelman viiteresurssit
Ihmisen tason hallinta Deep Reinforcement Learning -julkaisun kautta
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
UC Berkeleyn avoimen pääsykurssin syvävahvistusopiskeluun
http://rail.eecs.berkeley.edu/deeprlcourse/
RL sovellettiin K-haaroitettuun rosvoon liittyvään ongelmaan osoitteesta Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Lataa täydelliset offline-itseoppimisen valmistelevat materiaalit EITC/AI/ARL Advanced Reinforcement Learning -ohjelmaa varten PDF-tiedostona
EITC/AI/ARL valmistelumateriaalit – vakioversio
EITC/AI/ARL-valmistelumateriaalit – laajennettu versio tarkistuskysymyksillä