Jotta voidaan tunnistaa, onko malli ylisovitettu, on ymmärrettävä ylisovituksen käsite ja sen vaikutukset koneoppimiseen. Ylisovitus tapahtuu, kun malli toimii poikkeuksellisen hyvin harjoitusdatalla, mutta ei pysty yleistämään uuteen, näkemättömään dataan. Tämä ilmiö on haitallinen mallin ennustekyvylle ja voi johtaa huonoon suorituskykyyn tosielämän skenaarioissa. Syvien hermoverkkojen ja Google Cloud Machine Learningin arvioijien yhteydessä on useita indikaattoreita, jotka voivat auttaa tunnistamaan ylisovituksen.
Yksi yleinen merkki ylisovituksesta on merkittävä ero mallin suorituskyvyn harjoittelutietojen ja sen suorituskyvyn välillä validointi- tai testidatan välillä. Kun malli on ylisovitettu, se "muistaa" koulutusesimerkit sen sijaan, että oppisi taustalla olevia malleja. Tämän seurauksena se voi saavuttaa suuren tarkkuuden harjoitussarjassa, mutta sen on vaikea tehdä tarkkoja ennusteita uusista tiedoista. Arvioimalla mallin suorituskykyä erillisellä validointi- tai testisarjalla voidaan arvioida, onko ylisovitusta tapahtunut.
Toinen osoitus ylisovituksesta on mallin koulutus- ja validointivirhesuhteiden suuri ero. Koulutusprosessin aikana malli yrittää minimoida virheensä säätämällä parametrejaan. Kuitenkin, jos mallista tulee liian monimutkainen tai sitä harjoitetaan liian kauan, se voi alkaa sovittaa kohinaa harjoitustietoihin taustalla olevien kuvioiden sijaan. Tämä voi johtaa alhaiseen harjoitusvirhesuhteeseen, mutta huomattavasti korkeampaan validointivirhesuhteeseen. Näiden virhetasojen trendin seuraaminen voi auttaa tunnistamaan yliasennuksen.
Lisäksi mallin häviöfunktion käyttäytymisen tarkkaileminen voi antaa käsityksen ylisovituksesta. Häviöfunktio mittaa mallin ennustettujen tulosten ja todellisten tavoitteiden välistä ristiriitaa. Ylisovitetussa mallissa opetusdatan häviöfunktio voi jatkaa pienenemistä, kun taas validointidatan häviö alkaa kasvaa. Tämä osoittaa, että malli on yhä enemmän erikoistumassa koulutusesimerkkeihin ja menettää yleistyskykynsä.
Säännöllistämistekniikoita voidaan myös käyttää estämään liiallinen sovitus. Regularisointi tuo tappiofunktiolle rangaistuksen, joka estää mallin muuttumasta liian monimutkaiseksi. Tekniikat, kuten L1- tai L2-säännöstely, keskeyttäminen tai varhainen lopettaminen, voivat auttaa vähentämään ylisovitusta lisäämällä rajoitteita mallin oppimisprosessiin.
On tärkeää huomata, että ylisovitukseen voivat vaikuttaa useat tekijät, mukaan lukien harjoitustietojen koko ja laatu, malliarkkitehtuurin monimutkaisuus ja valitut hyperparametrit. Siksi on erittäin tärkeää arvioida huolellisesti näitä tekijöitä koulutuksen ja mallien arvioinnin aikana, jotta vältytään liiallistumiselta.
Syvien hermoverkkojen ja estimaattien ylisovituksen tunnistamiseen kuuluu validointi- tai testidatan suorituskyvyn analysointi, koulutus- ja validointivirhesuhteiden välisen eron tarkkailu, häviöfunktion käyttäytymisen tarkkailu ja regularisointitekniikoiden käyttäminen. Ymmärtämällä nämä indikaattorit ja ryhtymällä asianmukaisiin toimenpiteisiin voidaan lieventää yliasennuksen haitallisia vaikutuksia ja rakentaa kestävämpiä ja yleistettävissä olevia malleja.
Muita viimeaikaisia kysymyksiä ja vastauksia liittyen Syvät hermoverkot ja estimaattorit:
- Voidaanko syväoppiminen tulkita syvään hermoverkkoon (DNN) perustuvan mallin määrittelemiseksi ja opettamiseksi?
- Voiko Googlen TensorFlow-kehys nostaa abstraktiotasoa koneoppimismallien kehittämisessä (esim. koodaus korvaamalla konfiguraatiolla)?
- Pitääkö paikkansa, että jos aineisto on suuri, tarvitsee vähemmän arviointia, mikä tarkoittaa, että arvioinnissa käytettävän aineiston osaa voidaan pienentää aineiston koon kasvaessa?
- Voiko kerrosten lukumäärää ja solmujen määrää yksittäisissä kerroksissa helposti hallita (lisäämällä ja poistamalla) muuttamalla syvän hermoverkon (DNN) piiloargumenttina toimitettua taulukkoa?
- Mitä ovat hermoverkot ja syvät neuroverkot?
- Miksi syviä hermoverkkoja kutsutaan syväksi?
- Mitkä ovat solmujen lisäämisen edut ja haitat DNN:hen?
- Mikä on katoavan gradientin ongelma?
- Mitkä ovat syvien hermoverkkojen käytön haittoja lineaarisiin malleihin verrattuna?
- Mitä lisäparametreja voidaan mukauttaa DNN-luokittimessa, ja miten ne vaikuttavat syvän neuroverkon hienosäätöön?
Katso lisää kysymyksiä ja vastauksia Deep neuroverkot ja estimaattorit -osiossa