Esimerkissä käytetyn hermoverkon arkkitehtuuri on myötäkytkentäinen neuroverkko, jossa on kolme kerrosta: tulokerros, piilotettu kerros ja lähtökerros. Syöttökerros koostuu 784 yksiköstä, mikä vastaa syöttökuvan pikselien määrää. Jokainen syöttökerroksen yksikkö edustaa kuvan pikselin intensiteettiarvoa.
Piilotettu kerros koostuu 128 yksiköstä, jotka on kytketty täysin syöttökerrokseen. Jokainen piilotetun kerroksen yksikkö laskee syöttökerroksen tulojen painotetun summan ja käyttää aktivointifunktiota tulosteen tuottamiseksi. Tässä esimerkissä piilokerroksessa käytetty aktivointitoiminto on ReLU (Rectified Linear Unit) -toiminto. ReLU-funktio määritellään f(x) = max(0, x), missä x on yksikön tulojen painotettu summa. ReLU-funktio tuo verkkoon epälineaarisuuden, jolloin se voi oppia monimutkaisia kuvioita ja suhteita tiedoissa.
Tulostuskerros koostuu 10 yksiköstä, joista jokainen edustaa yhtä luokitusongelman mahdollisista luokista. Tuloskerroksen yksiköt on myös täysin yhdistetty piilokerroksen yksiköihin. Samoin kuin piilotettu kerros, jokainen tuloskerroksen yksikkö laskee painotetun summan piilotetun kerroksen tuloista ja käyttää aktivointifunktiota. Tässä esimerkissä lähtökerroksessa käytetty aktivointitoiminto on softmax-funktio. Softmax-funktio muuntaa syötteiden painotetun summan todennäköisyysjakaumaksi luokkien kesken, jossa todennäköisyyksien summa on 1. Suurimman todennäköisyyden omaava yksikkö edustaa syötekuvan ennustettua luokkaa.
Yhteenvetona voidaan todeta, että esimerkissä käytetty hermoverkkoarkkitehtuuri koostuu syöttökerroksesta, jossa on 784 yksikköä, piilokerroksesta, jossa on 128 yksikköä ReLU-aktivointitoimintoa ja 10 yksikön lähtökerrosta, joka käyttää softmax-aktivointitoimintoa.
Muita viimeaikaisia kysymyksiä ja vastauksia liittyen Neuroverkon rakentaminen luokituksen suorittamiseksi:
- Onko tarpeen käyttää asynkronista oppimistoimintoa koneoppimismalleissa, jotka toimivat TensorFlow.js:ssa?
- Miten malli kootaan ja opetetaan TensorFlow.js:ssa, ja mikä on kategorisen ristientropiahäviöfunktion rooli?
- Mikä on oppimisnopeuden ja aikakausien lukumäärän merkitys koneoppimisprosessissa?
- Miten harjoitustiedot jaetaan harjoitus- ja testisarjoiksi TensorFlow.js:ssa?
- Mikä on TensorFlow.js:n tarkoitus hermoverkon rakentamisessa luokitustehtäviä varten?