Częścią czatu GPT jest uczenie przez wzmacnianie. Dzięki temu wygląda to inteligentnie (algorytm jest wzmacniany pozytywnie za bardziej ludzkie odpowiedzi). Najśmieszniejsze jest to, że w ten sposób szkoli się roboty, by stały się robotami-zabójcami.
Przynajmniej w ten sposób można nauczyć robota chodzić. Oto świetny przykład: Forget Boston Dynamics. This robot taught itself to walk.
W uczeniu wzmacniającym nagradzamy maszynę (nagroda to liczba lub wektor do maksymalizacji, a nie przekąska) za robienie właściwych rzeczy (jak poruszanie się po labiryncie). Ta "właściwa rzecz" nazywana jest "stanem". I może to być: stanie, chodzenie, zabijanie lub cokolwiek, co projektant chce, aby robot zrobił.
Ta seria stanów (w rzeczywistości jest to graf, ponieważ można odwiedzić każdy stan wiele razy) nazywa się Markov Decision Process (MDP). Jeśli chcesz dodać nagrody do obrazu, staje się to Markov Reward Process (MRP). Więcej o działaniu MDP i MRP przeczytasz w tym artykule: Understanding the Markov Decision Process (MDP).
Wyobraź sobie, że stan Twojego pracownika, którego chciałbyś uniknąć to "odejście z pracy", a stan, który chciałbyś osiągnąć to "bycie biegłym w". Patrząc z tej perspektywy - procesy uczenia się (lub, mówiąc szerzej, procesy zarządzania wydajnością) to MRP. Używasz nagród, aby zmienić czyjś stan.
I właśnie nad tym pracujemy teraz w One2tribe.