Miten Chat GPT on koulutettu?

kuinka chat-gpt koulutetaan-768x435-718x.jpg

Jos olet tuttu ChatGPTn kanssa, olet saattanut kuulla, että se on koulutettu laajalla sanakorpussilla. Mutta mitä tämä tarkalleen tarkoittaa? Tässä artikkelissa tutustumme siihen, mitkä ovat ChatGPT:n koulutuksen monimutkaisuudet."

ChatGPT on ennalta koulutettu kielimalli, joka on viritetty yhdistämällä valvottuja ja vahvistusoppimistekniikoita. ChatGPT:n koulutusprosessi sisälsi suuren määrän tekstidataa malliin ja sen parametrien säätämistä siten, että se voi tuottaa tekstiä, joka on samankaltaista kuin opetuskorpukseen tallennettu teksti.

Tässä prosessissa käytettiin valvomatonta oppimisasettelua, mikä tarkoittaa sitä, että malli ei saanut nimenomaista palautetta siitä, oliko sen luotu teksti oikein vai väärin. Sen sijaan malli säätää parametrejaan sen perusteella, kuinka todennäköistä luodun tekstin samankaltaisuus on koulutuskorpukseen tallennetun tekstin kanssa.

GPT-3, ChatGPT-3:n emomalli, on yksi suurimmista koskaan luoduista kielimalleista, jossa on 175 miljardia parametria ja 2048-tokenin mittainen konteksti. Se on koulutettu käyttäen satoja miljardeja sanoja Common Crawl, WebText2 -kirjastoista, Books1 / 2, Wikipedia englanniksi ja esimerkkejä CSS-, JSX-, Python- ja muista ohjelmointikielistä.

Käytetty koulutusmenetelmä GPT-3:lle on generatiivinen ennakko-opetus, mikä tarkoittaa, että se on koulutettu ennustamaan seuraavaa merkkiä tai sanaa syötteessä.

Paras Chat GPT vaihtoehto

Valvottu oppiminen

ChatGPT-malli viritettiin ihmistreenereiden ohjauksessa valvotun oppimisen avulla. Nämä kouluttajat kävivät keskusteluja ottaen sekä käyttäjän että tekoälyavustajan roolin.

He saivat malleilta ehdotuksia vastaustensa laatimiseen, jotka sekoitettiin InstructGPT-aineistoon, joka oli muunnettu dialogimuotoon.

Vahvistusoppiminen

Mallia parannettiin edelleen vahvistusoppimisen avulla käyttäen Proximal Policy Optimization (PPO) -tekniikkaa. Ihmiskouluttajat arvioivat aiemman keskustelun generoimat mallin vastaukset ja käyttivät näitä arvioita kehittääkseen palkintomalleja. Mallia hienosäädettiin sitten näiden palkintomallien perusteella.

Hienosäätöprosessi suoritettiin useita kertoja parempien tulosten saavuttamiseksi. PPO-algoritmit ovat kustannustehokkaampia verrattuna muihin algoritmeihin ja osoittavat nopeampia tuloksia, mikä tekee niistä ihanteellisia tähän prosessiin.

OpenAI jatkaa käyttäjien keräämistä ChatGPT:n vuorovaikutuksen yhteydessä, jota voidaan käyttää mallin parantamiseen ja hienosäätöön edelleen.

Käyttäjillä on mahdollisuus äänestää ChatGPT:n vastauksista joko ylä- tai alaäänillä, ja heillä on myös mahdollisuus antaa lisäpalautetta. Tämä tieto auttaa parantamaan mallin suorituskykyä ja tekemään siitä paremman generoimaan ihmisten kaltaista tekstiä.

Tiedot käytetty mallin koulutukseen

ChatGPT-3 on kielimalli, joka on hienosäädetty GPT-3.5-sarjasta. Sitä on koulutettu Azure AI-supertietokoneinfrastruktuurilla. Se on koulutettu valtavasta määrästä tekstiä, joka on kaapattu internetistä. tähän sisältyy kirjoja, keskustelufoorumeita, artikkeleita, verkkosivustoja, akateemisia papereita, koodia ja muita lähteitä.

ChatGPT-3:n koulutukseen käytetty tekstidatan korpus oli yli 45 teratavun suuruinen, mikä on erittäin suuri ja auttaa mallia tuottamaan tekstejä, jotka ovat samankaltaisia kuin mitä journalisti tai kirjailija saattaisi tuottaa.

Liittyvät artikkelit

Näytä lisää >>