Latihan ChatGPT

ChatGPT diperkasakan di atas sistem GPT-3.5 dengan bantuan pembelajaran terselia dan pembelajaran pengukuhan.[5] Kedua-dua pendekatan menggunakan pelatih manusia untuk meningkatkan prestasi model. Dalam kes pembelajaran terselia, model itu disediakan dengan perbualan di mana pelatih memainkan kedua-dua belah pihak: pengguna dan pembantu AI. Dalam langkah pengukuhan, manusia meletakkan kedudukan pertama pada respons yang telah dibuat oleh model dalam perbualan sebelumnya. Kedudukan ini digunakan untuk membuat "model ganjaran" yang diperhalusi lagi oleh model itu dengan beberapa lelaran Pengoptimuman Dasar Proksimal (PPO).[6][7] Algoritma PPO memberikan faedah jimat kos kepada algoritma pengoptimuman dasar kawasan amanah; ia menafikan banyak operasi pengiraan yang mahal dengan prestasi yang lebih pantas.[8][9] Model tersebut telah dilatih dengan kerjasama Microsoft melalui infrastruktur superkomputer Azure mereka.

Selain itu, OpenAI terus mengumpul data daripada pengguna ChatGPT yang boleh digunakan untuk melatih dan memperhalusi ChatGPT lagi. Pengguna dibenarkan mengundi sokong atau menolak respons yang mereka terima daripada ChatGPT; selepas undian, mereka juga boleh mengisi medan teks dengan maklum balas tambahan.[10][11]