AI人工智能 RLHF再也不需要人類了!谷歌團隊研究證明,AI標注已達人類水平 最近,谷歌在研究中提出了用大模型代替人類,進行偏好標注,也就是AI反饋強化學習(RLAIF),結果發(fā)現(xiàn),RLAIF可以在不依賴人類標注員的情況下,產生與RLHF相當的改進效果。具體如何理解谷歌在最新研究中提出的RLAIF方法呢?不妨來看看本文的解讀。 新智元 ChatGPTRLHF大模型