TŁO/ARXIV CS.AI
Rozróżnianie elicytacji zdolności od tworzenia zdolności w post-trainingu: perspektywa energii wolnej
Badanie rozróżnia między wywoływaniem istniejących zdolności modelu (SFT) a tworzeniem nowych zdolności praktycznych (RL). Autorzy argumentują, że to rozróżnienie powinno być kluczowe dla badań nad post-trainingiem LLM.
#POST-TRAINING#SFT#REINFORCEMENT-LEARNING