SKIM.AIŹRÓDŁAADMIN
← POWRÓT
TŁO/ARXIV CS.AI

Rozróżnianie elicytacji zdolności od tworzenia zdolności w post-trainingu: perspektywa energii wolnej

Badanie rozróżnia między wywoływaniem istniejących zdolności modelu (SFT) a tworzeniem nowych zdolności praktycznych (RL). Autorzy argumentują, że to rozróżnienie powinno być kluczowe dla badań nad post-trainingiem LLM.

#POST-TRAINING#SFT#REINFORCEMENT-LEARNING