PRZEŁOM/ARXIV CS.AI
ICRL: internalizacja krytyki poprzez reinforcement learning
Metoda ucząca modele językowe internalizować krytykę i poprawiać się bez zewnętrznej oceny. System wspólnie trenuje solver i krytyka, gdzie krytyk uczy się poprawiać feedback na podstawie wydajności solvera.
#SELF-IMPROVEMENT#REINFORCEMENT-LEARNING#LLM-AGENTS