PRZEŁOM/ARXIV CS.AI

ICRL: internalizacja krytyki poprzez reinforcement learning

Metoda ucząca modele językowe internalizować krytykę i poprawiać się bez zewnętrznej oceny. System wspólnie trenuje solver i krytyka, gdzie krytyk uczy się poprawiać feedback na podstawie wydajności solvera.

#SELF-IMPROVEMENT#REINFORCEMENT-LEARNING#LLM-AGENTS

CZYTAJ ORYGINAŁ →