PRZEŁOM/ARXIV CS.AI
Auto-Rubric jako nagroda: od ukrytych preferencji do jawnych kryteriów generatywnych
Praca proponuje metodę wyrażania preferencji człowieka w modelach generatywnych za pomocą jawnych rubryk zamiast skalarnych etykiet. Podejście to lepiej zachowuje wielowymiarową strukturę ludzkiego osądu i zmniejsza podatność na reward hacking.
#RLHF#REWARD-MODELING#MULTIMODAL-GENERATION