PRZEŁOM/ARXIV CS.AI

Auto-Rubric jako nagroda: od ukrytych preferencji do jawnych kryteriów generatywnych

Praca proponuje metodę wyrażania preferencji człowieka w modelach generatywnych za pomocą jawnych rubryk zamiast skalarnych etykiet. Podejście to lepiej zachowuje wielowymiarową strukturę ludzkiego osądu i zmniejsza podatność na reward hacking.

#RLHF#REWARD-MODELING#MULTIMODAL-GENERATION

CZYTAJ ORYGINAŁ →