TŁO/ARXIV CS.AI
Zrozumienie polityk bezpieczeństwa adnotatorów poprzez interpretowalnośc
Artykuł analizuje przyczyny rozbieżności w ocenach adnotatorów dotyczących bezpieczeństwa AI, wyróżniając błędy operacyjne, nieprecyzyjność polityk oraz różne wartości annotatorów. Badanie skupia się na metodach interpretacji i rozróżniania źródeł niezgodności w procesie tworzenia bezpiecznych modeli AI.
#SAFETY POLICIES#ANNOTATOR DISAGREEMENT#AI ALIGNMENT