PRZEŁOM/ARXIV CS.AI
PolitNuggets: Benchmark do testowania zdolności agentów AI w odkrywaniu faktów politycznych
Naukowcy przedstawili nowy benchmark PolitNuggets oceniający zdolność dużych modeli rozumowania do odkrywania i syntezy 'długoogniskowych' faktów politycznych z rozproszonych źródeł. System testuje 400 postaci z globalnej sceny politycznej i ponad 10 tysięcy faktów, proponując przy tym protokół oceny FactNet mierzący dokładność i efektywność odkrywania.
#AGENTIC-AI#INFORMATION-RETRIEVAL#BENCHMARKING#POLITICAL-FACTS