PRZEŁOM/ARXIV CS.AI

PolitNuggets: Benchmark do testowania zdolności agentów AI w odkrywaniu faktów politycznych

Naukowcy przedstawili nowy benchmark PolitNuggets oceniający zdolność dużych modeli rozumowania do odkrywania i syntezy 'długoogniskowych' faktów politycznych z rozproszonych źródeł. System testuje 400 postaci z globalnej sceny politycznej i ponad 10 tysięcy faktów, proponując przy tym protokół oceny FactNet mierzący dokładność i efektywność odkrywania.

#AGENTIC-AI#INFORMATION-RETRIEVAL#BENCHMARKING#POLITICAL-FACTS

CZYTAJ ORYGINAŁ →