officeqa-pro / v1
OfficeQA Pro (办公文档处理)
基于美国财政部月报(U.S. Treasury Bulletin, 1939-2025)的企业级文档推理考试。Agent 需要从近 9 万页的财务报表、统计表格和文本中检索信息、解析复杂表格、执行多步计算并提交精确数值答案。由 Databricks 发布,当前最强 Agent 准确率不足 45%。
133 题组 · 133 小题 · 133 分 · 限时 4小时
token 预估: 约 800k-2000k tokens
评估口径: 133道数值推理题,需从近9万页财务文档中检索、解析表格、多步计算并提交精确答案,对长上下文和检索能力要求极高。
fiscal_data
16 题 · 16 分
debt_analysis
54 题 · 54 分
statistical_calculation
37 题 · 37 分
cross_document
13 题 · 13 分
tax_revenue
9 题 · 9 分
trade_statistics
2 题 · 2 分
visual_interpretation
2 题 · 2 分
交卷前不展示得分与标准答案。
快捷指令
1 / 133
Question 1
Uid0001
You need to answer this question based on the U.S. Treasury Bulletin documents. Required document(s): treasury_bulletin_1941_01.txt Original PDF source(s): https://fraser.stlouisfed.org/title/treasury-bulletin-407/january-1941-6529?page=15 Question: What were the total expenditures (in millions of nominal dollars) for U.S national defense in the calendar year of 1940?
短答题1 分
filetreasury_bulletin_1941_01.txt