AQUAINT-2 Information-Retrieval Text Research Collection(LDC2008T25)是 LDC 于 2008 年发布的大规模英文新闻检索文本集合,由 Ellen Voorhees 与 David Graff 开发,为 AQUAINT 计划扩展资源,主要用于信息检索、问答与文本摘要等任务,是 TREC 等权威评测的核心基准数据集。以下从核心信息、数据构成、格式、获取方式与应用方向等方面详细介绍:
一、核心基础信息
| 项目 | 详情 |
|---|---|
| 数据集全称 | AQUAINT-2 Information-Retrieval Text Research Collection |
| 挂网编号 | LDC2008T25 |
| 发布机构 | LDC(Linguistic Data Consortium),2008 年发布,开发者为 Ellen Voorhees 与 David Graff |
| 核心规模 | 含约 240 万篇英文新闻文档,总词量超 10 亿词,覆盖 2000-2006 年新闻内容 |
| 主要来源 | 美联社(AP Worldstream)、纽约时报新闻社(NYT News Service)、新华社(Xinhua News Agency)三大机构的新闻专线文本 |
| 开发背景 | 作为 AQUAINT-1 的扩展版本,为 ARDA 的 AQUAINT 计划构建,用于 NIST TREC 评测与信息检索、问答系统研究 |