AQUAINT-2 Information-Retrieval Text Research Collection数据集介绍,官网编号LDC2008T25
2026/6/6 4:35:20 网站建设 项目流程

AQUAINT-2 Information-Retrieval Text Research Collection(LDC2008T25)是 LDC 于 2008 年发布的大规模英文新闻检索文本集合,由 Ellen Voorhees 与 David Graff 开发,为 AQUAINT 计划扩展资源,主要用于信息检索、问答与文本摘要等任务,是 TREC 等权威评测的核心基准数据集。以下从核心信息、数据构成、格式、获取方式与应用方向等方面详细介绍:

一、核心基础信息

项目详情
数据集全称AQUAINT-2 Information-Retrieval Text Research Collection
挂网编号LDC2008T25
发布机构LDC(Linguistic Data Consortium),2008 年发布,开发者为 Ellen Voorhees 与 David Graff
核心规模含约 240 万篇英文新闻文档,总词量超 10 亿词,覆盖 2000-2006 年新闻内容
主要来源美联社(AP Worldstream)、纽约时报新闻社(NYT News Service)、新华社(Xinhua News Agency)三大机构的新闻专线文本
开发背景作为 AQUAINT-1 的扩展版本,为 ARDA 的 AQUAINT 计划构建,用于 NIST TREC 评测与信息检索、问答系统研究

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询