TDT5 Multilingual Text数据集介绍,官网编号LDC2006T18
2026/6/6 13:29:29 网站建设 项目流程

TDT5 Multilingual Text(LDC2006T18)是 LDC 于 2006 年发布的多语种话题检测与跟踪(TDT)基准语料库,核心用于 2004 年 NIST TDT 技术评测,为英文、阿拉伯文、中文的话题检测、跟踪、关联等任务提供标注数据与标准基准,是早期多语种 TDT 研究的核心资源。以下从核心信息、内容构成、数据特性、应用价值与局限展开说明。

一、核心基础信息

信息类别详情
数据集全称TDT5 Multilingual Text
官网编号LDC2006T18
发布机构美国语言数据联盟(LDC)
发布时间2006 年
语种覆盖英文、阿拉伯文、中文
语料规模总计 407,503 条新闻报道,含训练集、测试集与开发集
语料来源路透社、美联社、法新社等权威新闻专线,覆盖政治、经济、体育等多领域
核心用途话题检测与跟踪(TDT)、事件抽取、跨语言话题关联、文本聚类等
ISBN1-58563-417-4
数据格式XML,含文本内容与标注元数据,配套标注规范与评测脚本

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询