Skip to content

Latest commit

 

History

History
9 lines (5 loc) · 485 Bytes

README.md

File metadata and controls

9 lines (5 loc) · 485 Bytes

数据集

  • archive_consult.zip: 从全国数据量最多的前10个省级档案网站抓取的在线咨询交互数据,以XML格式保存。

  • odp4espm.zip: This is the ODP dataset used in paper: Generating Categorical Semantic Path via Explicit Semantic Path Mining

  • sohu-dataset: 抓取自sohu网站的1000个网页,附带标题、关键词、带格式的HTML正文内容,无格式的纯文本内容等信息,以XML格式保存。可用于关键词抽取测试。