关键短语抽取; keyphrase extraction
- 安装sbt
- git clone git@github.com:iamxiatian/keyphrase.git
- cd keyphrase
- sbt compile
- IntelliJ IDEA安装scala和sbt插件,然后以工程方式打开build.sbt
关键短语抽取的测试类请参考:KeyphraseTest.scala
- 基于2015年以来中文图情档CSSCI期刊论文的标题、摘要和关键词构成的数据集,存放在 data/paper_abstract.csv
HTTP服务的入口为HttpServer类,该类会加载各个Restful API的处理类, API的处理类以Route结尾,如关键词抽取为KeywordRoute.scala文件。
HttpServer服务采用了spark java实现,默认会优先响应API的拦截处理, 没有对应的API时,则会读取www目录下的文件。