CNN-kaf

这是基于论文《Convolutional Neural Networks for Sentence Classification》中作者源代码,经过修改和扩展的python项目。作者在论文中实现的是基于英语短句子的文本分类。经过修改，我们实现了在企业给的数据集上训练模型。另外我们实现了TF—IDF，计算所有词向量平均值的对于句子的建模方式，并且对比了SVM，RandomForest在同样数据集上的准确率。其中,RandomForest训练时采用10折交叉验证.使用到作者代码的是文件 BOW/trainGraph.py, 用到的是作者在论文中描述的CNN的model搭建过程,我们修改了部分参数来使模型适合本项目.

环境说明:python 2.7 需要安装有关的python库,如sklearn,keras,numpy,tensorflow等

1.目录说明（按照目录顺序）目录：average : 计算词向量的平均值(SVM&RandomForest) 内容：在这个文件夹中，实现了在均值情况下对于SVM和RandomForest分类效果的对比。词向量是基于Google的Word2Vec训练的，这部分工作是单独的代码，同项目文件一起提交。

目录：BOW : SVM & RandomForest & CNN 内容：这个目录下是使用了Bag of words来作为分类器的输入，对比了论文中的CNN，SVM和RandomForest。

目录：data 内容：目录下存放着所有企业给出的带标签的数据。五个维度分别以五个csv文件给出：business.csv/others.csv/platform.csv/product.csv/service.csv 分别对应业务/其他/平台/产品/服务五个维度. vectors.bin:基于35w条评论分词处理获得的词向量二进制文件. split.txt:基于35w条评论分词得到的结果,也是google word2vec的输入,其产出就是vectors.bin

目录:docs 内容:论文pdf

目录:TF-IDF 内容:目录下存放基于TF-IDF的输入下,各个分类器准确率对比的代码.

目录:word2vec_models 内容:论文中用到的word2vec模型

2.运行说明: 运行BOW,TF-IDF,计算词向量的平均值这三个目录下的trainGraph.py即可注:SVM模型训练耗时较长,需要等待大概30min左右. RandomForest很快,几秒钟可以给出结果.

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.idea		.idea
Average		Average
BOW		BOW
TF-IDF		TF-IDF
data		data
docs		docs
word2vec_models		word2vec_models
.DS_Store		.DS_Store
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

Average

Average

BOW

BOW

TF-IDF

TF-IDF

data

data

docs

docs

word2vec_models

word2vec_models

.DS_Store

.DS_Store

README.md

README.md

Repository files navigation

CNN-kaf

About

Releases

Packages

Contributors 4

Languages

DamonLiuTHU/CNN-kaf

Folders and files

Latest commit

History

Repository files navigation

CNN-kaf

About

Topics

Resources

Stars

Watchers

Forks

Languages