We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
我在尝试理解结巴分词的实现时,最先接触的资料是CSDN上的一系列博客,即对Python中文分词模块结巴分词算法过程的理解和分析,以及这篇之后的连续几篇。读过这几篇文章后,对于结巴分词的思路及具体实现会有很全面的了解。
另外,关于HMM模型的解释,可参考CppJieba的作者写的文章:中文分词之HMM模型详解。
有了上述准备,再看结巴分词的代码就不算困难了。
jieba的主页上提到其算法实现的核心部分包括:
看下来,这些确实是理解jieba的关键,而且也符合一次分词的完整过程。