自动构建中文词库

博文的 java 实现,可以自动抽取语料库中的词汇,可以作为自然语言处理的第一步,准备词典。 成词条件 互信息 左右熵 位置成词概率 ngram 频率 运行方法

相关的项目 - 更多比较

Popular
523 6.6k 2.3k

S Stanford CoreNLP 提供了一系列自然语言的分析工具,对于用户提供的一段文字,无论是公司名,人名还是时间日期、数量,它都能提供出每个词语的组成与语法,并且用短语、词汇间的依赖关系来标记出语句的组成结构。
 
10.0 10.0
  昨天
671 5.2k 2.2k

A ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
 
2.9 0.0
  3月前
83 733 315

M MALLET是一个基于Java的软件包进行统计自然语言处理,文档分类,聚类,主题建模,信息提取以及其他机器学习应用到文本。
 
2.7 0.0
  3月前