实体抽取
- 中文实体抽取可用接口:
- hanNLP: Java
- pyltp: 哈工大提供的python包
- spaCy: python 简易自然语言处理包
- coreNLP:斯坦福的java自然语言处理包,默认支持英文,可加载中文模型。coreNLP中文模型加载参考
关键词
- tf*idf
- Text Rank (类似PageRank的算法)
特征选择
- 基于统计的方法
- TF-IDF
- 信息增益(Information Gain IG)
- 期望交叉熵 (Cross Entropy)
- 互信息 (Mutual Information)
- 文本证据权 (Weight of Evidence)
- 几率比 (Odds)
- 卡方统计量
- 优化算法
- 遗传算法(遗传算法在文本特征选择中的应用研究)[http://www.doc88.com/p-4184726156442.html]
文本特征向量表示
- VSM (向量空间模型)
- word2vec
- sentence2vec
- doc2vec
情感分析
- 深度学习: CNN情感分类