也转为小写了)】 64 DicLibrary.insert(DicLibrary.DEFAULT
标签:
Ansj分词器 导入jar包ansj_seg-5.1.6.jar
nlp-lang-1.7.8.jar
maven配置<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>5.1.1</version>
</dependency>
代码演示1 import org.ansj.library.DicLibrary; 2 import org.ansj.splitWord.analysis.*; 3 import org.ansj.util.MyStaticValue; 4 5 6 /** 7 * AnsjAnalyzerTest 8 * 9 * @author limingcheng 10 * @Date 2019/11/26 11 */ 12 public class AnsjAnalyzerTest { 13 14 15 16 /** 17 * 基天职词(BaseAnalysis) 18 * 速度快 19 */ 20 public static void BaseAnalysisTest(){ 21 String words = "让兵士们过一个欢乐祥和的新春佳节。"; 22 System.out.println(BaseAnalysis.parse(words)); 23 } 24 25 /** 26 * 精准分词(ToAnalysis) 27 * 精准分词方法兼顾精度与速度,对照均衡 28 */ 29 public static void ToAnalysisTest(){ 30 String words = "让兵士们过一个欢乐祥和的新春佳节。"; 31 System.out.println(ToAnalysis.parse(words)); 32 } 33 34 /** 35 * NLP分词(NlpAnalysis) 36 * NLP分词方法可是未登录词,但速度较慢 37 */ 38 public static void NlpAnalysisTest(){ 39 String words = "洁面仪共同洁面深层清洁毛孔 清洁鼻孔面膜碎觉使劲挤才华出一点点皱纹 " + 40 "脸颊毛孔修复的看不见啦 草莓鼻历史遗留问题没辙 脸和脖子差不久不多颜色的皮肤才是健康的 " + 41 "恒久使用安适健康的比同龄人显小五到十岁 28岁的妹子看看你们的鱼尾纹。"; 42 System.out.println(NlpAnalysis.parse(words)); 43 } 44 45 /** 46 * 面向索引分词(IndexAnalysis) 47 */ 48 public static void IndexAnalysisTest(){ 49 String words = "洁面仪共同洁面深层清洁毛孔 清洁鼻孔面膜碎觉使劲挤才华出一点点皱纹"; 50 System.out.println(IndexAnalysis.parse(words)); 51 } 52 53 /** 54 * 自定词典分词(DicLibrary) 55 * 动态添加 56 */ 57 public static void DicLibraryTest(){ 58 //添加自界说词语 【 英文,凭据小写配置。(大写,不识别。拆词的功效,也转为小写了)】 59 DicLibrary.insert(DicLibrary.DEFAULT, "基于java", "n", 1); 60 61 String text = "基于Java开发的轻量级的中分分词工具包"; 62 63 System.out.println(DicAnalysis.parse(text)); 64 } 65 66 /** 67 * 自定词典分词(DicLibrary) 68 * 路径获取 69 */ 70 public static void DicLibraryPath(){ 71 // 封锁名字识别 72 MyStaticValue.isNameRecognition = false; 73 // 配置自界说词典的位置。注意是绝对路径 74 MyStaticValue.ENV.put(DicLibrary.DEFAULT, "E:\\indexDir\\library\\default.dic"); 75 76 String text = "基于Java开发的轻量级的中分分词工具包"; 77 78 System.out.println(DicAnalysis.parse(text)); 79 } 80 81 /** 82 * 自定词典分词(DicLibrary) 83 * 配置文件 84 */ 85 public static void DicLibraryProperties(){ 86 String text = "基于Java开发的轻量级的中分分词工具包"; 87 88 System.out.println(DicAnalysis.parse(text)); 89 } 90 91 public static void main(String[] args) { 92 // 基天职词 93 // BaseAnalysisTest(); 94 // // 精准分词 95 // ToAnalysisTest(); 96 // // NLP分词 97 // NlpAnalysisTest(); 98 // // 面向索引分词 99 // IndexAnalysisTest(); 100 // 词典分词(动态添加) 101 // DicLibraryTest(); 102 // 词典分词(路径) 103 // DicLibraryPath(); 104 // 词典分词(配置文件) 105 DicLibraryProperties(); 106 } 107 }
1.1.5. 搭配Lucene由于Ansj项目并没有供给analyzer,需要本身手动写一个来适配。因此,首先要创建以下几个类:
AnsjAnalyzer
温馨提示: 本文由Jm博客推荐,转载请保留链接: https://www.jmwww.net/file/web/30189.html