天天干狠狠操,久久av一区二区三区,中文字幕一区二区三区精彩视频

前言

我們在對英文句子分詞的時候，一般采用采用的分詞器是whitespacetokenizerfactory，有一次因業務要求，需要根據某一個特殊字符（以逗號分詞，以豎線分詞）分詞。感覺這種需求可能與whitespacetokenizerfactory相像，于是自己根據solr源碼自定義了分詞策略。

業務場景

有一次，我拿到的數據都是以豎線“|”分隔，分詞的時候，需要以豎線為分詞單元。比如下面的這一堆數據：

Solr通過特殊字符分詞實現自定義分詞器詳解

有可能你拿到的是這樣的數據，典型的例子就是來自csv文件的數據，格式和下面這種類似：

Solr通過特殊字符分詞實現自定義分詞器詳解

分詞思路

在solr的schema.xml文件中，有這樣的配置

									<fieldtype name="text_ws" class="solr.textfield" positionincrementgap="100">

									 <analyzer>

									  <tokenizer class="solr.whitespacetokenizerfactory"/>

									 </analyzer>

									</fieldtype>

對于字段類型text_ws，指定了一個分詞器工廠whitespacetokenizerfactory，根據這個類，可以實現通過空格來分詞，那么我通過豎線分詞的代碼應該與之類似。

修改源碼

在java工程中引入如下jar包：

									<dependency>

									  <groupid>org.apache.solr</groupid>

									  <artifactid>solr-core</artifactid>

									  <version>6.0.0</version>

									</dependency>

參照whitespacetokenizerfactory的源碼，寫一個自己的myverticallinetokenizerfactory，內容基本不變：

									package com.trainning.project.custom;

									import java.util.arrays;

									import java.util.collection;

									import java.util.map;

									import org.apache.lucene.analysis.tokenizer;

									import org.apache.lucene.analysis.core.unicodewhitespacetokenizer;

									import org.apache.lucene.analysis.util.tokenizerfactory;

									import org.apache.lucene.util.attributefactory;

									/**

									* @author jiangchao

									* @date 2017年4月2日下午3:41:13

									*/

									public class myverticallinetokenizerfactory extends tokenizerfactory{

									 public static final string rule_java = "java";

									 public static final string rule_unicode = "unicode";

									 private static final collection<string> rule_names = arrays.aslist(rule_java, rule_unicode);

									 private final string rule;

									 /** creates a new myverticallinetokenizerfactory */

									 public myverticallinetokenizerfactory(map<string,string> args) {

									  super(args);

									  rule = get(args, "rule", rule_names, rule_java);

									  if (!args.isempty()) {

									  throw new illegalargumentexception("unknown parameters: " + args);

									  }

									 }

									 @override

									 public tokenizer create(attributefactory factory) {

									  switch (rule) {

									  case rule_java:

									   return new myverticallinetokenizer(factory);

									  case rule_unicode:

									   return new unicodewhitespacetokenizer(factory);

									  default:

									   throw new assertionerror();

									  }

									 }

									}

具體做分詞的myverticallinetokenizer代碼如下

									package com.trainning.project.custom;

									import org.apache.lucene.analysis.util.chartokenizer;

									import org.apache.lucene.util.attributefactory;

									/**

									* @author jiangchao

									* @date 2017年4月2日下午9:46:18

									*/

									public class myverticallinetokenizer extends chartokenizer {

									 public myverticallinetokenizer() {

									 }

									 public myverticallinetokenizer(attributefactory factory) {

									  super(factory);

									  }

									  /** collects only characters which do not satisfy

									  * 參數c指的是term的ascii值，豎線的值為 124

									  */

									  @override

									  protected boolean istokenchar(int c) {

									  return !(c == 124);

									  }

									}

這里最主要的方法就是istokenchar，它控制了分詞的字符，如果需要使用逗號分詞的話，字需要將這個方法修改成下面這樣：

									/** collects only characters which do not satisfy

									 * 參數c指的是term的ascii值，逗號的值為 44

									 */

									 @override

									 protected boolean istokenchar(int c) {

									 return !(c == 44);

									 }

整合

代碼寫好了，怎么使用呢？首先，需要把剛才的java文件打成jar包。我使用的是eclipse，直接選中兩個類文件，右鍵 -> export -> jar file -> select the export destination: ->選擇輸出路徑，填一個jar名字：myverticallinetokenizerfactory -> finish

得到的myverticallinetokenizerfactory.jar文件大約3kb，將改文件放置到.\solr_home\lib下，在shcema.xml中定義自己的field

									<fieldtype name="vertical_text" class="solr.textfield">

									 <analyzer>

									  <tokenizer class="com.trainning.project.custom.myverticallinetokenizerfactory"/>

									 </analyzer>

									 </fieldtype>

									 <field name="custom" type="vertical_text" indexed="true" stored="false"/>