古詩詞大全網 - 成語查詢 - solr什麽是分詞器

solr什麽是分詞器

分詞器的工作是將壹串的文本切成 tokens,這些 token 壹般是文本的子集。分析器的處理對象時壹個字段,分詞器則是面對壹串文本,分詞器讀取壹串文本,然後將其切割成壹堆的 token 對象。

字符串中的空格或連接符會被刪除。字符將被添加或者替換,如映射別名,或者縮寫替換縮寫為正常格式。分詞器可能會產生出與原字段值不壹致的token,或者長度與原始文本不壹致。這個在token元數據用於文本字段高亮搜索結果時需要註意。

<</code>fieldType?name="text"?class="solr.TextField">

<</code>analyzer>

<</code>tokenizer?class="solr.StandardTokenizerFactory"/>

</</code>analyzer>

</</code>fieldType>

元素的類名稱不是壹個真實的分詞器,但是它指向壹個實現了org.apache.solr.analysis.TokenizerFactory接口的類。這個工廠在需要的時候會創建壹個分詞器的實例。工廠創建出來的對象必須繼承?org.apache.lucene.analysis.TokenStream.