前言
jieba 基于Python的中文分詞工具,安裝使用非常方便,直接pip即可,2/3都可以,功能強悍,十分推薦。
中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。
分詞模塊jieba,它是python比較好用的分詞模塊。待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建議直接輸入 GBK 字符串,可能無法預料地錯誤解碼成 UTF-8
支持三種分詞模式
1 精確模式,試圖將句子最精確地切開,適合文本分析;
2 全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;
3 搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
# 精確模式 seg_list = jieba.cut("我去過清華大學和北京大學。")
# 全模式 seg_list = jieba.cut("我去過清華大學和北京大學。", cut_all=True)
# 搜索引擎模式 seg_list = jieba.cut_for_search("我去過清華大學和北京大學。")
#精確模式: 我/ 去過/ 清華大學/ 和/ 北京大學/ 。
#全模式: 我/ 去過/ 清華/ 清華大學/ 華大/ 大學/ 和/ 北京/ 北京大學/ 大學/ /
#搜索引擎模式: 我/ 去過/ 清華/ 華大/ 大學/ 清華大學/ 和/ 北京/ 大學/ 北京大學/
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
#coding=utf-8 import jieba. analyse stopwords = [] for word in open ( 'stopwords.txt' , 'r' ): stopwords.append(word.strip()) article = open ( '1.txt' , 'r' ).read() words = jieba.cut(article,cut_all = False ) stayed_line = "" for word in words: if word.encode( "utf-8" ) not in stopwords: stayed_line + = word + " " print stayed_line w = open ( '2.txt' , 'w' ) w.write(stayed_line.encode( 'utf-8' )) |
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對服務器之家的支持。
原文鏈接:http://www.cnblogs.com/52circle/p/8540511.html