1. 環(huán)境準(zhǔn)備
MySQL 5.7.6之前,全文索引只支持英文全文索引,不支持中文全文索引,需要利用分詞器把中文段落預(yù)處理拆分成單詞,然后存入數(shù)據(jù)庫(kù)。 MySQL 5.7.6開始,MySQL內(nèi)置了ngram全文解析器,用來(lái)支持中文、日文、韓文分詞。 本文使用的MySQL 版本是5.7.22,InnoDB數(shù)據(jù)庫(kù)引擎。
所以這里需要MySQL的版本大于5.7.6
1
2
3
4
5
6
7
8
|
-- 查看mysql的版本 mysql> select version(); + -----------+ | version() | + -----------+ | 5.7.33 | + -----------+ 1 row in set (0.02 sec) |
在 mysql 配置文件中添加分詞以及最小詞語(yǔ)長(zhǎng)度 (如果已經(jīng)配置可以忽略)
ft_min_word_len 最小字符長(zhǎng)度默認(rèn)為 4,在英文條件下確實(shí)比較合理中文情況下需要修改;
ngram_token_size 分詞的最小長(zhǎng)度 舉個(gè)例子 不同長(zhǎng)度對(duì) 你好世界 的分詞
1
2
3
4
|
n=1: '你' , '好' , '世' , '界' n=2: '你好' , '好世' , '世界' n=3: '你好世' , '好世界' n=4: '你好世界' |
1
2
3
4
5
6
7
8
9
10
11
12
|
# /etc/mysql/mysql.conf.d/mysqld.cnf ft_min_word_len = 2 ngram_token_size = 2 # 如果沒有則新增配置 echo 'ft_min_word_len = 2 ngram_token_size = 2' >> mysqld.cnf # 重啟服務(wù) /etc/init .d /mysql restart |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
-- 查看配置 mysql> SHOW VARIABLES LIKE 'ft_min_word_len' ; SHOW VARIABLES LIKE 'ngram_token_size' ; + -----------------+-------+ | Variable_name | Value | + -----------------+-------+ | ft_min_word_len | 2 | + -----------------+-------+ 1 row in set (0.02 sec) + ------------------+-------+ | Variable_name | Value | + ------------------+-------+ | ngram_token_size | 2 | + ------------------+-------+ 1 row in set (0.03 sec) |
2. 數(shù)據(jù)準(zhǔn)備
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
|
-- mysql 于全文檢索的demo mysql> CREATE TABLE `articles` ( `id` int (10) unsigned NOT NULL AUTO_INCREMENT, `title` varchar (50) DEFAULT NULL COMMENT '主題' , `content` longtext NOT NULL COMMENT '內(nèi)容' , PRIMARY KEY (`id`), FULLTEXT KEY `title_content_index` (`content`,`title`) /*!50100 WITH PARSER `ngram` */ ) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=utf8; Query OK, 0 rows affected (0.20 sec) mysql> INSERT INTO articles (`title`, `content`) VALUES ( '如果' , '今生今世 永不再將你想起 除了 除了在有些個(gè) 因落淚而濕潤(rùn)的夜里 如果 如果你愿意' ), ( '愛情' , '有一天路標(biāo)遷了希望你能從容 有一天橋墩斷了希望你能渡越 有一天棟梁倒了希望你能堅(jiān)強(qiáng) 有一天期待蔫了希望你能理解' ), ( '遠(yuǎn)和近' , '你 一會(huì)看我 一會(huì)看云 我覺得 你看我時(shí)很遠(yuǎn) 你看云時(shí)很近' ), ( '斷章' , '你站在橋上看風(fēng)景, 看風(fēng)景人在樓上看你。 明月裝飾了你的窗子, 你裝飾了別人的夢(mèng)。' ), ( '獨(dú)語(yǔ)' , '我向你傾吐思念 你如石像 沉默不應(yīng) 如果沉默是你的悲抑 你知道這悲抑 最傷我心' ); Query OK, 5 rows affected (0.08 sec) Records: 5 Duplicates: 0 Warnings: 0 mysql> SELECT * from articles where match(content, title) against( '風(fēng)景' in NATURAL LANGUAGE MODE) LIMIT 10; + ----+--------+--------------------------------------------------------------------------------------------------------------------------+ | id | title | content | + ----+--------+--------------------------------------------------------------------------------------------------------------------------+ | 10 | 斷章 | 你站在橋上看風(fēng)景, 看風(fēng)景人在樓上看你。 明月裝飾了你的窗子, 你裝飾了別人的夢(mèng)。 | + ----+--------+--------------------------------------------------------------------------------------------------------------------------+ 1 row in set (0.02 sec) |
3. 開始表演
- 自然語(yǔ)言模式(NATURAL LANGUAGE MODE)
自然語(yǔ)言模式是MySQL 默認(rèn)的全文檢索模式。自然語(yǔ)言模式不能使用操作符,不能指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)等復(fù)雜查詢。
- 布隆模式(BOOLEAN MODE)
BOOLEAN模式可以使用操作符,可以支持指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)或者關(guān)鍵詞的權(quán)重高還是低等復(fù)雜查詢。
- 查詢擴(kuò)展(QUERY EXPANSION)
查詢的結(jié)果不僅匹配出結(jié)果同時(shí)可以聯(lián)想出其他你需要的結(jié)果。(類似關(guān)聯(lián)查詢,但是官網(wǎng)推薦僅支持短語(yǔ)查詢 否則會(huì)出現(xiàn)很多臟數(shù)據(jù))
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
|
-- 自然語(yǔ)言模式(NATURAL LANGUAGE MODE)查詢并得到評(píng)分 mysql> SELECT id, title, MATCH ( content, title ) against ( '風(fēng)景' IN NATURAL LANGUAGE MODE ) AS score FROM articles; + ----+-----------+--------------------+ | id | title | score | + ----+-----------+--------------------+ | 7 | 如果 | 0 | | 8 | 愛情 | 0 | | 9 | 遠(yuǎn)和近 | 0 | | 10 | 斷章 | 0.9771181344985962 | | 11 | 獨(dú)語(yǔ) | 0 | + ----+-----------+--------------------+ 5 rows in set (0.02 sec) -- 布隆模式(BOOLEAN MODE) 可以組合查詢 mysql> SELECT id, title FROM articles where MATCH ( content, title ) against ( '+風(fēng)景 -愛情' IN BOOLEAN MODE ); + ----+--------+ | id | title | + ----+--------+ | 10 | 斷章 | + ----+--------+ 1 row in set (0.01 sec) -- 查詢擴(kuò)展(QUERY EXPANSION) 可以聯(lián)想出其他結(jié)果 mysql> SELECT id, title FROM articles where MATCH ( content, title ) against ( '風(fēng)景' WITH QUERY EXPANSION ); + ----+--------+ | id | title | + ----+--------+ | 10 | 斷章 | | 11 | 獨(dú)語(yǔ) | + ----+--------+ 2 rows in set (0.02 sec) |
4. 分詞引擎
目前官網(wǎng) MeCab Full-Text Parser 有支持日語(yǔ)的分詞插件(可以更好的理解語(yǔ)義)
內(nèi)置的 full-text parser 因?yàn)橛⑽闹袉卧~的邊界默認(rèn)是空格,所以在處理英文文本時(shí)可以簡(jiǎn)單的使用空格作為分隔符。但是在處理中文時(shí)需要理解語(yǔ)義的基礎(chǔ)上進(jìn)行有效的分詞,所以在處理中文、日文、韓文MySQL 提供了 ngram full-text (本文的配置就是 基于ngram的中文分詞)
總結(jié)
優(yōu)點(diǎn)
- 對(duì)比 like 查詢效率有提升(具體提升的測(cè)試沒有做)
- 全文搜索可以同時(shí)對(duì)多個(gè)字段做索引,like只能對(duì)單一字段搜索
對(duì)于中文的分詞可能需要在理解語(yǔ)義的基礎(chǔ)上才能有效的分詞;比如上文中的 你好世界(hello world)對(duì)于英文按空格切分就可以,中文則需要理解語(yǔ)義的基礎(chǔ)才能分成 你好/世界。
這里分享一下python中jieba分詞,有助于理解中文分詞的魅力
結(jié)巴分詞利用一個(gè)中文詞庫(kù),通過(guò)詞庫(kù)計(jì)算漢字之間構(gòu)成詞語(yǔ)的關(guān)聯(lián)概率,所以通過(guò)計(jì)算漢字之間的概率,就可以形成分詞的結(jié)果。
1
2
3
4
5
6
7
8
9
10
11
|
In [ 1 ]: import jieba In [ 2 ]: jieba.lcut( "你好世界" ) Building prefix dict from the default dictionary ... Dumping model to file cache / var / folders / st / b16fyn3s57x_5vszjl599njw0000gn / T / jieba.cache Loading model cost 0.937 seconds. Prefix dict has been built successfully. Out[ 2 ]: [ '你好' , '世界' ] In [ 3 ]: jieba.lcut( "hello world" ) Out[ 3 ]: [ 'hello' , ' ' , 'world' ] |
對(duì)于一般的項(xiàng)目mysql的全文索引可以解決80%的需求,它可以較為完美的支持中文的檢索、自動(dòng)分詞、結(jié)果排序、組合查詢等功能;但性能應(yīng)該是瓶頸,Elastissearch可以友好的實(shí)現(xiàn)全文檢索。
全文索引不能達(dá)到like的效果,連著的語(yǔ)句會(huì)因?yàn)榉衷~形成多個(gè)詞語(yǔ)。
參考資料
以上就是MySQL 全文檢索的使用示例的詳細(xì)內(nèi)容,更多關(guān)于MySQL 全文檢索的使用的資料請(qǐng)關(guān)注服務(wù)器之家其它相關(guān)文章!
原文鏈接:https://juejin.cn/post/6969887148036063239#heading-5