国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

Mysql|Sql Server|Oracle|Redis|MongoDB|PostgreSQL|Sqlite|DB2|mariadb|Access|數(shù)據(jù)庫(kù)技術(shù)|

服務(wù)器之家 - 數(shù)據(jù)庫(kù) - Mysql - MySQL 全文檢索的使用示例

MySQL 全文檢索的使用示例

2021-08-15 22:20火腿蛋炒飯 Mysql

全文檢索是指計(jì)算機(jī)索引程序通過(guò)掃描文章中的每一個(gè)詞,對(duì)每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶查詢時(shí),檢索程序就根據(jù)事先建立的索引進(jìn)行查找,并將查找的結(jié)果反饋給用戶的檢索方式。這個(gè)

1. 環(huán)境準(zhǔn)備

MySQL 5.7.6之前,全文索引只支持英文全文索引,不支持中文全文索引,需要利用分詞器把中文段落預(yù)處理拆分成單詞,然后存入數(shù)據(jù)庫(kù)。 MySQL 5.7.6開始,MySQL內(nèi)置了ngram全文解析器,用來(lái)支持中文、日文、韓文分詞。 本文使用的MySQL 版本是5.7.22,InnoDB數(shù)據(jù)庫(kù)引擎。

所以這里需要MySQL的版本大于5.7.6

?
1
2
3
4
5
6
7
8
-- 查看mysql的版本
mysql> select version();
+-----------+
| version() |
+-----------+
| 5.7.33    |
+-----------+
1 row in set (0.02 sec)

在 mysql 配置文件中添加分詞以及最小詞語(yǔ)長(zhǎng)度 (如果已經(jīng)配置可以忽略)

ft_min_word_len 最小字符長(zhǎng)度默認(rèn)為 4,在英文條件下確實(shí)比較合理中文情況下需要修改;

ngram_token_size 分詞的最小長(zhǎng)度 舉個(gè)例子 不同長(zhǎng)度對(duì) 你好世界 的分詞

?
1
2
3
4
n=1: '你', '好', '世', '界'
n=2: '你好', '好世', '世界'
n=3: '你好世', '好世界'
n=4: '你好世界'
?
1
2
3
4
5
6
7
8
9
10
11
12
# /etc/mysql/mysql.conf.d/mysqld.cnf
 
ft_min_word_len = 2
ngram_token_size = 2
 
 
# 如果沒有則新增配置
echo 'ft_min_word_len = 2
ngram_token_size = 2' >> mysqld.cnf
 
# 重啟服務(wù)
/etc/init.d/mysql restart
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
-- 查看配置
mysql>
SHOW VARIABLES LIKE 'ft_min_word_len';
SHOW VARIABLES LIKE 'ngram_token_size';
+-----------------+-------+
| Variable_name   | Value |
+-----------------+-------+
| ft_min_word_len | 2     |
+-----------------+-------+
1 row in set (0.02 sec)
 
+------------------+-------+
| Variable_name    | Value |
+------------------+-------+
| ngram_token_size | 2     |
+------------------+-------+
1 row in set (0.03 sec)

2. 數(shù)據(jù)準(zhǔn)備

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
-- mysql 于全文檢索的demo
 
mysql> CREATE TABLE `articles` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `title` varchar(50) DEFAULT NULL COMMENT '主題',
  `content` longtext NOT NULL COMMENT '內(nèi)容',
  PRIMARY KEY (`id`),
  FULLTEXT KEY `title_content_index` (`content`,`title`) /*!50100 WITH PARSER `ngram` */
) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=utf8;
Query OK, 0 rows affected (0.20 sec)
 
 
mysql> INSERT INTO articles (`title`, `content`) VALUES
        ('如果','今生今世 永不再將你想起
除了
除了在有些個(gè)
因落淚而濕潤(rùn)的夜里 如果
如果你愿意'),
        ('愛情','有一天路標(biāo)遷了希望你能從容
有一天橋墩斷了希望你能渡越
有一天棟梁倒了希望你能堅(jiān)強(qiáng)
有一天期待蔫了希望你能理解'),
        ('遠(yuǎn)和近','你 一會(huì)看我
一會(huì)看云
我覺得
你看我時(shí)很遠(yuǎn)
你看云時(shí)很近'),
        ('斷章','你站在橋上看風(fēng)景,
看風(fēng)景人在樓上看你。
明月裝飾了你的窗子,
你裝飾了別人的夢(mèng)。'),
        ('獨(dú)語(yǔ)','我向你傾吐思念
你如石像
沉默不應(yīng)
如果沉默是你的悲抑
你知道這悲抑
最傷我心');
 
Query OK, 5 rows affected (0.08 sec)
Records: 5  Duplicates: 0  Warnings: 0
 
mysql> SELECT * from articles where match(content, title) against('風(fēng)景' in  NATURAL LANGUAGE MODE) LIMIT 10;
+----+--------+--------------------------------------------------------------------------------------------------------------------------+
| id | title  | content                                                                                                                  |
+----+--------+--------------------------------------------------------------------------------------------------------------------------+
| 10 | 斷章 |  你站在橋上看風(fēng)景,
看風(fēng)景人在樓上看你。
明月裝飾了你的窗子,
你裝飾了別人的夢(mèng)。 |
+----+--------+--------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.02 sec)

3. 開始表演

  • 自然語(yǔ)言模式(NATURAL LANGUAGE MODE)

自然語(yǔ)言模式是MySQL 默認(rèn)的全文檢索模式。自然語(yǔ)言模式不能使用操作符,不能指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)等復(fù)雜查詢。

  • 布隆模式(BOOLEAN MODE)

BOOLEAN模式可以使用操作符,可以支持指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)或者關(guān)鍵詞的權(quán)重高還是低等復(fù)雜查詢。

  • 查詢擴(kuò)展(QUERY EXPANSION)

查詢的結(jié)果不僅匹配出結(jié)果同時(shí)可以聯(lián)想出其他你需要的結(jié)果。(類似關(guān)聯(lián)查詢,但是官網(wǎng)推薦僅支持短語(yǔ)查詢 否則會(huì)出現(xiàn)很多臟數(shù)據(jù))

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
-- 自然語(yǔ)言模式(NATURAL LANGUAGE MODE)查詢并得到評(píng)分
 
mysql> SELECT id, title, MATCH ( content, title ) against ( '風(fēng)景' IN NATURAL LANGUAGE MODE ) AS score  FROM articles;
+----+-----------+--------------------+
| id | title     | score              |
+----+-----------+--------------------+
|  7 | 如果    |                  0 |
|  8 | 愛情    |                  0 |
|  9 | 遠(yuǎn)和近 |                  0 |
| 10 | 斷章    | 0.9771181344985962 |
| 11 | 獨(dú)語(yǔ)    |                  0 |
+----+-----------+--------------------+
5 rows in set (0.02 sec)
 
-- 布隆模式(BOOLEAN MODE) 可以組合查詢
 
mysql> SELECT id, title  FROM articles where MATCH ( content, title ) against ( '+風(fēng)景 -愛情' IN BOOLEAN MODE );
+----+--------+
| id | title  |
+----+--------+
| 10 | 斷章 |
+----+--------+
1 row in set (0.01 sec)
 
-- 查詢擴(kuò)展(QUERY EXPANSION) 可以聯(lián)想出其他結(jié)果
mysql> SELECT id, title  FROM articles where MATCH ( content, title ) against ( '風(fēng)景' WITH QUERY EXPANSION );
+----+--------+
| id | title  |
+----+--------+
| 10 | 斷章 |
| 11 | 獨(dú)語(yǔ) |
+----+--------+
2 rows in set (0.02 sec)

4. 分詞引擎

目前官網(wǎng) MeCab Full-Text Parser 有支持日語(yǔ)的分詞插件(可以更好的理解語(yǔ)義)

內(nèi)置的 full-text parser 因?yàn)橛⑽闹袉卧~的邊界默認(rèn)是空格,所以在處理英文文本時(shí)可以簡(jiǎn)單的使用空格作為分隔符。但是在處理中文時(shí)需要理解語(yǔ)義的基礎(chǔ)上進(jìn)行有效的分詞,所以在處理中文、日文、韓文MySQL 提供了 ngram full-text (本文的配置就是 基于ngram的中文分詞)

總結(jié)

優(yōu)點(diǎn)

  • 對(duì)比 like 查詢效率有提升(具體提升的測(cè)試沒有做)
  • 全文搜索可以同時(shí)對(duì)多個(gè)字段做索引,like只能對(duì)單一字段搜索

對(duì)于中文的分詞可能需要在理解語(yǔ)義的基礎(chǔ)上才能有效的分詞;比如上文中的 你好世界(hello world)對(duì)于英文按空格切分就可以,中文則需要理解語(yǔ)義的基礎(chǔ)才能分成 你好/世界。

這里分享一下python中jieba分詞,有助于理解中文分詞的魅力

結(jié)巴分詞利用一個(gè)中文詞庫(kù),通過(guò)詞庫(kù)計(jì)算漢字之間構(gòu)成詞語(yǔ)的關(guān)聯(lián)概率,所以通過(guò)計(jì)算漢字之間的概率,就可以形成分詞的結(jié)果。

?
1
2
3
4
5
6
7
8
9
10
11
In [1]: import jieba
 
In [2]: jieba.lcut("你好世界")
Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/st/b16fyn3s57x_5vszjl599njw0000gn/T/jieba.cache
Loading model cost 0.937 seconds.
Prefix dict has been built successfully.
Out[2]: ['你好', '世界']
 
In [3]: jieba.lcut("hello world")
Out[3]: ['hello', ' ', 'world']

對(duì)于一般的項(xiàng)目mysql的全文索引可以解決80%的需求,它可以較為完美的支持中文的檢索、自動(dòng)分詞、結(jié)果排序、組合查詢等功能;但性能應(yīng)該是瓶頸,Elastissearch可以友好的實(shí)現(xiàn)全文檢索。

全文索引不能達(dá)到like的效果,連著的語(yǔ)句會(huì)因?yàn)榉衷~形成多個(gè)詞語(yǔ)。

參考資料

Mysql fulltext

以上就是MySQL 全文檢索的使用示例的詳細(xì)內(nèi)容,更多關(guān)于MySQL 全文檢索的使用的資料請(qǐng)關(guān)注服務(wù)器之家其它相關(guān)文章!

原文鏈接:https://juejin.cn/post/6969887148036063239#heading-5

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 日韩精品日韩激情日韩综合 | 中文字幕精品一区二区精品 | 国产在线观看高清 | 亚洲黄色一区二区 | 日本一区二区三区日本免费 | 欧美一区二区三区精品免费 | 99re| 亚洲色图综合 | 九热精品 | 久久久久久久9 | 国产高清一区二区三区 | 国产综合久久久 | www.夜夜骑| 精品第一页 | 亚洲精彩视频在线 | 免费午夜电影 | 亚洲综合二区 | 亚洲黄色一区二区 | 黄色a一级 | 老牛嫩草一区二区三区眼镜 | 激情久久av一区av二区av三区 | 插插射啊爱视频日a级 | 成人在线免费电影 | 在线播放亚洲 | 日韩电影一区二区在线观看 | 国产日韩一区二区 | 91免费观看| 成人片网址| 四虎影视4hu4虎成人 | 福利视频在线播放 | 日韩电影在线看 | 五月婷婷综合激情网 | 福利片在线观看 | 免费的av电影 | 欧美精品一二区 | 高清一区二区三区日本久 | 中文字幕综合在线 | 天天操天天插 | 欧美激情国产精品 | 噜噜噜在线观看免费视频日本 | 九九精品视频观看 |