中国av在线免费观看,操射视频,久久久久电影

1. 環(huán)境準(zhǔn)備

MySQL 5.7.6之前，全文索引只支持英文全文索引，不支持中文全文索引，需要利用分詞器把中文段落預(yù)處理拆分成單詞，然后存入數(shù)據(jù)庫(kù)。 MySQL 5.7.6開始，MySQL內(nèi)置了ngram全文解析器，用來(lái)支持中文、日文、韓文分詞。本文使用的MySQL 版本是5.7.22，InnoDB數(shù)據(jù)庫(kù)引擎。

所以這里需要MySQL的版本大于5.7.6

				?

									-- 查看mysql的版本

									mysql> select version();

									+-----------+

									| version() |

									+-----------+

									| 5.7.33    |

									+-----------+

									1 row in set (0.02 sec)

在 mysql 配置文件中添加分詞以及最小詞語(yǔ)長(zhǎng)度（如果已經(jīng)配置可以忽略）

ft_min_word_len 最小字符長(zhǎng)度默認(rèn)為 4，在英文條件下確實(shí)比較合理中文情況下需要修改；

ngram_token_size 分詞的最小長(zhǎng)度舉個(gè)例子不同長(zhǎng)度對(duì) 你好世界的分詞

				?

									n=1: '你', '好', '世', '界'

									n=2: '你好', '好世', '世界'

									n=3: '你好世', '好世界'

									n=4: '你好世界'

				?

									# /etc/mysql/mysql.conf.d/mysqld.cnf

									ft_min_word_len = 2

									ngram_token_size = 2

									# 如果沒有則新增配置

									echo 'ft_min_word_len = 2

									ngram_token_size = 2' >> mysqld.cnf

									# 重啟服務(wù)

									/etc/init.d/mysql restart

				?

									-- 查看配置

									mysql> 

									SHOW VARIABLES LIKE 'ft_min_word_len';

									SHOW VARIABLES LIKE 'ngram_token_size';

									+-----------------+-------+

									| Variable_name   | Value |

									+-----------------+-------+

									| ft_min_word_len | 2     |

									+-----------------+-------+

									1 row in set (0.02 sec)

									+------------------+-------+

									| Variable_name    | Value |

									+------------------+-------+

									| ngram_token_size | 2     |

									+------------------+-------+

									1 row in set (0.03 sec)

2. 數(shù)據(jù)準(zhǔn)備

									-- mysql 于全文檢索的demo

									mysql> CREATE TABLE `articles` (

									  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,

									  `title` varchar(50) DEFAULT NULL COMMENT '主題',

									  `content` longtext NOT NULL COMMENT '內(nèi)容',

									  PRIMARY KEY (`id`),

									  FULLTEXT KEY `title_content_index` (`content`,`title`) /*!50100 WITH PARSER `ngram` */ 

									) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=utf8;

									Query OK, 0 rows affected (0.20 sec)

									mysql> INSERT INTO articles (`title`, `content`) VALUES

									        ('如果','今生今世 永不再將你想起 

									除了

									除了在有些個(gè)

									因落淚而濕潤(rùn)的夜里 如果

									如果你愿意'),

									        ('愛情','有一天路標(biāo)遷了希望你能從容

									有一天橋墩斷了希望你能渡越

									有一天棟梁倒了希望你能堅(jiān)強(qiáng)

									有一天期待蔫了希望你能理解'),

									        ('遠(yuǎn)和近','你 一會(huì)看我

									一會(huì)看云

									我覺得

									你看我時(shí)很遠(yuǎn)

									你看云時(shí)很近'),

									        ('斷章','你站在橋上看風(fēng)景，

									看風(fēng)景人在樓上看你。

									明月裝飾了你的窗子，

									你裝飾了別人的夢(mèng)。'),

									        ('獨(dú)語(yǔ)','我向你傾吐思念

									你如石像

									沉默不應(yīng)

									如果沉默是你的悲抑

									你知道這悲抑

									最傷我心');

									Query OK, 5 rows affected (0.08 sec)

									Records: 5  Duplicates: 0  Warnings: 0

									mysql> SELECT * from articles where match(content, title) against('風(fēng)景' in  NATURAL LANGUAGE MODE) LIMIT 10;

									+----+--------+--------------------------------------------------------------------------------------------------------------------------+

									| id | title  | content                                                                                                                  |

									+----+--------+--------------------------------------------------------------------------------------------------------------------------+

									| 10 | 斷章 |  你站在橋上看風(fēng)景，

									看風(fēng)景人在樓上看你。

									明月裝飾了你的窗子，

									你裝飾了別人的夢(mèng)。 |

									+----+--------+--------------------------------------------------------------------------------------------------------------------------+

									1 row in set (0.02 sec)

3. 開始表演

自然語(yǔ)言模式(NATURAL LANGUAGE MODE)

自然語(yǔ)言模式是MySQL 默認(rèn)的全文檢索模式。自然語(yǔ)言模式不能使用操作符，不能指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)等復(fù)雜查詢。

布隆模式(BOOLEAN MODE)

BOOLEAN模式可以使用操作符，可以支持指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)或者關(guān)鍵詞的權(quán)重高還是低等復(fù)雜查詢。

查詢擴(kuò)展(QUERY EXPANSION)

查詢的結(jié)果不僅匹配出結(jié)果同時(shí)可以聯(lián)想出其他你需要的結(jié)果。（類似關(guān)聯(lián)查詢，但是官網(wǎng)推薦僅支持短語(yǔ)查詢否則會(huì)出現(xiàn)很多臟數(shù)據(jù)）

				?

									-- 自然語(yǔ)言模式（NATURAL LANGUAGE MODE）查詢并得到評(píng)分

									mysql> SELECT id, title, MATCH ( content, title ) against ( '風(fēng)景' IN NATURAL LANGUAGE MODE ) AS score  FROM articles;

									+----+-----------+--------------------+

									| id | title     | score              |

									+----+-----------+--------------------+

									|  7 | 如果    |                  0 |

									|  8 | 愛情    |                  0 |

									|  9 | 遠(yuǎn)和近 |                  0 |

									| 10 | 斷章    | 0.9771181344985962 |

									| 11 | 獨(dú)語(yǔ)    |                  0 |

									+----+-----------+--------------------+

									5 rows in set (0.02 sec)

									-- 布隆模式(BOOLEAN MODE) 可以組合查詢

									mysql> SELECT id, title  FROM articles where MATCH ( content, title ) against ( '+風(fēng)景 -愛情' IN BOOLEAN MODE );

									+----+--------+

									| id | title  |

									+----+--------+

									| 10 | 斷章 |

									+----+--------+

									1 row in set (0.01 sec)

									-- 查詢擴(kuò)展(QUERY EXPANSION) 可以聯(lián)想出其他結(jié)果 

									mysql> SELECT id, title  FROM articles where MATCH ( content, title ) against ( '風(fēng)景' WITH QUERY EXPANSION );

									+----+--------+

									| id | title  |

									+----+--------+

									| 10 | 斷章 |

									| 11 | 獨(dú)語(yǔ) |

									+----+--------+

									2 rows in set (0.02 sec)

4. 分詞引擎

目前官網(wǎng) MeCab Full-Text Parser 有支持日語(yǔ)的分詞插件（可以更好的理解語(yǔ)義）

內(nèi)置的 full-text parser 因?yàn)橛⑽闹袉卧~的邊界默認(rèn)是空格，所以在處理英文文本時(shí)可以簡(jiǎn)單的使用空格作為分隔符。但是在處理中文時(shí)需要理解語(yǔ)義的基礎(chǔ)上進(jìn)行有效的分詞，所以在處理中文、日文、韓文MySQL 提供了 ngram full-text （本文的配置就是基于ngram的中文分詞）

總結(jié)

優(yōu)點(diǎn)

對(duì)比 like 查詢效率有提升（具體提升的測(cè)試沒有做）
全文搜索可以同時(shí)對(duì)多個(gè)字段做索引，like只能對(duì)單一字段搜索

對(duì)于中文的分詞可能需要在理解語(yǔ)義的基礎(chǔ)上才能有效的分詞；比如上文中的你好世界（hello world）對(duì)于英文按空格切分就可以，中文則需要理解語(yǔ)義的基礎(chǔ)才能分成你好/世界。

這里分享一下python中jieba分詞，有助于理解中文分詞的魅力

結(jié)巴分詞利用一個(gè)中文詞庫(kù)，通過(guò)詞庫(kù)計(jì)算漢字之間構(gòu)成詞語(yǔ)的關(guān)聯(lián)概率，所以通過(guò)計(jì)算漢字之間的概率，就可以形成分詞的結(jié)果。

				?

									In [1]: import jieba

									In [2]: jieba.lcut("你好世界")

									Building prefix dict from the default dictionary ...

									Dumping model to file cache /var/folders/st/b16fyn3s57x_5vszjl599njw0000gn/T/jieba.cache

									Loading model cost 0.937 seconds.

									Prefix dict has been built successfully.

									Out[2]: ['你好', '世界']

									In [3]: jieba.lcut("hello world")

									Out[3]: ['hello', ' ', 'world']