文章详情页

MySQL 全文检索的使用示例

浏览：99日期：2023-10-02 07:51:14

目录1. 环境准备2. 数据准备3. 开始表演4. 分词引擎总结参考资料1. 环境准备

MySQL 5.7.6之前，全文索引只支持英文全文索引，不支持中文全文索引，需要利用分词器把中文段落预处理拆分成单词，然后存入数据库。 MySQL 5.7.6开始，MySQL内置了ngram全文解析器，用来支持中文、日文、韩文分词。本文使用的MySQL 版本是5.7.22，InnoDB数据库引擎。

所以这里需要MySQL的版本大于5.7.6

-- 查看mysql的版本mysql> select version();+-----------+| version() |+-----------+| 5.7.33 |+-----------+1 row in set (0.02 sec)

在 mysql 配置文件中添加分词以及最小词语长度（如果已经配置可以忽略）

ft_min_word_len 最小字符长度默认为 4，在英文条件下确实比较合理中文情况下需要修改；

ngram_token_size 分词的最小长度举个例子不同长度对你好世界的分词

n=1: ’你’, ’好’, ’世’, ’界’ n=2: ’你好’, ’好世’, ’世界’ n=3: ’你好世’, ’好世界’ n=4: ’你好世界’

# /etc/mysql/mysql.conf.d/mysqld.cnfft_min_word_len = 2ngram_token_size = 2# 如果没有则新增配置echo ’ft_min_word_len = 2ngram_token_size = 2’ >> mysqld.cnf# 重启服务/etc/init.d/mysql restart

-- mysql 于全文检索的demomysql> CREATE TABLE `articles` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `title` varchar(50) DEFAULT NULL COMMENT ’主题’, `content` longtext NOT NULL COMMENT ’内容’, PRIMARY KEY (`id`), FULLTEXT KEY `title_content_index` (`content`,`title`) /*!50100 WITH PARSER `ngram` */ ) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=utf8;Query OK, 0 rows affected (0.20 sec) mysql> INSERT INTO articles (`title`, `content`) VALUES(’如果’,’今生今世永不再将你想起除了除了在有些个因落泪而湿润的夜里如果如果你愿意’),(’爱情’,’有一天路标迁了希望你能从容有一天桥墩断了希望你能渡越有一天栋梁倒了希望你能坚强有一天期待蔫了希望你能理解’),(’远和近’,’你一会看我一会看云我觉得你看我时很远你看云时很近’),(’断章’,’你站在桥上看风景，看风景人在楼上看你。明月装饰了你的窗子，你装饰了别人的梦。’),(’独语’,’我向你倾吐思念你如石像沉默不应如果沉默是你的悲抑你知道这悲抑最伤我心’);Query OK, 5 rows affected (0.08 sec)Records: 5 Duplicates: 0 Warnings: 0 mysql> SELECT * from articles where match(content, title) against(’风景’ in NATURAL LANGUAGE MODE) LIMIT 10;+----+--------+--------------------------------------------------------------------------------------------------------------------------+| id | title | content |+----+--------+--------------------------------------------------------------------------------------------------------------------------+| 10 | 断章 | 你站在桥上看风景，看风景人在楼上看你。明月装饰了你的窗子，你装饰了别人的梦。 |+----+--------+--------------------------------------------------------------------------------------------------------------------------+1 row in set (0.02 sec)3. 开始表演自然语言模式(NATURAL LANGUAGE MODE)

自然语言模式是MySQL 默认的全文检索模式。自然语言模式不能使用操作符，不能指定关键词必须出现或者必须不能出现等复杂查询。

布隆模式(BOOLEAN MODE)

BOOLEAN模式可以使用操作符，可以支持指定关键词必须出现或者必须不能出现或者关键词的权重高还是低等复杂查询。

查询扩展(QUERY EXPANSION)

查询的结果不仅匹配出结果同时可以联想出其他你需要的结果。（类似关联查询，但是官网推荐仅支持短语查询否则会出现很多脏数据）

-- 自然语言模式（NATURAL LANGUAGE MODE）查询并得到评分mysql> SELECT id, title, MATCH ( content, title ) against ( ’风景’ IN NATURAL LANGUAGE MODE ) AS score FROM articles;+----+-----------+--------------------+| id | title | score |+----+-----------+--------------------+| 7 | 如果 | 0 || 8 | 爱情 | 0 || 9 | 远和近 | 0 || 10 | 断章 | 0.9771181344985962 || 11 | 独语 | 0 |+----+-----------+--------------------+5 rows in set (0.02 sec)-- 布隆模式(BOOLEAN MODE) 可以组合查询mysql> SELECT id, title FROM articles where MATCH ( content, title ) against ( ’+风景 -爱情’ IN BOOLEAN MODE );+----+--------+| id | title |+----+--------+| 10 | 断章 |+----+--------+1 row in set (0.01 sec)-- 查询扩展(QUERY EXPANSION) 可以联想出其他结果 mysql> SELECT id, title FROM articles where MATCH ( content, title ) against ( ’风景’ WITH QUERY EXPANSION );+----+--------+| id | title |+----+--------+| 10 | 断章 || 11 | 独语 |+----+--------+2 rows in set (0.02 sec) 4. 分词引擎

目前官网 MeCab Full-Text Parser 有支持日语的分词插件（可以更好的理解语义）

内置的 full-text parser 因为英文中单词的边界默认是空格，所以在处理英文文本时可以简单的使用空格作为分隔符。但是在处理中文时需要理解语义的基础上进行有效的分词，所以在处理中文、日文、韩文MySQL 提供了 ngram full-text （本文的配置就是基于ngram的中文分词）

总结

优点

对比 like 查询效率有提升（具体提升的测试没有做）全文搜索可以同时对多个字段做索引，like只能对单一字段搜索

对于中文的分词可能需要在理解语义的基础上才能有效的分词；比如上文中的你好世界（hello world）对于英文按空格切分就可以，中文则需要理解语义的基础才能分成你好/世界。

这里分享一下python中jieba分词，有助于理解中文分词的魅力

结巴分词利用一个中文词库，通过词库计算汉字之间构成词语的关联概率，所以通过计算汉字之间的概率，就可以形成分词的结果。

In [1]: import jiebaIn [2]: jieba.lcut('你好世界')Building prefix dict from the default dictionary ...Dumping model to file cache /var/folders/st/b16fyn3s57x_5vszjl599njw0000gn/T/jieba.cacheLoading model cost 0.937 seconds.Prefix dict has been built successfully.Out[2]: [’你好’, ’世界’]In [3]: jieba.lcut('hello world')Out[3]: [’hello’, ’ ’, ’world’]

对于一般的项目mysql的全文索引可以解决80%的需求，它可以较为完美的支持中文的检索、自动分词、结果排序、组合查询等功能；但性能应该是瓶颈，Elastissearch可以友好的实现全文检索。

全文索引不能达到like的效果，连着的语句会因为分词形成多个词语。

参考资料

Mysql fulltext

以上就是MySQL 全文检索的使用示例的详细内容，更多关于MySQL 全文检索的使用的资料请关注好吧啦网其它相关文章！

上一条：MySQL 百万级数据的4种查询优化方式下一条：MySQL 常见的数据表设计误区汇总

相关文章：

1. 恢复从 Access 2000、 Access 2002 或 Access 2003 中数据库删除表的方法2. 启动MYSQL出错 Manager of pid-file quit without updating file.3. Mysql入门系列：MYSQL创建、删除、索引和更改表4. Mysql入门系列：建立MYSQL客户机程序的一般过程5. Microsoft Office Access修改代码字体大小的方法6. ACCESS转SQL数据库相关的几个技能7. Microsoft Office Access设置默认日期为当前日期的方法8. Mybatis查询方法如何实现没有返回值9. MySQL中InnoDB和MyISAM类型的差别10. DB2 XML 全文搜索之为文本搜索做准备

排行榜

					
					Mysql入门系列：MYSQL创建、删除、索引和更改表
Mysql入门系列：建立MYSQL客户机程序的一般过程
启动MYSQL出错 Manager of pid-file quit without updating file.
ACCESS转SQL数据库相关的几个技能
Microsoft Office Access修改代码字体大小的方法
恢复从 Access 2000、 Access 2002 或 Access 2003 中数据库删除表的方法
Microsoft Office Access设置默认日期为当前日期的方法
MySQL存储过程例子（包含事务、参数、嵌套调用、游标循环等）
Mysql入门系列：MYSQL客户机程序2—增加错误检查
Mysql入门系列：安排预防性的维护MYSQL数据库服务器
MySQL中InnoDB和MyISAM类型的差别
				

热门标签