mysql - 如何在数据库里优化 汉明距离 查询?
问题描述
项目里需要一个搜索相似图片的功能,百度了一些dhash的算法,生成了16个长度的hash值,在mysql里这样查询:
SELECT pk, hash, BIT_COUNT( CONV(hash, 16, 10) ^ CONV(’4c8e3366c275650f’, 16, 10) ) as hamming_distance FROM image_hashes HAVING hamming_distance < 4 ORDER BY hamming_distance ASC;
经测试,15W条数据,搜索需要很长时间。第二次速度会快些,有啥办法可以优化?
问题解答
回答1:谢邀。
抱歉地说,这个我也没有做过,只是之前听说过汉明距离。15w数据,不是很多,但是用了mysql的函数,没办法创建索引。。。
大概搜了一下,有相同的问题。可以参考mysql 图片汉明距离计算, 近40w的异或计算, 如何破
Hamming distance on binary strings in SQL
你可以试试mysql的内存表 MySQL内存表的特性与使用介绍
回答2:不好意思,没有“汉明距离”的相关经验。
如果只是15W数据的话,可以把数据加载到内存里缓存起来,然后在程序里运算,毕竟SQL并不擅长做这种事情。
仅从你的SQL来说,的确没有太大的优化空间,能想到的就只有以下几点:
hash列用char代替varchar
舍弃ORDER BY hamming_distance ASC,改为由程序排序
建议把DDL语句和EXPLAIN结果也发上来一并分析,不过最大的性能卡口应该是BIT_COUNT(CONV(hash, 16, 10) ^ CONV(’4c8e3366c275650f’, 16, 10)) as hamming_distance,其实相当于全表扫描了。
相关文章:
1. mysql - 在不允许改动数据表的情况下,如何优化以varchar格式存储的时间的比较?2. css - chrome下a标签嵌套img 显示会多个小箭头?3. javascript - 网页打印页另存为pdf的代码一个问题4. vim - docker中新的ubuntu12.04镜像,运行vi提示,找不到命名.5. java中返回一个对象,和输出对像的值,意义在哪儿6. css3 - 纯css实现点击特效7. docker网络端口映射,没有方便点的操作方法么?8. mysql 为什么主键 id 和 pid 都市索引, id > 10 走索引 time > 10 不走索引?9. javascript - Img.complete和img.onload判断图片加载完成有什么区别?10. javascript - 有适合开发手机端Html5网页小游戏的前端框架吗?
