我有一个有数百万行的用户表。 我正在实现一个搜索功能,允许某人通过键入用户名或姓名来查找用户。 这个自动完成功能需要非常快。 考虑到在MySQL中,列索引使用{string}%加快查询速度,以下方法的性能是否足以在200ms内返回? (注意:这里内存开销不是问题,用户名/名称最多30个字符)。
创建一个USERSEARCH表,该表具有指向user表的外键和索引的ngram username和name列:
USERSEARCH
user_id username_ngram name_ngram
---------------------------------------
1 crazyguy23 John Smith
1 razyguy23 ohn Smith
1 azyguy23 hn Smith
1 zyguy23 n Smith
...
然后查询为:
SELECT user_id FROM myapp.usersearch WHERE username_ngram LIKE {string}%
UNION DISTINCT
SELECT user_id FROM myapp.usersearch WHERE name_ngram LIKE {string}%
LIMIT 10
我知道第三方解决方案是存在的,但出于其他原因,我现在想远离他们。 就速度而言,这种做法是否可行? 如果db需要检查所有O(30n)行(其中n是用户数),我是否高估了索引的威力?
好处:限制10是否会在第一次选择中发现10个匹配项时停止整个查询? 或者限制10过滤器发生在联合的末尾?
可能不是。 Union Distinction
将处理每个子查询直到完成。
如果只需要任意行,可以将其表述为:
(SELECT user_id
FROM myapp.usersearch
WHERE username_ngram LIKE {string}%
LIMIT 10
) UNION DISTINCT
(SELECT user_id
FROM myapp.usersearch
WHERE username_ngram LIKE {string}%
LIMIT 10
)
LIMIT 10;
这至少可以为常见的前缀节省大量的时间,比如,'s'
。
也就是说,当可能有更多user_id
时,这只返回一个包含10个user_id
的任意列表。
我不知道对于你的应用程序来说,速度是否足够快。 你必须通过测试一组适当的数据来做出判断。