看到叶金荣的一篇关于mysql分页的文章,结合雅虎之前发的一篇PDF 谈谈自己的看法
在叶子的文章里谈到了使用inner join 从而减少了对page的扫描也就是减少了所谓的回表 例如:
通过直接对id的操作 而不是整张表的扫描 通过id 的join 抓出符合条件id 然后通过ID 再去做数据的抓取。这样就避免了对不需要的页面的扫描。
不过这样也不是最佳的方法 还可以通过对id 的 range更加缩小范围 例如:
我们要分100条记录分一页 可以写成
$page_size=100 select * from t where id > 99 order by id asc limit $page_size ; select * from t where id >199 order by id asc limit $page_size;
尽量避免limit M,N 这种写法 mysql在对M值很大 而offset很小的时候的处理方式很不人性化 ,所以尽量不要使用offset来取得特定行数。
在这里有一个问题 比如根据不是唯一索引的column分页 那么可能存在一个问题,例如一个列column1存在11个key=100的值 那么你使用limit N 之后取到的min value还是同一个值
这种情况如何处理? 给个例子:
比如要每10条记录分一页
注意这里取到的min value还是100 (11个连续的100) 对下面的分页会产生影响,如何处理?
雅虎给出的方案非常好 取一个extra的column 例如PK 或者unique index key 例如:
select * from t order by column1 desc, id desc limit 10 -- 第一个页 select * from t where column1 <=minvalue_col1 and (id < minvalue_id or column1 < minvalue_col1) limit 10 ---第二个页
这样就确保了唯一性 保证了每页的数据不会重复 思想就是通过add一个唯一的extra 取得这个extra的边界值 结合range column来进行分页。
这个SQL 还能被优化成:
SELECT m2.* FROM t m1, t m2 WHERE m1.id = m2.id AND m1.column1 <= minvalue_col1 AND (m1.id < minvalue_id OR m1.column1 < minvalue_col1) ORDER BY m1.column1 DESC, m1.id DESC LIMIT 10;
核心思想: 通过extra过滤 配合ID扫描 避免大量的回表操作 这样就达到了要取多少条 就扫描多少条 (in page)
hi,你好,如果是不带条件的分页,用你的这个方法是最合适的。如果带条件的分页,例如我案例中的 ftype = 6,这种情况应该怎么优化,有思路吗。
你好,金荣 我这篇主要讲 mysql limit M,N的优化,参考了yahoo的presentation, 对于带有condition 的SQL,你那种设计是非常好的选择 🙂