数据库
首页 > 数据库> > 我应该使用SQL或Ruby处理大量数据吗?

我应该使用SQL或Ruby处理大量数据吗?

作者:互联网

我有一个带有成千上万个条目的MySQL表.

我需要指定一个日期范围并选择这两个日期之间的所有条目.然后,我需要按小时细分条目并获取特定字段.

用例:
我需要从6月6日到6月12日对条目进行逐小时细分,因此,在6月6日,我需要从12am到1 am、1am到2 am、2am到3am等一系列条目.

哪个更快? (以及原因!):

>运行144条SQL查询以从条目中选择device_id,其中up​​dated_at> =某个时间和updated_at< =某个时间1.hour,其中某个时间类似于12pm到1pm,然后是1pm到2pm,等等.
>运行1个SQL查询来从条目中选择device_id,在更新时间> =起始日期和更新时间< =结束日期处获取整个时间段内的所有条目,然后使用ruby按小时对条目进行分组.
如果任何人有任何资源说明为什么ruby或MySQL对于这种类型的东西可能更快,那么将不胜感激.想做些阅读.

解决方法:

我认为,执行此操作的最佳方法是在插入日志时具有一个update_at_month,updated_at_day,updated_at_hour(TINYINT-因为所有值都非常小)INDEXED字段,然后选择范围和分组方式,如下所示:

select device_id FROM logs where updated_at BETWEEN sometime AND some_other_time group by updated_at_month, updated_at_day, updated_at_hour

我假设updated_at是索引字段.

要么

select device_id FROM logs where updated_at_month=6 and updated_at_day>=6 and updated_at_day<=12 group by updated_at_day, updated_at_hour

但是,我们总共要讨论多少行?
正如我注意到的那样,您从中选择device_id字段没有任何计数…或组…也许您应该选择device_id,updated_at_day,updated_at_hour,count(*)作为时间

标签:query-optimization,ruby,ruby-on-rails,sql,mysql
来源: https://codeday.me/bug/20191123/2065555.html