其他分享
首页 > 其他分享> > Django REST Framework千万级数据量拆表实践

Django REST Framework千万级数据量拆表实践

作者:互联网

场景

产品基于Django rest framework、Mysql开发。随着产品发展,部分模型数据量日益增涨,每月达到千万级数据,严重影响性能。
这里以项目实际场景中的Order(订单表)来展开
需求:
1、基本查询,查看历史订单。
2、看板输出,查看每天销售情况,计算订单表中的金额、成本、毛利等字段。

方案分析

性能下降一方面是数据量过大,另一方面是该表承担着频繁的计算请求。以Django对Order(订单表)金额字段计算为例

result = models.Order.objects.filter(pk='test',time__gte='2022-01-01').aggregate(total_money=SUM('money'))

数据库中实际执行的sql

SELECT SUM(money) From Order where pk='test' AND time>='2022-01-01';

即时有索引,每次从磁盘读取的数据依然很大,而且随着数据量的增长,每次读取的数据会越来越大。但是用于计算的只是符合时间要求的一小部分,所以采取冷热分离的思路。冷表存储基本查询的数据,热表存储经常计算的数据。
根据业务量,这里的订单表按时间月份来划分。热表只存当天、昨天的数据。因为昨天数据用于晚上的定时任务计算产出报表,当天数据用于看板实时计算。这里一天平均的数据量大概50w左右,存两天就100w出头的数据。至于以后业务量会不会发展到一天500w数据,是很遥远的事情。就先不考虑了
在这里插入图片描述

项目改动

1、数据迁移

这里的案例是热表只存两天数据,也就是说每天凌晨0点就要迁移前一天的数据到冷表。
在这里插入图片描述
当03-18日0点到来的时候,03-16的数据会迁移到冷表中。
实现:
配置Crontab 任务,每天0点执行。本次实践中,一百万数据左右,3分钟不到就执行完了。

table_name_date=$(date "+%Y%m")  # 数据导入的月份表
month_table=$(date "+%Y%m")    # 月份表
run_date=$(date "+%Y%m%d")       # 脚本执行日期
this_month_first_day=$(date "+%Y%m01")   # 本月第一天 2022-04-01
this_month_second_day=$(date "+%Y%m02")  # 本月第二天 2022-04-02
# 脚本执行日期 = 本月第一\二天,月份表为上月
if [ "$run_date" = "$this_month_second_day" ] || [ "$run_date" = "$this_month_first_day" ];then 
        table_name_date=$(date -d "last month" +%Y%m)
fi
# 登录数据库
mysql -u root -proot <<EOF        # 这里必须是root账号
use test_databases;
# 建表
CREATE TABLE IF NOT EXISTS order_$month_table LIKE order;
# 从热表迁移前天的数据
SELECT * FROM order WHERE Time < DATE_SUB(CURDATE(),INTERVAL 1 DAY) INTO OUTFILE 'order_daily_transfrom_$run_date';
# 导入数据到冷表
LOAD DATA INFILE 'order_daily_transfrom_$run_date' REPLACE INTO TABLE order_$table_name_date;
# 从热表中删除旧数据
DELETE FROM order WHERE Time < DATE_SUB(CURDATE(),INTERVAL 1 DAY);
EOF

2、项目代码修改

上面提到的两个需求中,查看历史订单是需要看到所有的订单。但是原来接口是DRF基于单表提供的。

class OrderViewSet(ViewSet):
    serializer_class = serializers.OrderSerializer
    queryset = models.Order.objects.filter()
    permission_classes = (permissions.LoginRequire,)
    authentication_classes = (authentications.TokenAuthentication,)
    filter_backends = (DjangoFilterBackend, SearchFilter, OrderingFilter)

历史数据拆到冷表后,就需要对代码做出调整。其中包括:Models类,list(),get_queryset()。
Model:

class Order(models.Model):
    """
    原----订单模型
    """
    id = models.CharField(db_column='Id', primary_key=True,max_length=50, editable=False)
    time = models.DateTimeField(verbose_name='时间', db_column='Time')
    # 省略部分字段

    class Meta:
        verbose_name = '订单'
        verbose_name_plural = verbose_name
        db_table = 'order'
# 补充模型
class HistoryOrder(models.Model):
    """
    冷表----订单模型
    """
    id = models.CharField(db_column='Id', primary_key=True,max_length=50, editable=False)
    time = models.DateTimeField(verbose_name='时间', db_column='Time')
    # 省略部分字段

    class Meta:
    	abstract = True
        verbose_name = '订单'
        verbose_name_plural = verbose_name
        db_table = 'order'
     @classmethod
    def get_table_name(cls, suffix):
        # 修改表后缀,默认是当月order_202203
        table_name = 'order_%s' % suffix if suffix else 'order_%s' % datetime.strftime(datetime.now(), "%Y%m")
        return table_name

    @classmethod
    def sharding_get(cls, name=None):
        # 获取model实例
        new_cls = cls.get_table_model(name)
        return new_cls

    _table_model = {}

    @classmethod
    def get_table_model(cls, suffix: str):
        """
        创建模型
        """
        # 要连接的数据表,
        table_name = cls.get_table_name(suffix)
        if table_name in cls._table_model:
            return cls._table_model[table_name]

        # 这里会重新设置创建的model的名字,每个model名字都是动态的,不是BaseTable
        class Metaclass(models.base.ModelBase):
            def __new__(cls, name, bases, attrs):
                name = name + '_%s' % suffix  # 这是Model的name.
                return models.base.ModelBase.__new__(cls, name, bases, attrs)

        # 注意继承的顺序
        class NewOrder(HistoryOrder, metaclass=Metaclass):
            class Meta:
                db_table = table_name

        NewOrder._meta.db_table = table_name
        cls._table_model[table_name] = NewOrder
        return NewOrder

Viewset:

class OrderViewSet(ViewSet):
    serializer_class = serializers.OrderSerializer
    queryset = models.Order.objects.filter()
    permission_classes = (permissions.LoginRequire,)
    authentication_classes = (authentications.TokenAuthentication,)
    filter_backends = (MyFilterBackend, SearchFilter, OrderingFilter)
	def list(self, request, *args, **kwargs):
	 	date = self.request.GET.get('date', '')   # 以往月份数据需要按请求参数拼接
	 	queryset = self.filter_queryset(self.get_queryset())  # 原order表对应的queryset
	 	if not date or date == datetime.strftime(datetime.now(), "%Y%m"): # 默认返回本月数据
	 		history_queryset = models.HistoryOrder.sharding_get().objects.filter(pk=pk)
            history = self.filter_queryset(history_queryset)  # 筛选
            # 以当前时间为例,拼接order_202203 union order
            queryset = queryset.union(history).order_by('-create_time') 
        if date and date != datetime.strftime(datetime.now(), '%Y%m'):
        	#2022
        	history_queryset = models.HistoryOrder.sharding_get(date ).objects.filter(pk=pk)  
        	queryset = self.filter_queryset(queryset)  # 筛选
       	page = self.paginate_queryset(queryset)  # 分页处理
       	# your code
       	return 
    def get_quertset(self):
    	# 按需修改
    	# your code
    	return

DRF的进一步封装,提高了开发效率,但是自定义开发的灵活性也相对受到限制。
这里需要注意一个地方,就是 filter_backends =(DjangoFilterBackend, SearchFilter, OrderingFilter),DjangoFilterBackend中有个代码片段,判断queryset和filter_queryset采用的模型是否为另一个的子类

        if filterset_class:
            # filterset_model = filterset_class._meta.model

            # FilterSets do not need to specify a Meta class
            # if filterset_model and queryset is not None:
            #     assert issubclass(queryset.model, filterset_model), \
            #         'FilterSet model %s does not match queryset model %s' % \
            #         (filterset_model, queryset.model)

            return filterset_class

这里的处理是重写DjangoFilterBackend为MyFilterBackend,把这部分代码注释掉。这里要保证模型中冷表和热表的两个模型字段是一样的。
目前这么处理没发现会有什么问题,也不影响正常的业务数据请求。

标签:name,queryset,千万级,Django,数据量,date,table,model,class
来源: https://blog.csdn.net/weixin_42768004/article/details/123571014