百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

我服了,MySQL表500W行,居然有人不做分区?

yuyutoo 2024-12-15 17:42 1 浏览 0 评论

前言

表分区,是指根据一定规则,将数据库中的一张表分解成多个更小的,容易管理的部分,本文做了详细的说明

1.分区表

1.1 什么是表分区

我们可以通过 show variables like ‘%datadir%’;

命令来查看数据文件存放的默认路径,一个数据库就是一个文件夹,一个库中。

只要一张表的数据量过大,就会导致 *.ibd 文件过大,数据的查找就会变的很慢。

一般生产上建议单天超过10万行,建议分区,1亿条数据大约1G

————————————————

MySQL 从 5.1 开始添加了对分区的支持,

分区的过程是将一个表或索引分解为多个更小、更可管理的部分。

对于开发者而言,分区后的表使用方式和不分区基本上还是一模一样,只不过在物理存储上,

原本该表只有一个数据文件,现在变成了多个,每个分区都是独立的对象,可以独自处理,也可以作为一个更大对象的一部分进行处理。

常见的存储引擎如 InnoDB、MyISAM、NDB 等都支持分区。
但并不是所有的存储引擎都支持,如 CSV、FEDORATED、MERGE 等就不支持分区,
因此在使用此分区功能前,应该对选择的存储引擎对分区的支持有所了解。

1.2 为什么需要表分区

1.可以让单表存储更多的数据。

2.分区表的数据更容易维护,可以通过清除整个分区批量删除大量数据,

也可以增加新的分区来支持新插入的数据。另外,还可以对一个独立分区进行优化、检查、修复等操作。

3.部分查询能够从查询条件确定只落在少数分区上,查询速度会很快。

4.分区表的数据还可以分布在不同的物理设备上,从而高效利用多个硬件设备。

5.可以使用分区表来避免某些特殊瓶颈,

例如 InnoDB单个索引的互斥访问、ext3文件系统的inode锁竞争。

可以备份和恢复单个分区。

1.3 分区表的缺点

表分区的主要缺点

1.一个表最多只能有 1024 个分区。
2.如果分区字段中有主键或者唯一索引的列,那么所有主键列和唯一索引列都必须包含进来。
3.分区表无法使用外键约束。
4.NULL 值会使分区过滤无效。
5.所有分区必须使用相同的存储引擎。

表分区的主要优点

1、可以允许在一个表里存储更多的数据,突破磁盘限制和文件系统限制。
2、对于从表里删除过期的历史数据比较容易,只需要移除对应的分区。
3、对于某些查询或修改语句,可以自动将数据范围缩小到一个至几个分区上,优化语句执行效率。

2.分区表的类型

2.1 RANGE分区

范围表分区,按照一定的范围值来确定每个分区包含的数据,如上使用的就是range表分区;

语法:partition by range(id) partition p0 values less than()

分区的定义范围必须是连续的,且不能重叠,使用values less than()来定义分区范围,从小到大定义范围。

给分区字段赋值的时候分区字段取值范围不能超过values less than()的取值范围。

使用values less than maxvalue来将未来不确定的值放到这个表分区中。

按时间类型(datetime)来做表分区可以在RANGE()中使用函数来做转换,

例如:partition by range(year(create_time)),timestamp可以使用unix_timestamp(‘2019-11-20 00:00:00’)转化

create table user_range(
  id int,
  username varchar(255),
  password varchar(255),
  createDate date,
  primary key (id,createDate)
) engine=innodb
  partition by range(year(createDate))(
     partition  p2022  values  less  than(2023),
     partition  p2023  values  less  than(2024),
     partition  p2024  values  less  than(2025)  
);

注意:
createDate 是联合主键的一员。**如果 createDate 不是主键,
只是一个普通字段,那么创建时就会抛出如下错误:

删除分区
alter table user_range drop partition p2022;
新增分区
alter table user_range add partition(partition p2025 values less than(2026));

2.2 LIST分区

语法: partition by list(id) partition p0 values in(1,2,3)

分区字段必须是整数类型或者分区函数返回整数,取值范围通过values in()来定义,不能使用maxvalue。

假设我有一个用户表,用户有性别,现在想按照性别将用户分开存储,

男性存储在一个分区中,女性存储在一个分区中,SQL 如下:

create  table user_list(
  id int,
  username varchar(255),
  password varchar(255),
  gender int,
  primary key(id, gender)
)engine=innodb
  partition by list(gender)(
     partition  man  values  in  (1),
     partition  woman  values  in  (0)
  );

2.3 HASH分区

哈希表分区,按照一个自定义的函数返回值来确定每个分区包含的数据

HASH 分区的目的是将数据均匀地分布到预先定义的各个分区中,

保证各分区的数据量大致都是一样的。在 RANGE 和 LIST 分区中,

必须明确指定一个给定的列值或列值集合应该保存在哪个分区中;

而在 HASH 分区中,MySQL 自动完成这些工作,

用户所要做的只是基于将要进行哈希分区的列指定一个表达式,并且分区的数量。

使用 HASH 分区来分割一个表,要在 CREATE TABLE 语句上添加 PARTITION BY HASH (expr),

其中 expr 是一个字段或者是一个返回整数的表达式;另外通过 PARTITIONS 属性指定分区的数量,

如果没有指定,那么分区的数量默认为 1,另外,HASH 分区不能删除分区,

所以不能使用 DROP PARTITION 操作进行分区删除操作。

语法:partition by hash(id) partitions 4

根据hash算法来分配到分区中,以上设置四个分区,并根据id%4进行取模运算,根据余数插入到指定的分区中。

create table user7(id int) partition by hash(id) partitions 3;

2.4 KEY分区

KEY 分区和 HASH 分区相似,但是 KEY 分区支持除 text 和 BLOB 之外的所有数据类型的分区,

而 HASH 分区只支持数字分区。KEY 分区不允许使用用户自定义的表达式进行分区,

KEY 分区使用系统提供的 HASH 函数进行分区。当表中存在主键或者唯一索引时,

如果创建 KEY 分区时没有指定字段系统默认会首选主键列作为分区字段,

如果不存在主键列会选择非空唯一索引列作为分区字段。

key()括号里面可以包含0个或多个字段(不必是整数类型,可以是普通字段)

create table user_key(
  id int,
  username varchar(255),
  password varchar(255),
  gender int,
  primary key(id, gender)
)engine=innodb partition by key() partitions 4;

2.5 多字段分区

可以指定多个字段作为分区字段
COLUMN 分区是 5.5 开始引入的分区功能,只有 RANGE COLUMN 和 LIST COLUMN 这两种分区;
支持整形、日期、字符串;这种分区方式和 RANGE、LIST 的分区方式非常的相似。
COLUMNS Vs RANGE Vs LIST 分区:
针对日期字段的分区不需要再使用函数进行转换了。
COLUMN 分区支持多个字段作为分区键但是不支持表达式作为分区键。
COLUMNS 支持的类型
整形支持:tinyint、smallint、mediumint、int、bigint;不支持 decimal 和 float。
时间类型支持:date、datetime。
字符类型支持:char、varchar、binary、varbinary;不支持text、blob。
create table user1(
  id int,
  username varchar(255),
  password varchar(255),
  gender int,
  createDate date,
  primary key(id, createDate)
)engine=innodb PARTITION BY RANGE COLUMNS(createDate) (
    PARTITION p0 VALUES LESS THAN ('1990-01-01'),
    PARTITION p1 VALUES LESS THAN ('2000-01-01'),
    PARTITION p2 VALUES LESS THAN ('2010-01-01'),
    PARTITION p3 VALUES LESS THAN ('2020-01-01'),
    PARTITION p4 VALUES LESS THAN MAXVALUE
);


create table user2(
  id int,
  username varchar(255),
  password varchar(255),
  gender int,
  createDate date,
  primary key(id, createDate)
)engine=innodb PARTITION BY LIST COLUMNS(createDate) (
    PARTITION p0 VALUES IN ('1990-01-01'),
    PARTITION p1 VALUES IN ('2000-01-01'),
    PARTITION p2 VALUES IN ('2010-01-01'),
    PARTITION p3 VALUES IN ('2020-01-01')
);

3.常见分区管理命令

1.添加分区:
alter table user add partition (partition p3 values less than (4000)); – range 分区
alter table user add partition (partition p3 values in (40)); – lists分区
2.删除表分区(会删除数据):
alter table user drop partition p30;
3.删除表的所有分区(不会丢失数据):
alter table user_list remove partitioning;
4.重新定义 list分区表(不会丢失数据):
alter table user_list partition by list(gender)(
partition man values in (1),
partition woman values in (0)
);
5.重新定义 hash 分区表(不会丢失数据):
alter table user partition by hash(salary) partitions 7;
6.合并分区:把 2 个分区合并为一个,不会丢失数据:
alter table user reorganize partition p1,p2 into (partition p1 values less than (30));
注意:合并之后范围取最大
6.数据字典查询
select * from information_schema.partitions
where table_schema=‘jeames’ and table_name=‘user’\G

4.表分区实战

4.1 分区管理

–创建分区表
create table user(id int(11) not null,name varchar(32) not null)
partition by range(id)
(
partition p0 values less than(10),
partition p1 values less than(20),
partition p2 values less than(30),
partition p3 values less than maxvalue
)

数据存储文件将根据分区被拆分成多份

insert into user values(1,‘IT’);

insert into user values(12,‘007’);

insert into user values(22,‘jeames’);

insert into user values(50,‘TenKE’);

select * from user partition(p0);

select * from user partition(p1);

select * from user partition(p2);

select * from user partition(p3);

新增几条数据后查询可以看到数据已经分散在不同的分区中

4.2 普通表与分区表的互转

普通表转分区表语句:
ALTER TABLE students PARTITION BY KEY(sid) PARTITIONS 2;

移除分区信息
ALTER TABLE fg_pm_nbiot_cel_h_cel remove partitioning;

相关推荐

了解 SQL 语言特点、分类及规则

SQL语言概述SQL全称是结构化查询语言(structuredQueryLanguage),它是一种在关系型数据库中定义和操纵数据的标准语言。最早是由IBM的圣约瑟(Sanjose)研究...

SQL的语言规范及分类详解

SQL:StructureQueryLanguage结构化查询语言,它是使用关系模型的数据库应用语言,由IBM上世纪70年代开发出来。后由美国国家标准局(ANSI)开始着手制定SQL标准,先后有S...

2分钟,快速认识什么是SQL

结构化查询语言,简称SQL,它是与关系数据库管理系统通信的黄金标准语言。今天就来一起快速认识一下什么是SQL,您可以通过以下的文字内容学习,也可以通过文末的视频学习,希望本文对您有所帮助。...

SQL语言书写与规则详解

SQL语言SQL语言主要包含6个部分,什么是SQL语言?SQL语言被称之为结构化查询语言(StructuredQueryLanguage),它是关系型数据库的**标准语言[所有数据库厂商都要遵守S...

SQL知识大全(一):数据库的语言分类你都知道吗?

点击上方蓝字关注我们今天是数据库语言分类的第一讲,主要会介绍数据库的四类语言,以及其语法,课程大纲详见脑图。...

数据查询语言SQL基本语法

SQL(StructuredQueryLanguage)即结构化查询语言,是用来管理和处理关系型数据库的标准计算机语言。其语法非常丰富,允许用户执行各种操作,包括但不限于查询、插入、更新和删除数据...

SQL(structured query language)语言

SQL(structuredquerylanguage)关系数据库标准语言-SQL数据库是表的汇集,它用一个或多个SQL模型定义-基本表是实际存储在数据库中的表,视图是由若干个基本表或其他视图导出...

SQL查询逻辑执行顺序:从FROM到LIMIT,步步解析

SQL(StructuredQueryLanguage)作为关系型数据库的标准语言,被广泛应用于数据查询和管理。虽然我们通常按照...

SQL大宝剑-已燃尽所有SQL的理解

作者:京东物流向往一、背景从事数据开发将近四年,过程中有大量任务交接或阅读同事代码的场景。在这些场景中发现有些SQL读起来赏心悦目,可以一目了然地了解业务逻辑,一些复杂的业务需求实现方法也可以做到简...

《图解SQL:数据库语言轻松入门》

《图解SQL:数据库语言轻松入门》当初入手这本书的时候,我还是蛮有勇气的。毕竟我是一个除了数据库三个汉字会写之外,对数据库一无所知的人。当时我是想到了一个故事,才决定入手这本书的。这个故事你小时候应该...

【数据管理】数据库通用概念和常用SQL讲解

数据库是计算机领域的专业词汇,大部分人也许觉得和数据库没有交集。但其实每天,甚至连你自己都没有意识到,我们一直在使用数据库。淘宝购物挑选的商品信息,手机通讯录里面的联系人,微信发送的聊天记录等,数据都...

慢 SQL 分析与优化

背景介绍从系统设计角度看,一个系统从设计搭建到数据逐步增长,SQL执行效率可能会出现劣化,为继续支撑业务发展,我们需要对慢SQL进行分析和优化,严峻的情况下甚至需要对整个系统进行重构。所以我们往...

SQL学习:实例讲解SQL必会的12个高频语句

在数据库查询中,总结了12个高频常用SQL语句,供大家参考学习:1、复制表结构,不包括数据(用于建立同一个表结构)...

SQL语言包括哪几部分?每部分都有哪些操作关键字?

【死记硬背】SQL即StructuredQueryLanguage结构化查询语言,包括数据定义(DDL)、数据操纵(DML)、数据查询(DQL)、数据控制(DCL)、事物控制(TCL)和指针控制(...

数据库中sql语句大全

结构化查询语言(StructuredQueryLanguage)简称SQL,结构化查询语言是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统;...

取消回复欢迎 发表评论: