当前位置：首页 > 编程日记 > 正文

一文搞懂MySQL索引

编程日记 2024-04-14 00:30:04

Mysql索引

索引介绍

索引是什么

官方介绍索引是帮助MySQL高效获取数据的数据结构。更通俗的说，数据库索引好比是一本书前面的目录，能加快数据库的查询速度。
一般来说索引本身也很大，不可能全部存储在内存中，因此索引往往是存储在磁盘上的文件中的（可能存储在单独的索引文件中，也可能和数据一起存储在数据文件中）。
我们通常所说的索引，包括聚集索引、覆盖索引、组合索引、前缀索引、唯一索引等，没有特别说明，默认都是使用B+树结构组织（多路搜索树，并不一定是二叉的）的索引。

索引的优势和劣势

优势：

可以提高数据检索的效率，降低数据库的IO成本，类似于书的目录。
通过索引列对数据进行排序，降低数据排序的成本，降低了CPU的消耗。
- 被索引的列会自动进行排序，包括【单列索引】和【组合索引】，只是组合索引的排序要复杂一些。
- 如果按照索引列的顺序进行排序，对应order by语句来说，效率就会提高很多。

劣势：

索引会占据磁盘空间
索引虽然会提高查询效率，但是会降低更新表的效率。比如每次对表进行增删改操作，MySQL不仅要保存数据，还有保存或者更新对应的索引文件。

索引类型

主键索引

索引列中的值必须是唯一的，不允许有空值。

普通索引

MySQL中基本索引类型，没有什么限制，允许在定义索引的列中插入重复值和空值。

唯一索引

索引列中的值必须是唯一的，但是允许为空值。

全文索引

只能在文本类型CHAR,VARCHAR,TEXT类型字段上创建全文索引。字段长度比较大时，如果创建普通索引，在进行like模糊查询时效率比较低，这时可以创建全文索引。 MyISAM和InnoDB中都可以使用全文索引。

空间索引

MySQL在5.7之后的版本支持了空间索引，而且支持OpenGIS几何数据模型。MySQL在空间索引这方面遵循OpenGIS几何数据模型规则。

前缀索引

在文本类型如CHAR,VARCHAR,TEXT类列上创建索引时，可以指定索引列的长度，但是数值类型不能指定。

其他（按照索引列数量分类）

单列索引
组合索引
组合索引的使用，需要遵循最左前缀匹配原则（最左匹配原则）。一般情况下在条件允许的情况下使用组合索引替代多个单列索引使用。

索引的数据结构

Hash表

Hash表，在Java中的HashMap，TreeMap就是Hash表结构，以键值对的方式存储数据。我们使用Hash表存储表数据Key可以存储索引列，Value可以存储行记录或者行磁盘地址。Hash表在等值查询时效率很高，时间复杂度为O(1)；但是不支持范围快速查找，范围查找时还是只能通过扫描全表方式。

显然这种并不适合作为经常需要查找和范围查找的数据库索引使用。

二叉查找树

二叉树，我想大家都会在心里有个图。

在这里插入图片描述

二叉树特点：每个节点最多有2个分叉，左子树和右子树数据顺序左小右大。

这个特点就是为了保证每次查找都可以这折半而减少IO次数，但是二叉树就很考验第一个根节点的取值，因为很容易在这个特点下出现我们并发想发生的情况“树不分叉了”，这就很难受很不稳定。

在这里插入图片描述

显然这种情况不稳定的我们再选择设计上必然会避免这种情况的

平衡二叉树

平衡二叉树是采用二分法思维，平衡二叉查找树除了具备二叉树的特点，最主要的特征是树的左右两个子树的层级最多相差1。在插入删除数据时通过左旋/右旋操作保持二叉树的平衡，不会出现左子树很高、右子树很矮的情况。

使用平衡二叉查找树查询的性能接近于二分查找法，时间复杂度是 O(log2n)。查询id=6，只需要两次IO。

在这里插入图片描述

就这个特点来看，可能各位会觉得这就很好，可以达到二叉树的理想的情况了。然而依然存在一些问题：

时间复杂度和树高相关。树有多高就需要检索多少次，每个节点的读取，都对应一次磁盘 IO 操作。树的高度就等于每次查询数据时磁盘 IO 操作的次数。磁盘每次寻道时间为10ms，在表数据量大时，查询性能就会很差。（1百万的数据量，log2n约等于20次磁盘IO，时间20*10=0.2s）
平衡二叉树不支持范围查询快速查找，范围查询时需要从根节点多次遍历，查询效率不高。

B树：改造二叉树

MySQL的数据是存储在磁盘文件中的，查询处理数据时，需要先把磁盘中的数据加载到内存中，磁盘IO 操作非常耗时，所以我们优化的重点就是尽量减少磁盘 IO 操作。访问二叉树的每个节点就会发生一次IO，如果想要减少磁盘IO操作，就需要尽量降低树的高度。那如何降低树的高度呢？

假如key为bigint=8字节，每个节点有两个指针，每个指针为4个字节，一个节点占用的空间16个字节（8+4*2=16）。

因为在MySQL的InnoDB存储引擎一次IO会读取的一页（默认一页16K）的数据量，而二叉树一次IO有效数据量只有16字节，空间利用率极低。为了最大化利用一次IO空间，一个简单的想法是在每个节点存储多个元素，在每个节点尽可能多的存储数据。每个节点可以存储1000个索引（16k/16=1000），这样就将二叉树改造成了多叉树，通过增加树的叉树，将树从高瘦变为矮胖。构建1百万条数据，树的高度只需要2层就可以（1000*1000=1百万），也就是说只需要2次磁盘IO就可以查询到数据。磁盘IO次数变少了，查询数据的效率也就提高了。

这种数据结构我们称为B树，B树是一种多叉平衡查找树，如下图

MySQLmysql索引

https://www.dkcj.cn/info/4639.html

MySQL慢查询日志slowlog

慢速查询日志记录的是执行时间超过秒和检查的行数超过的SQL语句，这些语句通常是需要进行优化的。官方参考文档：https://dev.mysql.com/doc/refman/8.0/en/slow-query-log.html。

编程日记2024/05/01 16:30:03

ON DUPLICATE KEY UPDATE 导致mysql自增主键ID跳跃增长

具体解决方案可以根据项目来选择，如果项目不大，可以考虑1和2。如果不考虑高并发问题，可以考虑3。

编程日记2024/03/24 16:30:03

mysql唯一索引与null

根据NULL的定义，NULL表示的是未知，因此两个NULL比较的结果既不相等，也不不等，结果仍然是未知。根据这个定义，多个NULL值的存在应该不违反唯一约束，所以是合理的，在oracel也是如此。在mysql 的innodb引擎中，是允许在唯一索引的字段中出现多个null值的。有上面的表和数据可以看出，查询多条数据。

编程日记2024/03/17 00:30:04

MySQL主从复制（基于binlog日志方式）

主从复制，是用来建立一个和主数据库完全一样的数据库环境，称为从数据库；主数据库一般是准实时的业务数据库。主从复制的作用1.做数据的热备，作为后备数据库，主数据库服务器故障后，可切换到从数据库继续工作，避免数据丢失。2.架构的扩展。业务量越来越大，I/O访问频率过高，单机无法满足，此时做多库的存储，降低磁盘I/O访问的频率，提高单个机器的I/O性能。3.读写分离，使数据库能支撑更大的并发。a.从服务器可以执行查询工作(就是我们常说的读功能)，降低主服务器压力;（主库写，从库读，降压）

编程日记2024/02/28 22:30:04

MYSQL 主从复制 --- binlog

在 Master 端并不 Care 有多少个 Slave 连上了自己，只要有 Slave 的 IO 线程通过了连接认证，向他请求指定位置之后的 Binary Log 信息，他就会按照该 IO 线程的要求，读取自己的 Binary Log 信息，返回给 Slave 的 IO 线程。默认MySQL是未开启该日志的。如果读压力加大，就需要更多的 slave 来解决，但是如果slave的复制全部从 master 复制，势必会加大 master 的复制IO的压力，所以就出现了级联复制，减轻 master 压力。

编程日记2024/02/17 23:30:02

MySQL 中 is null 和 =null 的区别

如果 set ANSI_NULLS为 ON 时，表示SQL语句遵循SQL-92标准；如果 set ANSI_NULLS 为 OFF 时，表示不遵从 SQL-92 标准。但SQL-92 标准要求对null的 = 或不等于 (!= ，) 比较取值都为 false，也就是 =null 或者 null,返回的都是false。null 在MySQL中不代表任何值，通过运算符是得不到任何结果的，因此只能用 is null(默认情况)MySQL 中 null 不代表任务实际的值，类似于一个未知数。

编程日记2024/02/17 23:00:03

MySQL数据库查询语句之组函数，子查询语句

当一个SQL的执行需要借助另一个SQL的执行结果时，则需要进行SQL嵌套，该语法结构称之为子查询。先筛选出符合要求的数据，再对符合要求的数据进行分组时，分组的工作量会被减少，效率更高。先确定从哪张表进行操作-->对表中数据进行分组-->基于分组结果进行查询操作。执行顺序：优先执行小括号内的子SQL，根据子SQL的执行结果再执行外层SQL。执行顺序：from-->where-->group by-->select。执行顺序：from-->group by-->select。

编程日记2024/01/22 22:24:00

mysql开启可以使用IP有权限访问

为实际的IP地址和你想要设置的密码。请小心操作，并确保你了解每个命令的作用。如果你对此有任何疑问，最好咨询经验丰富的数据库管理员。来设置或修改用户的密码。相反，你需要分两步来完成这个过程：首先创建或修改用户，并设置密码；然后授予相应的权限。用户应该能够从指定的内网IP地址访问MySQL服务器。用户已存在并且你只是想更改其密码或允许从另一个地址访问，使用。在MySQL 8.0及更高版本中，语句的语法有所变化。替换为你的内网IP地址，

编程日记2024/01/22 20:34:25

雪花算法生成ID、UUID生成ID和MySql自增ID优缺点分析

综上所述，UUID适用于分布式系统和需要保密的场景，雪花ID适用于分布式系统和高并发环境，MySQL自增ID适用于单机系统和高效查询的场景。根据具体的业务需求和系统架构，选择合适的主键类型。通过本文的介绍和对比，希望读者能够更好地理解在MySQL中不推荐使用UUID或者雪花ID作为主键的原因，并能够根据实际情况做出明智的选择。在MySQL中，使用自增整数作为主键是一种常见的做法，因为它具有较小的存储空间、高效的索引和自动增长的特性。然而，具体选择何种主键类型还是要根据具体的业务需求和数据特点来决定。

编程日记2024/01/17 14:25:17

【小白专用】C# 连接 MySQL 数据库

C# 连接 MySQL 数据库

编程日记2024/01/17 01:32:11

如何用pthon连接mysql和mongodb数据库【极简版】

发现宝藏前言 1. 连接mysql 1.1 安装 PyMySQL 1.2 导入 PyMySQL 1.3 建立连接 1.4 创建游标对象 1.5 执行查询 1.6 关闭连接 1.7 完整示例 2. 连接mongodb 2.1 安装 PyMongo 2.2 导入 PyMongo 2.3 建立连接 2.4

编程日记2024/01/15 17:58:51

MySQL索引优化实战

对于这种varchar(255)的大字段可能会比较占用磁盘空间，可以稍微优化下，比如针对这个字段的前20个字符建立索引，就是说，对这个字段里的每个值的前20个字符放在索引树里，类似于 KEY index(name(20),age,position)。此时你在where条件里搜索的时候，如果是根据name字段来搜索，那么此时就会先到索引树里根据name 字段的前20个字符去搜索，定位到之后前20个字符的前缀匹配的部分数据之后，再回到聚簇索引提取出来完整的name字段值进行比对。

编程日记2024/01/13 00:44:33

《mybatis》--大数据量查询解决方案

之前写百万以及千万的导出数据的时候，对于将数据写道csv文件并压缩这里没有什么大问题了，但是出现了其他问题为：1、我们需要将数据从数据库中拿出来，并且在进行装配的时候出现了一些问题。2、对于整体内存安全来说，如果直接将数据从数据库中拿出来百万级别以上的数据对于内存是非常不友好的。当问题出现比较大的时候会直接触发GC，造成瘫痪。目前开发以及项目测试的是更多的使用ｍｙｂａｔｉｓ来进行开发的，所以本文章讨论以及解决的的就是如何使用ｍｙｂａｉｔｓ来解决流式查询并单条处理的问题。

编程日记2024/01/10 12:00:31

弹性搜索引擎Elasticsearch：本地部署与远程访问指南

本文主要讲解如何使用Elasticsearch分布式搜索分析引擎本地部署与远程访问。

编程日记2024/01/09 16:35:56

ClickHouse 与mysql等关系型数据库对比

先用一张图帮助理解两者的本质上的区。

编程日记2024/01/07 00:30:03

Windows安装MySQL及网络配置

向日葵软件是一种远程控制软件，可以让用户在不同设备之间进行远程桌面访问和文件传输。用户可以通过向日葵软件，在任何具有互联网连接的设备上远程控制其他设备，包括计算机、智能手机和平板电脑。用户只需安装向日葵软件，并使用登录凭据连接到目标设备，就可以实时控制目标设备上的屏幕、键盘和鼠标。向日葵软件还提供了一些辅助功能，如文件传输、远程打印和远程会议等。这使得向日葵软件成为一个方便实用的远程协助工具，适用于个人用户、技术支持人员和企业用户等各种场景。

编程日记2024/01/02 14:55:30

深入理解Mysql事务隔离级别与锁机制

我们的数据库一般都会并发执行多个事务，多个事务可能会并发的对相同的一批数据进行增删改查操作，可能就会导致我们说的脏写、脏读、不可重复读、幻读这些问题。这些问题的本质都是数据库的多事务并发问题，为了解决多事务并发问题，数据库设计了事务隔离机制、锁机制、MVCC多版本并发控制隔离机制，用一整套机制来解决多事务并发问题。接下来，我们会深入讲解这些机制，让大家彻底理解数据库内部的执行原理。

编程日记2024/01/01 21:39:24

thinkphp操作mongo数据的三种方法

'hostname' => '10.10.10.10', // MongoDB服务器地址。'hostport' => 2017, // MongoDB服务器端口。'database' => 'chatname', // 数据库名称。后面接着就可以任意使用Connection各类方法。后面接着就可以任意使用Collection各类方法。使用MongoDB PHP驱动程序，方法三。后面接着就可以任意使用db下的增删改查。使用tp中的db类，方法二。使用tp中的扩展，方法一。

编程日记2023/12/30 22:49:51

java中如何使用elasticsearch—RestClient操作文档（CRUD）

去数据库查询酒店数据，导入到hotel索引库，实现酒店数据的CRUD基本步骤如下。新建一个测试类，实现文档相关操作，并且完成JavaRestClient的初始化。方式一（全量更新）：再次写入id一样的文档，就会删除旧文档，添加新文档。根据id查询到的文档数据是json，需要反序列化为java对象。（2）根据id查询数据库数据，并转换。方式二（局部更新）：只更新部分字段。（1）创建文档对应实体。修改文档数据有两种方式。

编程日记2023/12/30 19:05:45

MySQL是如何保证数据不丢失的？

上篇文章《InnoDB在SQL查询中的关键功能和优化策略》对InnoDB的查询操作和优化事项进行了说明。但是，MySQL作为一个存储数据的产品，怎么确保数据的持久性和不丢失才是最重要的，感兴趣的可以跟随本文一探究竟。

编程日记2023/12/21 19:31:23

where查询条件的字段顺序打乱会影响命中索引吗？

答案是：不影响我们的where后边条件字段打乱会影响命中索引吗？先来进行下边的实验：可以看到实验结果，where条件字段顺序没有按照索引的字段顺序，依然不影响命中索引。因为Mysql中有查询优化器，会自动优化查询顺序。

编程日记2023/12/20 21:30:01

文档管理系统的核心技术与难点

概述网上有非常多的“文档管理系统”，随便搜索就能得到超过1000种大大小小的软件或系统，谓之“铺天盖地”也不为过。其中绝大多数是近几年用各类开源的所谓组件、框架搭起来的七拼八凑的产物，其花哨无比的言辞与看似不错的截图，会造成很多用户茫然，掏钱购买后基本上都感觉交了智商税。那么到底什么样的系统才能称为“文档管理系统”呢？怎么选择比较安全呢？先回答第二个问题：世界上任何一个能用的软件至少需要5年的基本成长期。所以，选购的时候，5年以内的软件，就不要考虑了。后面是几个基本概念。文档管理也是各类信息系统

编程日记2023/12/20 11:00:06

一款跨空间、跨平台、能分享、能搜索常用文件内容、能识别图片文字的全能搜索工具

多可文件快搜安装简单，无需复杂配置。安装在本机后，不仅能搜索本机文件，还可以搜索局域网内共享文件。它可以搜索NAS(SMB协议)上的文件。就连存储在阿里云OSS里的文件，也能轻松搜索到。它还支持IPv6，使用户可以快速安全地搜索网络中的文件。

编程日记2023/12/20 11:00:06

MySQL删除会走索引吗

MySQL是关系型数据库管理系统的一种, 网站在进行数据的增删改查的时候，我们往往需要使用 MySQL 数据库。而删除操作就是在 MySQL 数据库中删除指定的数据或者表格的操作。

编程日记2023/12/20 00:30:01

Linux多种方法安装MySQL

源码安装：优点是安装包比较小，只有十多M，缺点是安装依赖的库多，安装编译时间长，安装步骤复杂容易出错。使用官方编译好的二进制文件安装：优点是安装速度快，安装步骤简单，缺点是安装包很大，300M左右。yum安装。rpm安装。

编程日记2023/12/16 17:30:03

Linux中mysql 默认安装位置&Linux 安装 MySQL

MySQL在Linux系统上的默认安装位置是目录。这是MySQL服务器的数据目录，包含所有数据库文件。通过检查MySQL二进制文件的路径，我们可以确认MySQL是否正确安装。在目录中，MySQL使用一系列文件和子目录来组织和存储数据。确保理解MySQL数据目录的结构对于管理和维护MySQL数据库至关重要。按照顺序安装即可解决。

编程日记2023/12/16 16:30:01