在MySQL中常見的utf8mb4排序規則有:
- utf8mb4_0900_ai_ci
- utf8mb4_unicode_ci
- utf8mb4_general_ci
當設置表的默認字符集為utf8mb4字符集但未明確指定排序規則時:
- 在MySQL 5.7版本中,默認排序規則為utf8mb4_general_ci。
- 在MySQL 8.0版本中,默認排序規則為utf8mb4_0900_ai_ci。
由于utf8mb4_0900_ai_ci排序規則時MySQL 8.0引入的排序規則,因此將MySQL 8.0版本的表導入到MySQL 5.7或MySQL 5.6版本時,會存在字符集無法識別的問題。
[Err] 1273 - Unknown collation: 'utf8mb4_0900_ai_ci'
參數控制
在MySQL 5.6版本中,參數collation_server用于設置服務器級別的默認排序規則。
- 如果服務啟動時未指定參數collation_database的值,則默認繼承參數collation_server的值。
- 如果創建數據庫時未指定排序規則,則默認使用參數collation_database的值。
參數character_set_database和collation_database在MySQL 5.7版本中被遺棄并將在后續版本中移除。
MySQL新增參數default_collation_for_utf8mb4用于控制使用utf8mb4字符集時的默認排序規則,取值為utf8mb4_0900_ai_ci或utf8mb4_general_ci
參數default_collation_for_utf8mb4在下列條件中生效:
- 使用SHOW COLLATION and SHOW CHARACTER SET 命令時。
- 在創建庫或修改庫指定utf8mb4但未指定編碼規則時。
- 在創建表或修改表指定utf8mb4但未指定編碼規則時。
- 在增加列或修改列指定utf8mb4但未指定編碼規則時。
- 其他使用utf8mb4但未指定編碼規則時。
utf8mb4_unicode_ci和utf8mb4_general_ci對比
1、準確性
- utf8mb4_unicode_ci排序規則基于標準unicode進行排序和比較,能處理特殊的字符,能在各種語音中精確排序。
- utf8mb4_general_ci排序規則沒有基于標準unicode,無法處理部分特殊字符。
2、性能
- utf8mb4_general_ci排序規則在排序性能上相對較好
- utf8mb4_unicode_ci排序規則為處理特殊字符實現復雜的排序算法,性能略差
- 在大部分場景下,兩者沒有明顯的性能差異
補:MySQL--utf8mb4與等值查詢測試
測試腳本
## 刪除測試表
DROP TABLE IF EXISTS tb2001;
DROP TABLE IF EXISTS tb2002;
DROP TABLE IF EXISTS tb2003;
## 創建測試表
CREATE TABLE tb2001(
id INT AUTO_INCREMENT PRIMARY KEY,
c1 VARCHAR(100) COLLATE utf8mb4_unicode_ci,
c2 VARCHAR(100) COLLATE utf8mb4_bin
)ENGINE=INNODB DEFAULT CHARSET=utf8mb4 ;
CREATE TABLE tb2002(
id INT AUTO_INCREMENT PRIMARY KEY,
c1 VARCHAR(100) COLLATE utf8mb4_general_ci,
c2 VARCHAR(100) COLLATE utf8mb4_bin
)ENGINE=INNODB DEFAULT CHARSET=utf8mb4;
CREATE TABLE tb2003(
id INT AUTO_INCREMENT PRIMARY KEY,
c1 VARCHAR(100) COLLATE utf8mb4_0900_ai_ci,
c2 VARCHAR(100) COLLATE utf8mb4_bin
)ENGINE=INNODB DEFAULT CHARSET=utf8mb4;
## 插入測試數據
INSERT INTO tb2001(c1,c2)VALUES(0xF09F8D83,0xF09F8D83),(0xF09FA68A,0xF09FA68A),(0xF09F8CA0,0xF09F8CA0);
INSERT INTO tb2002(c1,c2)VALUES(0xF09F8D83,0xF09F8D83),(0xF09FA68A,0xF09FA68A),(0xF09F8CA0,0xF09F8CA0);
INSERT INTO tb2003(c1,c2)VALUES(0xF09F8D83,0xF09F8D83),(0xF09FA68A,0xF09FA68A),(0xF09F8CA0,0xF09F8CA0);
## 等值查詢測試
SELECT * FROM tb2001 WHERE c1=0xF09F8D83;
SELECT * FROM tb2002 WHERE c1=0xF09F8D83;
SELECT * FROM tb2003 WHERE c1=0xF09F8D83;
SELECT * FROM tb2001 WHERE c2=0xF09F8D83;
SELECT * FROM tb2002 WHERE c2=0xF09F8D83;
SELECT * FROM tb2003 WHERE c2=0xF09F8D83;
測試結果
mysql> SELECT * FROM tb2001 WHERE c1=0xF09F8D83;
+----+------+------+
| id | c1 | c2 |
+----+------+------+
| 1 | 🍃 | 🍃 |
| 2 | 🦊 | 🦊 |
| 3 | 🌠 | 🌠 |
+----+------+------+
3 rows in set (0.00 sec)
mysql> SELECT * FROM tb2002 WHERE c1=0xF09F8D83;
+----+------+------+
| id | c1 | c2 |
+----+------+------+
| 1 | 🍃 | 🍃 |
| 2 | 🦊 | 🦊 |
| 3 | 🌠 | 🌠 |
+----+------+------+
3 rows in set (0.01 sec)
mysql> SELECT * FROM tb2003 WHERE c1=0xF09F8D83;
+----+------+------+
| id | c1 | c2 |
+----+------+------+
| 1 | 🍃 | 🍃 |
+----+------+------+
1 row in set (0.00 sec)
mysql>
mysql> SELECT * FROM tb2001 WHERE c2=0xF09F8D83;
+----+------+------+
| id | c1 | c2 |
+----+------+------+
| 1 | 🍃 | 🍃 |
+----+------+------+
1 row in set (0.00 sec)
mysql> SELECT * FROM tb2002 WHERE c2=0xF09F8D83;
+----+------+------+
| id | c1 | c2 |
+----+------+------+
| 1 | 🍃 | 🍃 |
+----+------+------+
1 row in set (0.00 sec)
mysql> SELECT * FROM tb2003 WHERE c2=0xF09F8D83;
+----+------+------+
| id | c1 | c2 |
+----+------+------+
| 1 | 🍃 | 🍃 |
+----+------+------+
1 row in set (0.00 sec)
測試總結
- 使用utf8mb4字符集能存儲特殊字符如表情符號。
- utf8mb4_unicode_ci和utf8mb4_general_ci排序規則無法"正確匹配"特殊字符。
- utf8mb4_0900_ai_ci排序規則能"正確匹配"特殊字符,但僅適用MySQL 8.0版本。
- utf8mb4_bin排序規則基于二級制方式匹配特殊字符,能"正確匹配"特殊字符,適用于MySQL各個版本。
到此這篇關于MySQL中utf8mb4排序規則示例的文章就介紹到這了,更多相關MySQL utf8mb4排序內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- 如何更改MySQL數據庫的編碼為utf8mb4
- MySQL字符集utf8修改為utf8mb4的方法步驟
- 詳解JDBC對Mysql utf8mb4字符集的處理
- Spring Data Jpa Mysql使用utf8mb4編碼的示例代碼
- 設置mysql5.7編碼集為utf8mb4的方法
- 全面了解mysql中utf8和utf8mb4的區別