GUID Primary Key資料庫避雷守則

2016-01-29 07:16 AM

【聲明】該不該用GUID當Primary Key是可以讓開發人員大戰三百回合的好題材，由標題可知我屬於GUID陣營，這篇文章不打算花時間論證該不該用GUID PK，假設讀者已接受使用GUID當PK，只聚焦如何避免GUID PK導致資料庫效能悲劇。

故事源起MVP James最近寫的幾篇GUID鬼故事（包含一起寫入資料3秒變40秒的案例，也實證了GUID作為叢集索引造成索引破碎現象，值得一看），讓我有所警覺，身為一個偏好GUID Primary Key的開發者，有必要正視這個問題，避免掉進資料庫效能陷阱。

簡單歸納我愛用GUID當Primary Key的理由：

不仰賴資料庫就能取得唯一鍵值
建立新資料的當下就能決定PK，放心地使用它衍生相關應用。即使程式執行當下資料庫還沒建好、三個月後才會寫入資料庫，或是一年後來自十個資料庫的資料要合併成一個資料表，都不必擔心鍵值重複的問題。（註：傳說GUID仍有重複的可能，但機率極低，在此忽略）
無法被猜測，用於參數時內含安全防護效果
GetTradeData.aspx?no=617ad98a-c010-4cd2-bc07-9a64d907154f 比 GetTradeData.aspx?no=6386 安全，可避免惡意人士修改參數嘗試存取非授權範圍資料的風險。

但使用GUID當Key也有缺點，例如：

不利於人工查詢或偵錯
例如：GetTradeData.aspx?no=617ad98a-c010-4cd2-bc07-9a64d907154f，SELECT * FROM MyTable WHERE Id = '617ad98a-c010-4cd2-bc07-9a64d907154f'，大多得靠複製貼上處理參數，難以手工輸入。
增加儲存空間
每個GUID有16 Byte，相較於整數4 Byte，多耗用4倍的儲存空間。
衝擊資料庫效能
GUID的非連續特性，易導致索引破碎（Index Fragement），降低系統效能。

依我的看法，人工查詢不便頂多費工不會致命，12 Byte vs 4 Byte在資料筆數很龐大時才有顯著影響，而第3點可能嚴重影響效能，輕忽不得。

由James提供的案例可知，在資料庫使用GUID PK，稍有不慎便會發生悲劇。所以該好好思索，如果你打算使用GUID PK，要怎麼樣才能避免掉下效能陷阱？

首先，鬼故事裡有一個共同關鍵－「GUID PK被設成叢集索引（Clustered Index）」。我們都知道，資料庫的索引有兩種，Clustered Index與Nonclustered Index，依據MSDN，二者比較如下：

Clustered Index
叢集索引決定資料表儲存資料的實際順序，每個資料表最多只能有一個叢集索引，而叢集索引不需額外空間儲存鍵值。有叢集索引的資料表稱為叢集資料表（Clustered Table）。找到索引鍵時一併找得到資料列，查詢效能比非叢集索引好，用在最常用的鍵值（例如：Primary Key）可以產生最大效益。若資料表沒設叢集索引，資料會以沒有固定排序的方式儲存，這種儲存結構稱之為Heap。
Nonclustered Index
非叢集索引需在實際資料列之外另行建立資料結構，每筆索引除了索引包含欄位外，還需要一個指標（Pointer）指向資料位置，若資料表有叢集索引，指標指向叢集索引的鍵值，若資料表使用Heap結構，指標直接指向資料列本身。
非叢集索引可以附加非鍵值欄位以突破16欄900Bytes的索引鍵值上限，完全涵蓋查詢條件提升效能。（參考：Create Indexes with Included Columns.）

PK使用頻率很高，設成叢集索引對效能最有利，故慣例上會設成叢集索引以提升效能。然而，因為GUID具有不連續的隨機性，即使循序寫入資料，常常後寫的資料GUID排序較前，依叢集索引特性，實體儲存位置應擺在前段，造成每次寫入資料都需挪動調整既有資料造成索引破碎，拖累寫入與查詢效能。

由此看來，將GUID PK設為叢集索引的缺點蓋過優點。轉念一想，沒人規定PK一定要設成叢集索引呀！只要將PK改為非叢集索引就能避開GUID導致索引破碎的危機。當然，非叢集索引的效能不如叢集索引，但減損幅度不致太嚴重，相較於其降低的風險是划算的。

但這衍生另一個議題，PK不設成叢集索引，資料表就只有非叢集索引可行嗎？前面提到，沒有叢集索引的資料表稱為Heap Table。

依據MSDN，Heap Table只適合資料極少（例如數十筆）的場合，即使不設任何Index，Table Scan也很有效率，或者某些資料架構師會巧妙利用非叢集索引配合Row Identifier (RID，由File Number, Data Page Number, Slot on The Page組成，長度不長)，達到比叢集索引還好的效率。但絕大部分的情況下，設定叢集索引有好處：

循序讀取一段資料時，叢集索引可以節省排序動件
GROUP BY時，分群前必須先排序，叢集索引可以省去排序作業
記得避免資料多又無非叢集索引可用的狀況，如此永遠只能Table Scan，包準慢死你

而我覺得缺乏叢集索引的最致命點是－Heap Table也會產生破碎現象，一旦出現，依MSDN的建議是建個Clustered Index再砍掉，網路上提到的其他做法還有把資料先搬出來再重新塞回去、匯出到新資料表再更名，不管哪一種做法，聽起來都好沒效率，好可怕。[2016-01-30更新]SQL 2008起，增加了ALTER TABLE … REBUILD指令，背後使用建立Clutstered Index再刪除做法，但省去建增刪過程連動更新非叢集索引的浪費，明顯提升效率。感謝James補充。

至此，我得到兩點結論：1.將GUID PK設成非叢集索引利大於弊 2.資料表欠缺叢集索引就會形成Heap Table，弊大於利。所以，最好的折衷方案就是「GUID PK設成非叢集索引，並另外增設叢集索引」，而這個額外的叢集索引，自動跳號整數會是首選。如此我們降低GUID PK導致索引破碎的風險，自動跳號叢集索引避免新增資料造成索引破碎，而叢集索引讓資料表可以透過索引重建重組改善破碎狀況，同時避開索引破碎及Heap Table陷阱。

綜合以上，來段CREATE SCRIPT示意：

 CREATE TABLE [dbo].[MiniFlow](      [SeqNo] [int] IDENTITY(1,1) NOT NULL,      [FlowId] [uniqueidentifier] NOT NULL,      [FormCode] [varchar](4) NOT NULL,      [FormNo] [varchar](16) NOT NULL,      [Subject] [nvarchar](256) NOT NULL,     CONSTRAINT [PK_MiniFlow] PRIMARY KEY NONCLUSTERED     (          [FlowId] ASC     ) ) GO CREATE CLUSTERED INDEX [IX_MiniFlow] ON [dbo].[MiniFlow] (      [SeqNo] ASC ) GO 

有幾個重點：

PK外外增設SeqNo INT，以IDENTITY(1,1)設定自動跳號
FlowId為GUID是MiniFlow資料表的Primary Key，但設定時加上NONCLUSTERED指定為非叢集索引
利用CREATE CLUSTERED INDEX將SeqNo建為叢集索引

依我的看法，這是可以克服GUID PK負面效應的最佳設計，在Stackoverflow上也獲得印證，大家如有不同看法，歡迎提出討論。手邊一些使用GUID PK的現有系統效能都還OK，不打算積極調整，但日後開發使用GUID PK新系統，我應該會採用這種設計方式。

最後提一下NEWSEQUENTIALID，有不少人建議用它取代GUID避免索引破碎，但為NEWSEQUENTIALID只能用於資料庫INSERT時自動產生，又可以被預測，並不符合我期待GUID PK應提供的隨時可取及防猜保密要求，我認為只適合用在處理跨資料庫合併用的鍵值。

Comments

# 2016-01-28 08:30 PM by oaww

請教一下暗黑大，如果發生索引破碎定期做Index Rebuild是否可以有效改善呢?@@

# 2016-01-28 08:31 PM by sueprshowwei

黑大，那這樣「一年後來自十個資料庫的資料要合併成一個資料表，都不必擔心鍵值重複的問題。」這個使用 GUID 當 PK 的優點是不是就消失了呢？還是說這個優點其實還是存在的，需要做一點手腳？

# 2016-01-28 08:51 PM by Jeffrey

to oaww, 是的，只要Index Rebuild的頻率趕得上資料更新造成的破碎量，效能仍會在可接受範圍。若非如此，我手上的現有系統（千萬筆等級）應該早就爆炸了。

# 2016-01-28 08:53 PM by Jeffrey

to sueprshowwei, 不太理解合併資料表時GUID PK優點消失的原委，需要你做些補充。

# 2016-01-28 10:13 PM by supershowwei

我們多一個欄位 [SeqNo] 建立 CLUSTERED INDEX 解決 GUID PK 的副作用，當多個相同結構的資料表要合併成一個資料表的時候，我們要怎麼處理 [SeqNo] 重覆的問題？還是說我多慮了？

# 2016-01-28 11:03 PM by Jeffrey

to supershowwei，原來如此。合併的目標資料表SeqNo也設自動跳號，合併資料時排除原有SeqNo欄位，交由合併資料表自己跳號，由於SeqNo並不具邏輯上的意義，純為避開Heap Table的缺點，合併前後SeqNo不同不致出現副作用。

# 2016-01-29 12:12 AM by 亂馬客

一般來說，Cluster Index也可以設定在 for 整批Search 所用的欄位，例如有時 Order 會使用 Order Date 去Search 一季的 Order. 當然，這通常是真的有遇到效能問題時，才會去思考的問題吧... 這問題之前在 SQL PASS上也有討論過, 個人也讚同版大這樣的作法，推推

# 2016-01-29 12:28 AM by tomexou

在大陸技術群裏大家討論DB表格的PK值，該用INT或是GUID之爭？撇開性能及儲存成本不談，最後大家的共識是GUID只在資料合併及新增項目時有利(10%)，其他時刻它只是一個ID符號而己(90%)。INT(PK) + GUID (選擇性字串欄位)這樣的設計，就可以打敗GUID當PK的理由，獲得效能及UI查詢比對的方便性。

# 2016-01-29 09:38 AM by James

SQL Server 2008 之後，針對 Heap 破碎的狀況，可以透過 Alter Table xxx Rebuild 而不需要特別去建立一個 Cluster Index , 或者是把資料匯出再匯入，那個主要都是 SQL Server 2005 之前的做法了。

# 2016-01-29 04:16 PM by Jeffrey

to James, 感謝補充，已加入本文。查了資料 http://www.sqlmaestros.com/sql-server-alter-table-rebuild/ ，看起來背後也是靠暫時性叢集索引重組資料，但效率較佳。

# 2016-01-29 08:30 PM by JerryH

請問黑大,此篇避雷守則是for Oracle也適用嗎? 謝謝!!

# 2016-01-29 09:19 PM by Jeffrey

to JerryH, 隨機性叢集索引導致索引破碎的現象在Oracle上也會發生，我認為避免將GUID（或隨機性質鍵值）設成叢集索引，另取自動跳號整數當成叢集索引的概念在Oracle也適用，但細節需要調整（例如：UniqueIdentifier -> RAW(16)…）

# 2016-04-13 09:06 PM by isarhoo

請教一下，那是不是查詢及join資料時要改用SeqNo來取資料比較好，還是一樣用guid就好?

# 2016-04-14 12:14 AM by Jeffrey

to isarhoo, SeqNo與Guid PK二者都是Unique Index，雖然有int vs uniqueidentifier的長度差異，我認為效能相差有限。對程式邏輯來說SeqNo是隱形的，我想用PK比較直覺方便。

# 2016-06-20 09:46 PM by 余小章

Hi 黑大, 用SeqNo，將來資料庫合併的時候，不就有重複的問題?重複資料對Cluster沒影響嗎?

# 2016-06-20 11:13 PM by Jeffrey

to 余小章，依我的想法SeqNo只用來當叢集索引解決索引重建重組，不且實質意義，合併資料表重新以自動跳號重新給值即可，與原表格不同也沒關係，故不會有重複問題。

# 2016-06-22 12:38 PM by 余小章

黑大：理解你的意思。再請教一個問題，重新給值，是要自己寫code處理?還是透過工具匯入 or 合併資料時，會自動處理?

# 2016-06-23 02:35 AM by Jeffrey

to 余小章，最簡單的做法: INSERT INTO MergedTable (Col1,Col2...) SELECT Col1,Col2,... FROM SourceTable Col1,Col2...列出SeqNo以外的所有欄位排除，交由SQL自己跳號即可，除非有特殊需求，不需特別寫Code或找工具。

# 2016-06-28 10:23 PM by 余小章

黑大：拍腦，怎麼沒想到略過該欄位，一語驚醒夢中人阿

# 2020-04-13 09:49 AM by tony520

Hi~ 因為很多老系統都是使用流水號PK，新增非叢集唯一索引的GUID欄位，應該是影響較小的方式了然後………大大提供的SQL語法內容裡，是不是少了一個右括號收尾？ CREATE TABLE [dbo].[MiniFlow]( [SeqNo] [int] IDENTITY(1,1) NOT NULL, [FlowId] [uniqueidentifier] NOT NULL, [FormCode] [varchar](4) NOT NULL, [FormNo] [varchar](16) NOT NULL, [Subject] [nvarchar](256) NOT NULL, CONSTRAINT [PK_MiniFlow] PRIMARY KEY NONCLUSTERED ( [FlowId] ASC ) ) GO CREATE CLUSTERED INDEX [IX_MiniFlow] ON [dbo].[MiniFlow] ( [SeqNo] ASC ) GO

# 2020-04-13 09:33 PM by Jeffrey

to tony520, 謝謝指正。

# 2020-06-16 11:00 PM by Lik

黑大，我想問問像你這樣設置到MiniFlow table，結合 EF 後，有沒有辦法讓Sql server自動編號 FlowId呢？我試驗過即使加上[Key][DatabaseGenerated(DatabaseGeneratedOption.Identity)] FlowId。結合到c# Entity framework， dbcontext insert (entity)後，新的FlowId 還是00000000-0000-0000-0000-000000000000。無效的原因可能是因為自動編號設置到了 SeqNo，而不是FlowId。雖然，用c# 寫FlowId = Guid.NewGuid 並不難。即使在 sql server 設置 FlowID 加上 default = (newid()) 也無用。因為 c# 裡面，

# 2020-06-16 11:34 PM by Lik

剛剛找到方法了，在edmx裡面設置。 ID 欄位StoreGeneratedPattern: Identity https://dotblogs.com.tw/jojo/2016/06/17/172709

# 2021-06-29 03:45 PM by eric

黑大: 幾年之後又來挑戰這個問題。如果ID是採用uniqueidentifier 配 SequentialGuidValueGenerator (https://docs.microsoft.com/en-us/dotnet/api/microsoft.entityframeworkcore.valuegeneration.sequentialguidvaluegenerator?view=efcore-5.0) 這個方案呢? 他的source code在這兒(https://github.com/dotnet/efcore/blob/f7f6d6e23c8e47e44a61983827d9e41f2afe5cc7/src/EFCore/ValueGeneration/SequentialGuidValueGenerator.cs)

# 2021-06-29 09:29 PM by Jeffrey

to eric, 哦哦哦，又出現新東西了，有空來研究一下，感謝分享。

# 2023-01-03 11:42 PM by 馬克

剛剛查了一下，oracle table存在一個虛擬欄位，叫rowid，沒特別異動或設定的話，資料跟rowid就是依新增順序儲存下去。如果希望資料儲存順序跟著index走，反而需要特別的table。

# 2023-01-03 11:44 PM by 馬克

看來oracle的rowid，就相當於黑大設計的SeqNo。