글을 작성하게 된 계기
면접에서 해시 충돌(Hash Collision)이 발생했을 때 최악의 시간 복잡도 에 대한 질문을 받았고, 이 내용을 정리하기 위해 글을 작성하게 되었습니다.
이전에 공부했던 내용인데, 잘 대답하지 못해서 확실하게 정리하고 싶어 글을 작성한 것입니다.
1. 해시 충돌 시 발생할 수 있는 최악의 시간 복잡도는?
면접에서 자바를 사용할 경우, 해시 충돌 시 발생할 수 있는 최악의 시간 복잡도 에 대한 질문을 받게 되었습니다. 이는 자바 버전 에 따라 다른데요, 각 버전에 따른 최악의 시간 복잡도를 살펴보겠습니다.
- Java7 이하: O(N)
- Java8 이상: O(log N)
1-1. Java7 이하
Java 7 이하에서는 해시 충돌이 발생하면, 같은 해시 값을 가진 데이터들이 같은 버킷에 저장됩니다. 이때, HashMap은 충돌된 데이터를 연결 리스트(LinkedList) 형태로 관리합니다. 만약 해시 충돌이 발생하지 않는다면, HashMap은 hash(key) % table.length 연산을 통해 특정 위치(버킷)를 찾고, 해당 위치에 데이터를 저장합니다. 이 과정에서 각 키가 서로 다른 버킷에 저장되므로, 탐색, 삽입, 삭제 연산의 시간 복잡도 O(1) 이 됩니다.
1
2
3
4
5
# 해시 충돌 발생 전 (해시 함수가 적절하게 동작하는 경우)
+----+----+----+----+----+----+----+
| A | B | C | D | E | F | G |
+----+----+----+----+----+----+----+
0 1 2 3 4 5 6 <- 해시 값에 따른 인덱스 (table.length=7)
해시 충돌(Hash Collision)은 두 개 이상의 서로 다른 키가 같은 해시 값을 가질 때 발생하는 현상입니다.
해시 충돌이 발생할 경우, 극단적으로 모든 키가 동일한 해시 값 을 갖게 된다면, 특정 버킷 하나에 모든 데이터가 저장 되는 상황이 발생할 수 있습니다. HashMap은 충돌된 데이터를 연결 리스트 형태로 저장하기 때문에 탐색, 삽입, 삭제 연산이 O(1) 에서 O(N) 으로 바뀌게 됩니다. 즉, 성능이 선형 탐색(Linear Search)과 동일한 수준으로 저하 됩니다.
1
2
3
4
5
6
# 해시 충돌 발생 후 (모든 키가 동일한 해시 값)
버킷 배열 (table)
+----+----+----+----+----+----+----+
| A | | | | | | | <- 해시 충돌 발생 (모든 키가 0번 버킷에 저장됨)
+----+----+----+----+----+----+----+
0 1 2 3 4 5 6
1
2
3
4
5
# 해시 충돌 버킷 내부 구조 (연결 리스트) - 모든 데이터가 A 키에 저장
0번 버킷 (해시 충돌 발생 후)
+----+
| A | -> [B] -> [C] -> [D] -> [E] -> [F] -> [G] <- 연결 리스트 형태로 저장됨 (O(N) 탐색)
+----+
1-2. Java8 이상
Java8 이상에서는 8개 이상의 충돌이 발생하면 연결 리스트에서 트리(Red-Black Tree) 로 변환해 성능을 개선합니다.
1
2
3
4
5
6
# 해시 충돌 발생 후 (Java 8 이상, 8개 이상이면 트리 변환)
버킷 배열 (table)
+----+----+----+----+----+----+----+
| A | | | | | | | <- 여전히 0번 버킷에 저장되지만...
+----+----+----+----+----+----+----+
0 1 2 3 4 5 6
1
2
3
4
5
6
# 0번 버킷 내부 구조 (트리 변환 후) - 한 키의 데이터가 트리 형태로 저장
D
/ \
B F
/ \ \
A C G
Red-Black Tree의 탐색, 삽입, 삭제는 O(log N)으로 제한되며, 6개 이하로 줄어들면 다시 연결 리스트로 변경됩니다. 이는 HashMap의 내부 구현을 살펴보면 알 수 있는데요, 상수 값 TREEIFY_THRESHOLD 와 UNTREEIFY_THRESHOLD 를 사용해 트리로 변환하는 임계값과 다시 연결 리스트로 변환하는 임계값을 설정합니다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
public class HashMap<K,V> extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable {
......
// 버킷 내 엔트리 수가 이 값 이상일 때 트리로 변환하는 임계값 (기본값: 8)
static final int TREEIFY_THRESHOLD = 8;
// 트리에서 다시 연결 리스트로 변환하는 임계값 (기본값: 6)
static final int UNTREEIFY_THRESHOLD = 6;
......
final V putVal(
int hash,
K key,
V value,
boolean onlyIfAbsent,
boolean evict
) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
// 내부 원소 개수가 8개 이상일 경우, RedBlackTree 변환
if (binCount >= TREEIFY_THRESHOLD - 1)
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) {
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
}
......
}
먼저 treeifyBin(Node<K,V>[] tab, int hash) 메서드는 연결 리스트를 Red-Black Tree로 변환하는 첫 단계를 수행합니다. 이 메서드는 다음과 같이 동작합니다.
- 현재 해시 테이블(tab)의 크기를 확인하여 트리 변환을 수행할 수 있는 최소한의 크기(MIN_TREEIFY_CAPACITY)보다 작다면, 트리 변환 대신 해시 테이블 크기를 늘리는 resize()를 실행합니다. 해시 테이블이 너무 작을 경우, 트리 변환보다 버킷 크기를 늘리는 것이 더 효과적이기 때문입니다.
- 해당 해시 값(hash)에 해당하는 버킷 내 첫 번째 노드(e)를 가져옵니다. e가 null이 아니면, 해당 버킷에는 기존에 저장된 데이터가 존재하는 것이므로 트리 변환을 수행해야 합니다.
- 기존 Node<K,V>를 TreeNode<K,V>로 변환하기 위해 replacementTreeNode()를 호출합니다. 이 과정에서 연결 리스트를 순회하며 모든 노드를 TreeNode<K,V>로 변경합니다. 변경된 노드들은 여전히 연결 리스트 구조를 유지하고 있습니다.
- 마지막으로 변환된 TreeNode들의 첫 번째 노드(hd)가 null이 아니면, treeify(tab) 메서드를 호출하여 실제로 Red-Black Tree로 변환을 수행합니다.
이를 코드로 보면 다음과 같습니다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
public class HashMap<K,V> extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable {
......
final void treeifyBin(Node<K,V>[] tab, int hash) {
int n, index; Node<K,V> e;
if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
resize();
else if ((e = tab[index = (n - 1) & hash]) != null) {
TreeNode<K,V> hd = null, tl = null;
do {
TreeNode<K,V> p = replacementTreeNode(e, null);
if (tl == null)
hd = p;
else {
p.prev = tl;
tl.next = p;
}
tl = p;
} while ((e = e.next) != null);
if ((tab[index] = hd) != null)
hd.treeify(tab);
}
}
......
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
public class HashMap<K,V> extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable {
......
final void treeify(Node<K,V>[] tab) {
TreeNode<K,V> root = null;
for (TreeNode<K,V> x = this, next; x != null; x = next) {
next = (TreeNode<K,V>)x.next;
x.left = x.right = null;
if (root == null) {
x.parent = null;
x.red = false;
root = x;
}
else {
K k = x.key;
int h = x.hash;
Class<?> kc = null;
for (TreeNode<K,V> p = root;;) {
int dir, ph;
K pk = p.key;
if ((ph = p.hash) > h)
dir = -1;
else if (ph < h)
dir = 1;
else if ((kc == null &&
(kc = comparableClassFor(k)) == null) ||
(dir = compareComparables(kc, k, pk)) == 0)
dir = tieBreakOrder(k, pk);
TreeNode<K,V> xp = p;
if ((p = (dir <= 0) ? p.left : p.right) == null) {
x.parent = xp;
if (dir <= 0)
xp.left = x;
else
xp.right = x;
root = balanceInsertion(root, x);
break;
}
}
}
}
moveRootToFront(tab, root);
}
TreeNode<K,V> replacementTreeNode(Node<K,V> p, Node<K,V> next) {
LinkedHashMap.Entry<K,V> q = (LinkedHashMap.Entry<K,V>)p;
TreeNode<K,V> t = new TreeNode<>(q.hash, q.key, q.value, next);
transferLinks(q, t);
return t;
}
......
private void transferLinks(LinkedHashMap.Entry<K,V> src,
LinkedHashMap.Entry<K,V> dst) {
LinkedHashMap.Entry<K,V> b = dst.before = src.before;
LinkedHashMap.Entry<K,V> a = dst.after = src.after;
if (b == null)
head = dst;
else
b.after = dst;
if (a == null)
tail = dst;
else
a.before = dst;
}
......
}
2. 정리
이전에 학습한 내용이었지만 머릿속에서 긴가민가했는데요, 사실 이를 정리하기 위해 한 번 더 복습하고 싶었습니다. 앞으로 취준생 때 받았던 괜찮은 질문들을 복귀하면서 내용들을 정리해 보는 것도 재미있을 것 같네요.