글을 작성하게 된 계기

면접에서 해시 충돌(Hash Collision)이 발생했을 때 최악의 시간 복잡도 에 대한 질문을 받았고, 이 내용을 정리하기 위해 글을 작성하게 되었습니다.

이전에 공부했던 내용인데, 잘 대답하지 못해서 확실하게 정리하고 싶어 글을 작성한 것입니다.

1. 해시 충돌 시 발생할 수 있는 최악의 시간 복잡도는?

면접에서 자바를 사용할 경우, 해시 충돌 시 발생할 수 있는 최악의 시간 복잡도 에 대한 질문을 받게 되었습니다. 이는 자바 버전 에 따라 다른데요, 각 버전에 따른 최악의 시간 복잡도를 살펴보겠습니다.

Java7 이하: O(N)
Java8 이상: O(log N)

1-1. Java7 이하

Java 7 이하에서는 해시 충돌이 발생하면, 같은 해시 값을 가진 데이터들이 같은 버킷에 저장됩니다. 이때, HashMap은 충돌된 데이터를 연결 리스트(LinkedList) 형태로 관리합니다. 만약 해시 충돌이 발생하지 않는다면, HashMap은 hash(key) % table.length 연산을 통해 특정 위치(버킷)를 찾고, 해당 위치에 데이터를 저장합니다. 이 과정에서 각 키가 서로 다른 버킷에 저장되므로, 탐색, 삽입, 삭제 연산의 시간 복잡도 O(1) 이 됩니다.

  
# 해시 충돌 발생 전 (해시 함수가 적절하게 동작하는 경우)
+----+----+----+----+----+----+----+
|  A |  B |  C |  D |  E |  F |  G | 
+----+----+----+----+----+----+----+
   0    1    2    3    4    5    6   <- 해시 값에 따른 인덱스 (table.length=7)

해시 충돌(Hash Collision)은 두 개 이상의 서로 다른 키가 같은 해시 값을 가질 때 발생하는 현상입니다.

해시 충돌이 발생할 경우, 극단적으로 모든 키가 동일한 해시 값 을 갖게 된다면, 특정 버킷 하나에 모든 데이터가 저장 되는 상황이 발생할 수 있습니다. HashMap은 충돌된 데이터를 연결 리스트 형태로 저장하기 때문에 탐색, 삽입, 삭제 연산이 O(1) 에서 O(N) 으로 바뀌게 됩니다. 즉, 성능이 선형 탐색(Linear Search)과 동일한 수준으로 저하 됩니다.

  
# 해시 충돌 발생 후 (모든 키가 동일한 해시 값)
버킷 배열 (table)
+----+----+----+----+----+----+----+
|  A |    |    |    |    |    |    | <- 해시 충돌 발생 (모든 키가 0번 버킷에 저장됨)
+----+----+----+----+----+----+----+
   0    1    2    3    4    5    6   

  
# 해시 충돌 버킷 내부 구조 (연결 리스트) - 모든 데이터가 A 키에 저장
0번 버킷 (해시 충돌 발생 후)
+----+
|  A | -> [B] -> [C] -> [D] -> [E] -> [F] -> [G]  <- 연결 리스트 형태로 저장됨 (O(N) 탐색)
+----+

1-2. Java8 이상

Java8 이상에서는 8개 이상의 충돌이 발생하면 연결 리스트에서 트리(Red-Black Tree) 로 변환해 성능을 개선합니다.

  
# 해시 충돌 발생 후 (Java 8 이상, 8개 이상이면 트리 변환)
버킷 배열 (table)
+----+----+----+----+----+----+----+
|  A |    |    |    |    |    |    | <- 여전히 0번 버킷에 저장되지만...
+----+----+----+----+----+----+----+
   0    1    2    3    4    5    6

  
# 0번 버킷 내부 구조 (트리 변환 후) - 한 키의 데이터가 트리 형태로 저장
       D
      / \
     B   F
    / \   \
   A   C   G

Red-Black Tree의 탐색, 삽입, 삭제는 O(log N)으로 제한되며, 6개 이하로 줄어들면 다시 연결 리스트로 변경됩니다. 이는 HashMap의 내부 구현을 살펴보면 알 수 있는데요, 상수 값 TREEIFY_THRESHOLD 와 UNTREEIFY_THRESHOLD 를 사용해 트리로 변환하는 임계값과 다시 연결 리스트로 변환하는 임계값을 설정합니다.

  
public class HashMap<K,V> extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable {

    ......

    // 버킷 내 엔트리 수가 이 값 이상일 때 트리로 변환하는 임계값 (기본값: 8)
    static final int TREEIFY_THRESHOLD = 8;
    
    // 트리에서 다시 연결 리스트로 변환하는 임계값 (기본값: 6)
    static final int UNTREEIFY_THRESHOLD = 6;

    ......
    
    final V putVal(
        int hash, 
        K key, 
        V value,
        boolean onlyIfAbsent,
        boolean evict
    ) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        // 내부 원소 개수가 8개 이상일 경우, RedBlackTree 변환
                        if (binCount >= TREEIFY_THRESHOLD - 1)
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) {
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }
    
    ......

}

먼저 treeifyBin(Node<K,V>[] tab, int hash) 메서드는 연결 리스트를 Red-Black Tree로 변환하는 첫 단계를 수행합니다. 이 메서드는 다음과 같이 동작합니다.

현재 해시 테이블(tab)의 크기를 확인하여 트리 변환을 수행할 수 있는 최소한의 크기(MIN_TREEIFY_CAPACITY)보다 작다면, 트리 변환 대신 해시 테이블 크기를 늘리는 resize()를 실행합니다. 해시 테이블이 너무 작을 경우, 트리 변환보다 버킷 크기를 늘리는 것이 더 효과적이기 때문입니다.
해당 해시 값(hash)에 해당하는 버킷 내 첫 번째 노드(e)를 가져옵니다. e가 null이 아니면, 해당 버킷에는 기존에 저장된 데이터가 존재하는 것이므로 트리 변환을 수행해야 합니다.
기존 Node<K,V>를 TreeNode<K,V>로 변환하기 위해 replacementTreeNode()를 호출합니다. 이 과정에서 연결 리스트를 순회하며 모든 노드를 TreeNode<K,V>로 변경합니다. 변경된 노드들은 여전히 연결 리스트 구조를 유지하고 있습니다.
마지막으로 변환된 TreeNode들의 첫 번째 노드(hd)가 null이 아니면, treeify(tab) 메서드를 호출하여 실제로 Red-Black Tree로 변환을 수행합니다.

이를 코드로 보면 다음과 같습니다.

  
public class HashMap<K,V> extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable {
    
    ......

    final void treeifyBin(Node<K,V>[] tab, int hash) {
        int n, index; Node<K,V> e;
        if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
            resize();
        else if ((e = tab[index = (n - 1) & hash]) != null) {
            TreeNode<K,V> hd = null, tl = null;
            do {
                TreeNode<K,V> p = replacementTreeNode(e, null);
                if (tl == null)
                    hd = p;
                else {
                    p.prev = tl;
                    tl.next = p;
                }
                tl = p;
            } while ((e = e.next) != null);
            if ((tab[index] = hd) != null)
                hd.treeify(tab);
        }
    }
    
    ......
    
}

  
public class HashMap<K,V> extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable {
    
    ......

    final void treeify(Node<K,V>[] tab) {
        TreeNode<K,V> root = null;
        for (TreeNode<K,V> x = this, next; x != null; x = next) {
            next = (TreeNode<K,V>)x.next;
            x.left = x.right = null;
            if (root == null) {
                x.parent = null;
                x.red = false;
                root = x;
            }
            else {
                K k = x.key;
                int h = x.hash;
                Class<?> kc = null;
                for (TreeNode<K,V> p = root;;) {
                    int dir, ph;
                    K pk = p.key;
                    if ((ph = p.hash) > h)
                        dir = -1;
                    else if (ph < h)
                        dir = 1;
                    else if ((kc == null &&
                        (kc = comparableClassFor(k)) == null) ||
                        (dir = compareComparables(kc, k, pk)) == 0)
                        dir = tieBreakOrder(k, pk);

                    TreeNode<K,V> xp = p;
                    if ((p = (dir <= 0) ? p.left : p.right) == null) {
                        x.parent = xp;
                        if (dir <= 0)
                            xp.left = x;
                        else
                            xp.right = x;
                        root = balanceInsertion(root, x);
                        break;
                    }
                }
            }
        }
        moveRootToFront(tab, root);
    }

    TreeNode<K,V> replacementTreeNode(Node<K,V> p, Node<K,V> next) {
        LinkedHashMap.Entry<K,V> q = (LinkedHashMap.Entry<K,V>)p;
        TreeNode<K,V> t = new TreeNode<>(q.hash, q.key, q.value, next);
        transferLinks(q, t);
        return t;
    }
    
    ......

    private void transferLinks(LinkedHashMap.Entry<K,V> src,
                               LinkedHashMap.Entry<K,V> dst) {
        LinkedHashMap.Entry<K,V> b = dst.before = src.before;
        LinkedHashMap.Entry<K,V> a = dst.after = src.after;
        if (b == null)
            head = dst;
        else
            b.after = dst;
        if (a == null)
            tail = dst;
        else
            a.before = dst;
    }
    
    ......
    
}

2. 정리

이전에 학습한 내용이었지만 머릿속에서 긴가민가했는데요, 사실 이를 정리하기 위해 한 번 더 복습하고 싶었습니다. 앞으로 취준생 때 받았던 괜찮은 질문들을 복귀하면서 내용들을 정리해 보는 것도 재미있을 것 같네요.

해시충돌이 발생했을 때 최악의 시간 복잡도는 어떻게 될까?

글을 작성하게 된 계기

1. 해시 충돌 시 발생할 수 있는 최악의 시간 복잡도는?

1-1. Java7 이하

1-2. Java8 이상

2. 정리

Further Reading

Compressed Oops와 32bit 참조 최적화

serialVersionUID의 변경 조건은 어떻게 될까?