Database Story for Curious Builders

펀치 카드부터 레이크하우스까지, 데이터를 맡기는 법을 찾아 온 기록

1890년 미국 통계국 서기들은 인구조사 표를 제때 끝내지 못해 애를 먹었습니다. 허먼 홀러리스가 펀치 카드 기계를 들고 와 “구멍으로 답을 세어 보죠”라고 제안하면서 데이터가 처음 전기 장비를 타고 흘렀습니다. 몇십 년 뒤에는 은행 창구 직원과 로켓 조립 관리자도 “기록 좀 빨리 찾게 해 주세요”라며 자기 디스크와 계층형 모델을 시험했습니다.

1970년대 E.F. Codd와 Peter Chen은 데이터를 표와 그림으로 설명하는 법을 정리했고, Oracle 같은 팀이 “현장에서도 통한다”는 걸 보여 줬습니다. 1990년대 MySQL과 PostgreSQL은 오픈소스 선택지를 넓혔고, 2000년대 Dynamo와 MongoDB는 분산 웹 서비스를 위해 새로운 저장 방식을 탐색했습니다.

연도 버튼을 누르면 각 세대가 어떤 문제를 풀고 싶었는지, 그 해법이 오늘날 서비스에 어떻게 이어졌는지 차근차근 만나 볼 수 있습니다. 낯선 용어가 나와도 괜찮아요. 사람과 상황 중심으로 쉽게 풀어 드릴게요.

1890s

인구조사와 펀치 카드 실험

통계국 서기와 엔지니어가 종이 표 대신 펀치 카드와 전기 집계기를 들여와 반복 계산을 기계에 맡겼습니다.

1950s

자기 디스크와 실시간 업데이트

은행과 보험사 팀은 테이프를 갈아 끼우는 시간 대신, 회전하는 디스크로 “필요할 때 바로 고치자”는 새 흐름을 열었습니다.

1960s

로켓과 은행이 그린 계층 지도

아폴로 부품과 항공 예약처럼 복잡한 정보를 다루던 팀은 데이터를 층층이 쌓거나 링크로 묶는 모델을 실험했습니다.

1970s

관계형 사고와 그림 언어

연구자와 설계자는 “조건만 말하면 원하는 표를 보자”는 목표로 SQL과 ER 다이어그램을 정착시켰습니다.

1980s

표준화와 병렬 엔진의 확장

대형 은행과 제조사가 관계형 DB를 기본 도구로 삼자 SQL 표준과 대규모 병렬 엔진이 빠르게 보급됐습니다.

1990s

오픈소스와 데이터 웨어하우스

웹 서비스와 전자상거래 팀이 가볍고 무료인 DB를 고르고, 경영진은 분석을 위한 별도 창고를 세웠습니다.

2000s

웹 규모와 NoSQL 실험

인터넷 기업은 수천 대 서버에 로그를 나눠 저장하고 문서형·키값 저장소를 시험하며 유연성을 확보했습니다.

2010s

전 세계 일관성과 스트리밍 파이프라인

다국적 서비스는 지구 반대편에서도 같은 데이터를 보려 했고, 이벤트 스트림을 흘려보내며 실시간 분석을 준비했습니다.

2020s

레이크하우스와 벡터 검색 도입

데이터 레이크와 웨어하우스를 잇는 설계가 확산되고, 생성형 AI를 돕는 벡터 데이터베이스가 업무에 들어오기 시작했습니다.

참고 자료

관계형 이론, 분산 DB 설계, 레이크하우스 전략을 소개한 대표 문헌을 모았습니다. 원문을 읽어 보면 당시 엔지니어가 어떤 제약을 풀려고 했는지 더 잘 느낄 수 있습니다.

펀치 카드부터 레이크하우스까지, 데이터를 맡기는 법을 찾아 온 기록

인구조사와 펀치 카드 실험

자기 디스크와 실시간 업데이트

로켓과 은행이 그린 계층 지도

관계형 사고와 그림 언어

표준화와 병렬 엔진의 확장

오픈소스와 데이터 웨어하우스

웹 규모와 NoSQL 실험

전 세계 일관성과 스트리밍 파이프라인

레이크하우스와 벡터 검색 도입

참고 자료

홀러리스 천공 카드 시스템

IBM 305 RAMAC · 자기 디스크 도입

CODASYL DB 위원회

IMS · 아폴로 부품을 추적하다

IDS 네트워크 모델

관계형 모델 논문

Peter Chen의 ER 모델

Oracle V2 · 상용 SQL 데이터베이스

IBM DB2 베타

ANSI SQL-86

Teradata DBC/1012

MySQL 공개

PostgreSQL 6 프리뷰

데이터 웨어하우스 참고 모델

Google MapReduce 논문

Amazon Dynamo 설계

MongoDB 1.0

Spanner · 글로벌 일관성

Apache Kafka 0.8

Snowflake 전역 출시

레이크하우스 전략

벡터 데이터베이스 상용화