Ga0's
데이터 모델과 성능 본문
◆ 데이터 모델링 단계
- 첫째, 데이터모델링을 할 때 정규화를 정확하게 수행한다.
- 둘째, 데이터베이스 용량산정을 수행한다.
- 셋째, 데이터베이스에 발생되는 트랜잭션의 유형을 파악한다.
- 넷째, 용량과 트랜잭션의 유형에 따라 반정규화를 수행한다.
- 다섯째, 이력모델의 조정, PK/FK조정, 슈퍼타입/서브타입 조정 등을 수행한다.
- 여섯째, 성능관점에서 데이터모델을 검증한다.
- (정규화 -> 용량산정 -> 트랜잭션 유형 -> 반정규화 -> 조정 -> 검증)
◆ 정규화 단계
- 제 1정규형 : 도메인의 원자성(=> 관계형 데이터베이스는 각 행의 도메인에서 각각 정확히 한 개의 값만 허용)
- 제 2정규형 : 부분 함수적 종속 제거(=> PK가 두개일 경우, PK 1개 값으로 종속되는 경우도 존재하고, PK 2개 값으로 종속되는 경우도 존재하는 경우 부분 함수적 종속이라하며, 이를 제거 해야한다.(테이블을 분리))
- 제 3정규형 : 이행 함수적 종속 제거(=> X -> Y이고 Y -> Z일 때 X -> Z인 것을 이행 함수적 종속이라하는데, 말로 풀면 만약 제품코드가 회사코드를 결정하고, 회사코드가 회사명을 결정할 때, 제품코드는 회사명을 결정한다고 할 수 있다. 이를 이행 함수적 종속이라하며 제거해야한다.(테이블을 분리))
- 보이스-코드 정규형(BCNF) : 후보 키가 아닌 결정자 제거(=> 만약 사용자아이디와 제품코드가 PK이고, 쇼핑몰아이디와 쇼핑몰이름 속성도 존재했을 경우, 쇼핑몰 ID가 쇼핑몰 이름을 결정되는 경우에서 쇼핑몰 ID가 후보키가 아닌 경우 BCNF를 만족하지 못한다고 한다. 즉, 결정되는 요소와 연결될 수 있도록 테이블을 분리해야 한다.)
- 제 4정규형 : 다치 종속 제거(=> X -> Y인 의존성에서 단일 값 X와 다중 값 Y가 존재하는 경우 다치 종속으로 보며 이를 X -> Y1 / X -> Y2로 분리해야 한다)
- 제 5정규형 : 조인 종속 제거(=> 조인 종속은 하나의 관계를 여러개의 관계로 분해했다가, 다시 조인했을 경우 데이터 손실이 없고 필요 없는 데이터가 생기는 것을 말한다. 모든 조인 종속이 후보키를 통해서만 성립되어야 한다. )
◆ 반정규화를 고려할 때 판단 요소
- 다량 데이터 탐색의 경우 인덱스가 아닌 파티션 및 데이터 클러스터링 등의 다양한 물리 저장 기법을 활용하여 성능 개선을 유도할 수 있으나, 하나의 결과셋을 추출하기 위해 다량의 데이터를 탐색하는 처리가 반복적으로 빈번하게 발생한다면 반정규화 고려
- 이전 또는 이후 위치의 레코드에 대한 탐색은 window function으로 접근 가능
- 집계 테이블 이외에도 다양한 유형(다수 테이블의 키연결 테이블 등)에 대하여 반정규화 테이블 적용이 필요할 수 있음
◆ 하나의 테이블의 전체 칼럼 중 자주 이용하는 집중화된 칼럼들이 있을 경우?
- 디스크 I/O를 줄이기 위해 해당 칼럼들을 별도로 모아 놓은 반 정규화 기법은 테이블추가 반정규화 기법 - 부분테이블 추가에 해당
◆ 테이블의 반 정규화
- 테이블 병합
- 1:1 관계 테이블 병합
- 1:M 관계 테이블 병합
- 슈퍼/서브타입 테이블 병합
- 테이블 분할
- 수직분할
- 수평분할
- 테이블 추가
- 중복테이블 추가
- 통계테이블 추가
- 이력테이블 추가
- 부분테이블 추가
◆ 컬럼의 반정규화
- 중복칼럼 추가
- 파생칼럼 추가
- 이력테이블 칼럼 추가
- PK에 의한 칼럼 추가
- 응용시스템 오작동을 위한 칼럼 추가
◆ 반정규화의 대상에 대해 다른 방법으로 처리
- 지나치게 많은 조인이 걸려 데이터를 조회하는 작업이 기술적으로 어려울 경우 뷰를 사용하면 해결 가능
- 대량의 데이터처리나 부분처리에 의해 성능이 저하되는 경우 클러스터링을 적용하거나 인덱스를 조정함으로써 성능 향상 가능
- 대량의 데이터는 PK의 성격에 따라 부분적인 테이블로 분리할 수 있는 파티셔닝 기법을 적용하여 성능 향상 가능
- 응용 애플리케이션에서 로직을 구사하는 방법을 변경함으로써 성능 향상 가능
◆ 슈퍼/서브 타입 데이터모델의 변환기술
- 개별로 발생되는 트랜잭션에 대해서는 개별 테이블로 구성
- 슈퍼타입+서브타입에 대해 발생되는 트랜잭션에 대해서는 슈퍼타입+서브타입 테이블로 구성
- 전체를 하나로 묶어 트랜잭션이 발생할 때는 하나의 테이블로 구성
◆ 인덱스 엑세스 범위를 좁히는 방법
- 인덱스는 값의 범위에 따라 일정하게 정렬되어 있으므로 상수값으로 "=" 조건으로 조회되는 컬럼이 가장 앞으로 나오고 범위조회하는 유형의 칼럼이 그 다음에 오도록하는 것이 인덱스 엑세스 범위를 좁힐 수 있다.
◆ 분산 데이터베이스 장단점
- 장점
- 지역 자치성, 점증적 시스템 용량 확장
- 신뢰성과 가용성
- 효용성과 융통성
- 빠른 응답 속도와 통신비용 절감
- 데이터의 가용성과 신뢰성 증가
- 시스템 규모의 적절한 조절
- 각 지역 사용자의 요구 수용 증대
- 단점
- 소프트웨어 개발 비용 증대
- 오류의 잠재성 증대
- 처리 비용 증대
- 설계, 관리의 복잡성과 비용 증대
- 불규칙한 응답 속도
- 통제의 어려움
- 데이터 무결성에 대한 위협
◆ Global Single Instance(GSI)
- 통합된 한개의 인스턴스를 의미하며, 통합 데이터 베이스 구조를 말한다. (<-> 분산데이터베이스와 대치)
◆ 데이터 모델에 표현된 FK에 대한 설명
- 만약, 두 테이블 사이에 조인하여 정보를 조회할 업무가 많은 경우 업무적으로 밀접하게 연결되어 있다는 뜻이기 때문에 FK를 생성했는지에 여부와 상관없이 조인 성능 형성을 위해 인덱스를 생성해주는 것이 좋다. (외래키를 받는 테이블에도 FK 인덱스 생성 필요)
'Study IT > SQLD' 카테고리의 다른 글
SQL 기본(2) (4) | 2024.01.13 |
---|---|
SQL 기본(1) (5) | 2024.01.06 |
데이터 모델링의 이해 (2) | 2024.01.02 |
SQLD_분산 데이터베이스와 성능 (2) | 2023.05.03 |
SQLD_데이터베이스 구조와 성능 (4) | 2023.05.03 |