본문 바로가기
소프트웨어 공학

데이터 전환(Data Transition)의 정의와 새로운 대안

by iwuooh 2022. 1. 5.

데이터 전환(Data Transition)

데이터 전환이란 현재 운영하고 있는 기본 정보 시스템에 저장되어 있는 데이터를 추출하여 새로 개발하고자 하는 정보 시스템에서 사용이 가능하도록 변화시킨 후 축적시키는 일련의 과정이다. 추출하고 변환하고 적재한다는 의미에서 ETL(Extraction, Transformation, Load)이라고 한다. 또, 데이터 전환을 데이터 이행(Data Migration) 또는 데이터 이관이라고도 한다. 데이터 전환 시에는 데이터 전환 계획서를 작성하여 전환이 필요한 대상을 분석하고 전환 작업에 필요한 모든 계획을 빠짐없이 기록하는 문서이다. 주요 항목으로는 데이터 전환의 목표, 성공적인 데이터 전환을 위한 고려사항, 데이터 전환 작업을 위한 전제 조건 및 제약 사항이 있다. 이때 데이터 전환의 목표는 간단명료하게 정의하고 전제조건이나 제약사항은 아주 정확하게 작성해야 한다. 데이터 전환의 대상과 범위는 해당 업무에 사용되는 테이블 수나 데이터의 크기에 대해 기술한다. 데이터 전환 환경 구성에 관한 내용에는 원천 시스템과 목적 시스템의 구성도, 단계별 작업공간의 사용량들이 포함된다. 계획을 세우고 일정을 수립할 때에도 상세하게 일정을 정한다.

데이터 전환(Data Transition)의 방안

데이터 전환 방안의 항목은 일반적으로 데이터 전환 규칙, 데이터 전환 방법, 데이터 전환 설계, 데이터 전환 절차. 전환 프로그램 개발 및 테스트 계획, 데이터 검증 방안, 데이터 전환 계획이 있다. 데이터 전환 규칙의 단계에서는 주로 데이터를 전환하는 과정에서 필요한 규칙들을 정의한다. 이러한 규칙들은 최대한 넓은 범위로 공통적으로 적용된다. 데이터 전환 방법에서는 데이터를 전환할 때 단위업무별로 필요한 전제조건과 함께 데이터 전환 방법을 기술한다. 데이터 전환 설계에서는 업무별로 데이터를 전환할 대상과 아닌 대상을 정의한다. 데이터 전환 절차에는 데이터를 전환할 때 필요한 준비사항, 설계와 개발에 관련된 내용, 테스트가 포함되며 실데이터를 전환하고 최종적으로 전환된 데이터를 검증하는 것 까지 상세하고 체계적으로 작성한다. 과정에 대한 작업자의 이해를 위해 데이터 흐름도의 작성도 요구된다. 전환 프로그램 개발 및 테스트 계획은 데이터의 전환 후 프로그램의 개발에 대한 계획과 테스트에 관한 계획에 관해 기술한다. 데이터 검증 방안에는 데이터를 전환하는 과정에서 생길 수 있는 오류에 대해 대응할 수 있도록 방안을 수립한다. 그리고 데이터를 전환한 이후에 데이터의 정합성을 검증한다. 데이터 전환 계획은 데이터를 전환하는 시간을 줄이기 위해서 체계적으로 계획을 수립하고 관련 내용을 작성한다.

데이터 전환(Data Transition)의 단점과 새로운 대안

데이터를 변환에 대한 비즈니스의 요구사항은 고유하기 때문에 이를 다루는 엔지니어는 프로그램과 스크립트를 매번 처리해야 한다. 목적에 맞게 특화되고 변환이 불가능한 기술을 개발해야 하므로 코드의 관리가 복잡해진다. 또한 데이터 엔지니어가 데이터를 전환할 때 재설계를 끊임없이 해야 하므로 지속적인 간접비도 발생한다. 그리고 데이터 과학자는 엔지니어에 의해 변환되고 정제된 데이터만을 다루기 때문에 프로세스가 유연하지 못하고 빠른 속도로 처리하기도 어렵다. 전통적인 프로세스로는 빅데이터를 처리하기가 불가능에 가까워 새로운 대안인 ELT(Extraction, Loading, Transformation)이 새로 등장했는데 변환이 마지막에 이루어지도록 기존의 방식은 유지하고 데이터를 통합하는 단계만을 재 정렬한 것이다. 추출(Extraction) 과정에서는 분산된 소스에서 원시 데이터를 추출해내고, 로드(Loading) 과정에서는 목표가 되는 시스템에 직접 데이터를 로드한다. 추출된 데이터는 데이터베이스 등에 로드된다. 변환(Transformation)은 목표가 되는 시스템에서 주로 스크립트를 사용하여 이루어진다. 이처럼 데이터가 갈수록 증가하면서 빅데이터의 시대가 도래하는 만큼 데이터를 전환하는 데에도 이에 걸맞은 접근법이 필요해졌다. 기존의 관행에서 벗어나 더욱 신속하고 정확하게 데이터를 관리하는 방안을 마련해야 할 것이다.

댓글