데이터 중복 제거 개요

아티클
09/02/2016

게시 날짜: 2016년 8월

적용 대상: Windows Storage Server 2012, Windows Server 2012 R2, Windows Server 2012

이 항목에서는 Windows Server 2012 R2 및 Windows Server 2012의 데이터 중복 제거 기능에 대해 설명하며 이 기능의 유용한 팁을 제공합니다.

기능 설명

데이터 중복 제거에는 데이터의 충실도나 무결성을 저하시키지 않고 데이터 내의 중복 항목을 찾아 제거하는 작업이 포함됩니다. 이 작업의 목표는 데이터를 작은(32~128KB) 가변 크기의 청크로 세그먼트화하고 중복 청크를 확인한 후 각 청크의 단일 복사본을 유지함으로써 더 적은 공간에 더 많은 데이터를 저장하는 데 있습니다. 청크의 중복 사본은 단일 복사본에 대한 참조로 대체 됩니다. 청크는 압축된 다음 시스템 볼륨 정보 폴더의 특별한 컨테이너 파일로 구성됩니다.

결과적으로 그림 1과 같이 디스크에 있는 각 파일이 변환됩니다. 중복 제거 후에는 파일이 더 이상 독립적인 데이터 스트림으로 저장되지 않고 일반 청크 저장소 내에 저장된 데이터 블록을 가리키는 스텁으로 대체됩니다. 이러한 파일에서는 블록을 공유하므로 해당 블록을 한 번만 저장하여 모든 파일을 저장하는 데 필요한 디스크 공간을 줄일 수 있습니다. 파일 액세스 중에는 올바른 블록이 투명하게 어셈블되어 응용 프로그램을 호출하지 않고 디스크에 있는 파일의 변경을 사용자가 모르는 상태로 데이터를 제공합니다. 따라서 관리자는 응용 프로그램에 미치는 동작의 변경이나 해당 파일에 액세스하는 사용자의 영향을 걱정하지 않고 파일에 중복 제거를 적용할 수 있습니다.

그림 1 디스크의 파일 변환

그림 1 디스크 상의 데이터 중복을 제거하는 동안 파일의 변환

볼륨에서 중복 제거를 사용하도록 설정하고 데이터를 최적화하고 나면 볼륨에 다음 항목이 포함됩니다.

최적화되지 않은 파일 선택한 파일 보존 기간 정책 설정에 맞지 않은 파일, 시스템 상태 파일, 대체 데이터 스트림, 암호화된 파일, 확장된 특성이 포함된 파일, 32KB 미만의 파일, 재분석 지점 파일 또는 다른 응용 프로그램에서 사용 중인 파일 등이 해당됩니다.(Windows Server 2012 R2에서 "사용 중" 제한이 제거됨)
최적화된 파일 청크 저장소의 해당 청크로 매핑되는 포인터가 포함된 재분석 지점으로 저장되는 파일입니다. 이러한 포인터는 파일이 요청될 때 파일을 복원하는 데 사용됩니다.
청크 저장소 최적화된 파일 데이터의 위치입니다.
추가로 사용 가능한 공간 최적화된 파일과 청크 저장소는 최적화하기 전보다 훨씬 적은 공간을 차지합니다.

유용한 팁

엔터프라이즈에서 점차 늘어나는 데이터 저장소에 대처하기 위해 관리자는 서버를 통합하고 용량 확장 및 데이터 최적화를 위한 계획을 세우게 됩니다. 데이터 중복 제거 기능은 이러한 목표를 달성할 수 있는 실용적인 방법을 제공합니다.

용량 최적화. 데이터 중복 제거는 더 적은 물리적 공간에 더 많은 데이터를 저장합니다. 즉 SIS(단일 인스턴스 저장소) 또는 NTFS 압축 등의 기능을 사용하여 이전 릴리스보다 저장소 효율성을 더 높이는 것입니다. 데이터 중복 제거는 하위 파일 가변 크기 청크 및 압축을 사용하며, 이를 통해 일반 파일 서버의 경우 2:1, 가상화 데이터의 경우 최대 20:1의 최적화 비율을 제공합니다.
확장 및 성능. 데이터 중복 제거는 확장성이 매우 뛰어나고 리소스 효율성이 높으며 비침입적입니다. 이것은 Windows Server 2012 R2에서 초당 최대 50MB, Windows Server 2012에서 초당 약 20MB를 처리할 수 있습니다. 이것은 다른 서버의 워크로드에 영향을 주지 않고 동시에 여러 볼륨에서 실행이 가능합니다. 사용된 CPU 및 메모리 리소스를 제한하여 서버 워크로드에 끼치는 영향을 낮게 유지합니다. 서버 사용량이 매우 늘어나면 중복 제거가 완전히 중지할 수 있습니다. 또한, 관리자는 언제든지 데이터 중복 제거 작업을 실행하고, 데이터 중복 제거가 실행될 때를 예약하고, 파일 선택 정책을 만들 수 있습니다.
안정성 및 데이터 무결성. 데이터 중복 제거를 적용한 경우, 데이터의 무결성이 유지됩니다. 데이터 중복 제거는 체크섬, 일관성 및 ID 유효성 검사를 활용하여 데이터 무결성을 보장합니다. 모든 메타데이터 및 자주 참조되는 데이터에 대해 데이터 중복 제거에서는 중복을 유지하여 데이터 손상 시 데이터를 복구할 수 있도록 합니다.
BranchCache와 대역폭 효율성. BranchCache와 통합되어 WAN을 통해 지점으로 전송되는 데이터에서 동일한 최적화 기술이 적용됩니다. 따라서 파일을 보다 빠르게 다운로드할 수 있으며 대역폭 사용량을 줄일 수 있습니다.
익숙한 도구를 사용한 최적화 관리. 데이터 중복 제거에는 서버 관리자 및 Windows PowerShell에 기본 제공되는 최적화 기능이 있습니다. 기본 설정을 통해 디스크 공간을 즉시 절약하거나 관리자가 설정을 미세 조정하여 더 많은 이점을 얻을 수도 있습니다. Windows PowerShell cmdlet을 사용하면 간편하게 최적화 작업을 시작하거나 이후에 실행할 작업을 예약할 수 있습니다. Windows PowerShell을 호출하는 Unattend.xml 파일을 사용하여 데이터 중복 제거 기능을 설치하고, 선택한 볼륨에서 중복 제거를 사용하도록 설정할 수도 있습니다. Sysprep에서 이러한 과정을 수행하면 시스템을 처음 부팅할 때 중복 제거를 배포할 수 있습니다.

새로운 기능 및 변경된 기능

다음 표에서 데이터 중복 제거 기능에서 변경된 사항을 설명합니다. 자세한 내용은 Windows Server의 데이터 중복 제거의 새로운 기능를 참조하세요.

기능	새로운 기능 또는 업데이트된 기능	설명
가상 데스크톱 인프라 (VDI) 워크로드에서 원격 저장소의 데이터 중복 제거	Windows Server 2012 R2에서 제공되는 새로운 기능	클러스터 공유 볼륨 (CSV)에서 데이터 중복을 제거하여 가상 데스크톱 인프라(VDI)용 활성 가상 하드 디스크(VHD)를 최적화합니다.
원래 경로에 최적화된 파일 확장	Windows Server 2012 R2에서 제공되는 새로운 기능	응용 프로그램, 성능 또는 기타 요구 사항에서 호환을 위해 필요한 경우 원래 경로 상 지정된 경로에서 최적화된 파일을 확장하려면 Windows powershell에서 새롭게 제공하는 Expand-DedupFile cmdlet을 사용하세요. Cmdlet에 대한 자세한 내용은 T:Deduplication.Expand-DedupFile를 참조하십시오.
가상화된 백업 응용 프로그램에서 사용하는 백업 볼륨에 대한 데이터 중복 제거	Windows Server 2012 R2에서 제공되는 새로운 기능	클러스터 공유 볼륨(CSV) 또는 제한된 하이퍼 수렴형 구성에서 데이터 중복을 제거하여 가상화된 백업 응용 프로그램 작업에서 사용하는 활성 가상 하드 디스크(VHD)를 최적화합니다. (2014년 11월 업데이트 롤업(KB 3000850) 이상)이 포함된 Windows Server 2012 R2에서 지원됩니다.

요구 사항

데이터 중복 제거를 사용하려면 다음 요구 사항을 충족하는 환경이어야 합니다:

서버: 데이터 볼륨이 하나 이상 포함된 Windows Server 2012 R2 또는 Windows Server 2012가 실행되는 컴퓨터 또는 가상 컴퓨터 한 대
(선택 사항) 네트워크를 통해 서버에 연결되는 Windows Server 2012 R2 또는 Windows Server 2012이 실행되는 다른 컴퓨터 또는 가상 컴퓨터 한 대
중요

VDI 또는 가상화된 백업 작업에서 데이터 중복 제거를 수행하는 경우 모든 VHD 파일은 다음 중 하나와 같아야 합니다.
- Windows Server 2012 R2가 실행되는 파일 서버에 저장해야 하며, 저장소 노드와 계산 노드는 서로 다른 서버에서 실행해야 합니다.
- 특정 제한된 하이퍼 수렴형 구성의 로컬 저장소에 저장해야 합니다. 자세한 요구 사항은 데이터 중복 제거 배포 계획을 참조하세요.

Azure 가상 컴퓨터와의 상호 운용성

Azure 상의 가상 컴퓨터에서 이 Windows Server 역할 서비스를 실행할 수 있습니다. 이 시나리오는 Windows Server 2012 R2로 테스트했습니다. 자주 읽지만 드물게 쓰는 볼륨이 있는 Windows Azure 가상 컴퓨터로 데이터 중복 제거를 사용하는 것이 좋습니다. 이러한 상황에서는 데이터 중복 제거가 Azure VM에 더 많은 데이터를 저장할 수 있는 효율적인 방법을 제공할 수 있습니다.

다음 워크로드는 Azure VM에서 데이터 중복 제거를 함께 사용하기에 적합한 후보일 수 있습니다:

상대적으로 정적 콘텐츠가 담긴 일반 파일 서버
상대적으로 정적 콘텐츠가 담긴 Microsoft SharePoint 사이트
상대적으로 정적 콘텐츠가 담긴 웹 사이트

워크로드가 사용하는 큰 파일의 변경이 잦기 때문에 다음 워크로드는 Azure VM에서 데이터 중복 제거를 사용하도록 권장되지 않습니다:

Microsoft Exchange Server와 같은 메시징 서버
Microsoft SQL Server와 같은 데이터베이스 서버

Azure 가상 컴퓨터를 시작하는 방법에 대해 자세히 알아보려면 Azure 웹 사이트를 방문하세요.

아키텍처 개요

데이터 중복 제거 기능은 사용 가능한 세 가지 작업 유형(최적화, 가비지 수집 및 삭제)을 제어하는 중복 제거 서비스 및 로컬 또는 원격 I/O를 모니터링하는 필터 드라이버로 구성됩니다.

복제 삭제 아키텍처에는 메타데이터 및 가장 많이 사용되는 데이터 청크의 중복을 포함하여 데이터 및 메타데이터에 대한 전체 체크섬 유효성 검사를 사용하여 하드웨어 오류 및 작동 중단 발생 시 복구할 수 있는 기능이 있습니다.

데이터 중복 제거 (파일 32KB 보다 크기가 작은 파일, 또는 제외된 폴더의 파일, 기간 설정이 적용된 파일 제외)은 선택된 볼륨에 있는 모든 데이터를 잠재적으로 처리할 수 있습니다. 이 기능을 사용하기에 앞서 서버 및 연결된 볼륨이 중복 제거에 적합한 후보인지 신중하게 결정해야 합니다. 중복 제거를 하는 동안 중요한 데이터는 정기적으로 백업하는 것이 좋습니다.

참고 항목

자세한 내용은 다음 리소스를 참조하세요.

콘텐츠 유형	참조
제품 평가	Windows Server 2012 R2에서 새 워크로드에 데이터 중복 제거 확장(영문)
배포	Windows Server 2012 R2에서 VDI 저장소에 대한 데이터 중복 제거 배포(영문) 데이터 중복 제거 배포 계획 백업 및 중복 제거 된 볼륨에 대 한 복원 고려 사항 데이터 중복 제거 시 마이그레이션, 클러스터 및 BranchCache 고려 사항 데이터 중복 제거 설치 및 구성
작업	모니터링 하 고 데이터 중복 제거에 대 한 보고
커뮤니티 리소스	파일 서비스 및 저장소 TechNet 포럼 Microsoft 파일 캐비닛 블로그 저장소 팀 디렉터리 서비스 팀 블로그에 물어보기 Jose Barreto의 블로그 Windows Server Information Experience의 Twitter
관련 기술	파일 및 저장소 서비스 개요 장애 조치(failover) 클러스터링 개요 저장소 공간 개요