Dataset 조사

선행연구에서 사용한 데이터셋 중 8가지를 뽑아서 분석한다. 멀티미디어 포렌식에서 주로 다루는 데이터셋을 살펴볼 수 있다.

  1. 1. Dresden Image Database
  2. 2. The Kaggle Camera Model Identification(KCMI) dataset
  3. 3. Splicing Dataset
  4. 4. Copy-Move Dataset
  5. 5. PhotoShop-battle dataset
  6. 6. NIST16, Nimble Challenge 16(NC 2016)
  7. 7. CASIA
  8. 8. COVERAGE

1. Dresden Image Database

(현재 다운로드 불가능)

  • 출처식별용 database
  • 다양한 실내 및 실외 장면의 14,000개 이상의 이미지 ← 73개의 디지털 카메라에서 control되고 광범위하게 비교할 수 있는 조건에서 수집.
  • 장치별 특성과 모델별 특성 분리 & 25개의 서로 다른 모델에서만 카메라를 가져옴.
  • 기기별 센서 노이즈 패턴 추정을 위한 보조영상을 카메라별로 수집함.
  • 모델별 JPEG 압축 알고리즘을 연구하기 위한 또 다른 이미지 하위 집합이 각 모델에 대해 컴파일됨.

2. The Kaggle Camera Model Identification(KCMI) dataset

  • 이미지를 촬영한 카메라를 식별
  • 이미지에 본질적으로 남겨진 흔적을 사용하여 이미지를 캡처한 카메라 모델을 식별하는 알고리즘을 구축하기 위해 사용된 dataset

  • 데이터 수집 방법
    • training set(10개의 카메라 x 275장)
      • 모델당 단일 장치인 10개의 서로 다른 카메라 모델로 캡처
      • 카메라 모델
        • Sony NEX-7
        • Motorola Moto X
        • Motorola Nexus 6
        • Motorola DROID MAXX …
      • 각 장치에서 275개의 전체 이미지 촬영
    • test set(2640장)
      • 동일한 10개의 카메라 모델로 캡처되었지만 두 번째 장치를 사용
      • == test 데이터의 이미지는 train 데이터와 동일한 장치로 촬영X
      • iPhone 6에 대한 기차 데이터의 이미지가 Ben Hamner의 장치(카메라 1)로 촬영된 경우 테스트 데이터의 이미지는 Ben Hamner의 두 번째 장치(카메라 2)로 촬영
      • center crop(512, 512)된 이미지
      • 절반은 조작된 이미지로 구성
      • 조작 method
        • JPEG compression with quality factor = 70
        • JPEG compression with quality factor = 90
        • resizing (via bicubic interpolation) by a factor of 0.5 …

3. Splicing Dataset

Deep Matching and Validation Network – An End-to-End Solution to Constrained Image Splicing Localization and Detection

  • 기존 splicing 알고리즘의 문제점
    • subsequent processing (e.g., compression)에 robust하지 않은 handcrafted features를 사용
    • pipeline의 각 단계가 optimized independently
  • 본 논문의 idea
    • two input images, a query image and a potential donor image 고려
    • donor img가 query이미지를 splice하는데 사용되었을 확률 추정
    • query and donor images에 대한 splicing masks 얻음.

4. Copy-Move Dataset

BusterNet: Detecting Copy-Move Image Forgery with Source/Target Localization

5. PhotoShop-battle dataset

The PS-Battles Dataset - an Image Collection for Image Manipulation Detection

  • PS-Battles dataset ← large community of image manipulation enthusiasts에서 수집
    • 11,142개의 하위 집합으로 그룹화된 102,028개의 이미지로 구성 각각은 원본 이미지와 다양한 수의 조작된 파생 상품을 포함

6. NIST16, Nimble Challenge 16(NC 2016)

  • 이미지 및 비디오 포렌식 기술(이미지에서 조작의 영역과 유형을 결정하는 기술)
  • Image Manipulation Detection and Localization
    • single probe image 주어지면 probe가 조작되었는지 감지하고 발견된 조작의 “type”과 시스템이 감지하도록 설계된 조작 유형을 나타내는 마스크를 제공
  • Splice Detection and Localization
    • 두 개의 이미지가 주어지면 donor 이미지의 영역이 probe 이미지에 접합되었는지 감지

7. CASIA

  • CASI-A Image Tampering Detection Evaluation Database
  • 사실적인 변조 작업을 통해 natural color 이미지 데이터베이스를 수집
  • 변조 탐지 기술을 비교하고 평가를 위해 고안

8. COVERAGE

  • 정품이 있는 원본을 포함
  • 위조 원본 쌍
    • (i) 복제 및 위조 영역 마스크
    • (ii) 변조 요인/유사성 메트릭 주석으로 표시



해당 포스트는 아래를 참고하여 작성되었습니다.