ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [주간기술동향 2149호 요약] ICT 신기술 : 합성 데이터 연구 동향 및 금융 분야 적용 방안
    Review/주간기술동향 2024. 9. 26. 08:55
    반응형

    I. 서론

    금융 분야에서는 데이터 사용에 있어 개인정보 보호프라이버시 이슈로 인해 제약이 많다. 금융 데이터는 민감한 개인정보를 포함하고 있어, 인공지능 학습 데이터로 직접 활용하는 것이 어렵다. 이를 해결하기 위해 합성 데이터가 주목받고 있으며, 합성 데이터는 실제 데이터를 대체하여 개인정보를 보호하면서도 인공지능 학습을 위한 데이터를 확보할 수 있는 대안으로 떠오르고 있다. 금융 거래의 특성상 많은 제약이 존재하므로 합성 데이터를 통한 개인정보 보호의 중요성이 더욱 부각되고 있다.


    II. 합성 데이터의 이해

    합성 데이터는 실제 데이터를 통계적으로 모방한 데이터로, 개인정보를 포함하지 않고, 다양한 데이터 분석 및 모델 학습에 활용될 수 있다. 합성 데이터는 크게 완전 합성 데이터, 부분 합성 데이터, 복합 합성 데이터로 구분된다.

    • 완전 합성 데이터는 실제 데이터와 전혀 연관이 없는 데이터로, 개인정보 보호가 필수적일 때 사용된다.
    • 부분 합성 데이터는 실제 데이터의 일부를 포함하여, 특정 부분만 합성된 형태를 띠고 있다.
    • 복합 합성 데이터는 실제 데이터와 합성 데이터를 결합하여 분석 결과의 신뢰성을 유지하면서도 개인정보 보호를 할 수 있다.

    이러한 유형들은 데이터의 안전성유용성을 동시에 고려하여 선택될 수 있으며, 다양한 응용 분야에서 활용될 수 있다.


    III. 테이블 형태의 합성 데이터 생성 모델

    1. 적대적 생성 신경망(GAN) 기반 모델

    • CTGAN: 범주형 데이터의 처리를 위해 특화된 GAN 모델로, 금융 거래 데이터와 같이 범주형 변수가 많이 포함된 테이블 데이터의 합성에 최적화되어 있다. CTGAN은 데이터 내 상관관계를 반영하여 합성 데이터를 생성하며, 특히 범주형 데이터에서 오버샘플링을 방지하는 메커니즘을 제공한다.
    • CopulaGAN: 통계적 기법을 기반으로 하여 다변량 데이터의 상관관계를 효과적으로 모델링하는 GAN 방식이다. 이는 금융 거래와 같이 여러 변수 간의 상관관계가 복잡한 데이터의 합성에 적합하며, 다변량 확률 분포를 모델링해 실제 데이터의 상관구조를 반영한 합성 데이터를 생성한다.

    2. 확산 모델(Diffusion Model) 기반 모델

    • TabDDPM: 테이블 데이터에 특화된 확산 모델로, 원래의 데이터에 노이즈를 점진적으로 추가한 후, 그 노이즈를 제거하는 방식으로 합성 데이터를 생성한다. TabDDPM은 데이터를 보다 자연스럽게 재구성하는 데 강점을 가지며, 특히 금융 데이터와 같은 구조적 특성을 가진 데이터의 합성에 적합하다.
    • STaSy: 데이터 샘플링 과정에서의 다양성을 극대화하기 위해 확산 모델의 특성을 활용한 모델로, 데이터의 분포 특성을 더욱 세밀하게 반영하며, 고도의 데이터 복잡성을 가진 금융 데이터에서 효과적으로 활용될 수 있다.

    3. 대규모 언어 모델(LLM) 기반 모델

    • GPT 기반 모델: 최근 대규모 언어 모델을 기반으로 테이블 형태의 데이터를 생성하는 연구가 활발히 진행되고 있다. GPT와 같은 모델은 대규모 데이터를 학습하여 다변량 데이터의 상관관계를 이해하고 이를 바탕으로 합성 데이터를 생성할 수 있다. 특히, 텍스트 기반 설명이나 주석을 포함하는 금융 데이터와 같은 복합 데이터를 생성하는 데 유용하다.
    • BERT 기반 모델: BERT는 문맥 정보를 활용하여 데이터 내 변수 간의 복잡한 관계를 학습하고, 이를 바탕으로 테이블 데이터를 생성하는 방식이다. 금융 데이터에서 중요한 이상 탐지상관관계 분석 작업에서 효과적으로 활용될 수 있다.
    • **대규모 언어 모델(LLM)**은 주로 자연어 처리를 위한 모델이지만, 탭형 데이터의 생성에서도 활용될 수 있다. LLM은 다양한 맥락에서 테이블 데이터의 구조상관관계를 학습할 수 있다.
    • **확산 모델(Diffusion Model)**은 데이터에 점진적으로 노이즈를 추가하고, 이를 역으로 제거하면서 데이터를 생성하는 방식으로, 최근 다양한 데이터 생성 작업에서 많이 사용된다.
    • **적대적 생성 신경망(GAN)**은 두 개의 신경망(생성자와 판별자)이 상호 경쟁하며 데이터를 생성하는 방식으로, 주로 테이블 데이터의 범주형 변수수치형 변수를 동시에 처리하는 데 강점을 가진다.

    IV. 금융 분야의 합성 데이터 공개 사례

    금융 분야에서 합성 데이터는 개인정보 보호와 분석 효율성 모두를 충족시키는 중요한 도구로 자리잡고 있다.

    • **BAF(Bank Account Fraud)**는 은행 계좌 개설 사기 탐지에 사용되는 합성 데이터로, 차등 프라이버시 기법을 통해 개인정보를 보호하며, CTGAN을 사용해 데이터가 생성되었다.
    • AMLworld자금세탁방지(AML) 모델을 평가하기 위해 다양한 자금세탁 시나리오를 반영한 합성 데이터를 제공하며, **그래프 신경망(GNN)**을 활용해 자금세탁 시나리오에 맞는 성능 검증을 진행했다.

    V. 계좌이체 거래의 합성 데이터 생성 예시

    계좌이체 거래테이블 데이터뿐만 아니라 **그래프 정보(계좌 간 자금 흐름)**도 포함될 수 있으며, 이러한 구조적 정보를 반영한 합성 데이터가 더 정확한 분석을 가능하게 한다.

    • CopulaGANCTGAN을 사용하여 계좌 이체의 구조적 정보를 모방한 합성 데이터를 생성하였고, 이를 통해 사기 거래 탐지 모델의 성능을 검증한 결과, 구조적 정보를 반영한 모델이 기존보다 탐지 정확도가 높게 나타났다.

    VI. 결론

    합성 데이터는 금융 분야에서 데이터 보호모델 학습의 두 가지 과제를 동시에 해결하는 중요한 역할을 하고 있다. CTGAN, CopulaGAN, TabDDPM과 같은 최신 기술이 합성 데이터 생성에 사용되고 있으며, 금융 분야에서 사기 탐지자금세탁방지 등의 다양한 문제 해결에 활용되고 있다. 합성 데이터는 데이터의 안전성을 유지하면서도 분석과 예측 정확도를 높일 수 있는 필수적인 도구로 자리잡고 있다.

    반응형

    댓글

Designed by Tistory.