[IITP] 데이터 거버넌스와 개인정보 비식별화 기술의 활용

*** 출처: [IITP] 데이터 거버넌스와 개인정보 비식별화 기술의 활용 - 차연철 (주)엔텀네트웍스 보안기술연구소장

*** 문서:

file8204856660692078945-195902.pdf

II. 데이터 거버넌스와 개인정보보호 동향

1. 데이터 거버넌스 동향

- 데이터 거버넌스는 “데이터의 가치를 보전하고 활용하기 위한 목적으로 수행하는 전사 차원의 경영 체계”로 정의할 수 있다.

- Data Governance Institute, “The DGI Data Governance Framework,” 2014. 11. 13.

- 데이터 거버넌스 시스템 개념도 (<자료> 서울특별시 스마트도시정책관 빅데이터담당관, “2019 데이터 거버넌스 기반의 빅데이터 통합저장소 구축(1단계)”, 제안요청서, 2019. 11.)

2. 데이터 경제 활성화를 위한 개인정보보호 동향

- 2020년 2월 4일 데이터 3법 개정안을 통과, 8월 5일 해당 법률의 시행

개인정보보호법 제2조(정의)에서 개인정보에 대한 개념을 명확히 하고, 가명처리를 정의
제3조(개인정보 보호 원칙) ⑦항에서는 “개인정보를 익명 또는 가명으로 처리하여도 개인정보 수집목적을 달성할 수 있는 경우 익명처리가 가능한 경우에는 익명에 의해 익명처리로 목적을 달성할 수 없는 경우에는 가명에 의해 처리될 수 있도록 한다.”고 원칙을 세우고 있다.
개인정보 보호법 제3장 개인정보의 처리, 제3절 가명정보의 처리에 관한 특례 조문(제28조2~제28조7)은 가명정보의 처리, 가명정보의 결합 제한, 가명정보에 대한 안전조치의무, 가명정보 처리 시 금지의무, 가명 정보 처리에 대한 과징금 부과 등을 요구
동법 시행령 일부개정령(안) 은 개인정보의 추가적인 이용·제공 시 기준 및 고려사항에 대해 [표 1]의 조건으로 당초 수집 목적과 관련 범위에서 추가적인 이용·제공이 가능한 내용과 [표 2]의 내용으로 가명 처리와 관련하여 그 기준을 마련
[표 1] 개인정보의 추가적인 이용·제공 기준(시행령 제14조의2)

[표 2] 개인정보 보호법 시행령의 가명처리 관련 개정사항(시행령 제29조의2~제29조의6)

III. 개인정보 비식별화 기술

1. 가명처리와 익명처리

가. 가명정보와 익명정보

- 개인정보와 관련된 용어 정의

- 개인정보, 가명정보, 익명정보의 개념과 활용범위

- 데이터 3법 개정 전, 개인정보보호 기준에 의한 데이터의 분류와 활용

- 데이터 3법 개정 후, 개인정보보호 기준에 의한 데이터의 분류와 활용

나. 개인정보의 식별 가능성

- 식별성은 정형데이터인 정보집합물(Dataset) 또는 비정형데이터인 자유 형식 텍스트(Free Format Text)에서 개별적인 속성값 단독으로 정보주체를 식별하는 가능성 뿐만 아니라, 동일한 정보집합물에 포함된 다른 속성값 및 별도의 정보집합물과 결합을 통해서도 확률적 가능성을 고려할 수 있다.

- 식별 가능성에 대한 정의

다. 익명화 파이프라인

- 식별 가능성 제거 수준은 익명화 파이프라인(Anonymization Pipeline)으로 개념을 정리할 수 있다.

익명화 파이프라인(Anonymization Pipeline)

익명화 파이프라인의 개인정보 상태

2. 가명정보 결합

가. 가명정보 결합 절차

- 개인정보보호법 제28조의3(가명정보의 결합 제한)과 신용정보법 제17조의2(정보집합 물의 결합 등)은 가명정보에 대한 결합을 조문에 명시하며, 각 법은 시행령(안)에서 구체적 인 결합 절차를 제시하고 있다.

- 개인정보 보호법과 신용정보법은 결합에 대한 용어 및 절차에 일부 차이를 보인다.

개인정보보호법 시행령의 가명정보 결합 및 반출 절차

신용정보법 시행령의 데이터 결합 절차

나. 가명정보 결합 방식

(1) 단일 코딩(Single Coding)에 의한 방식

- 데이터 결합에 사용하는 가명정보인 결합키를 개별 신청기관이 각각 생성하고, 이 결합키를 이용하여 데이터(속성정보)를 직접 결합하는 방식 이다. 이 방식을 적용한 사례로 신용정보법에 의한 데이터 결합 방식이 있다.

(2) 단순 연결을 이용한 이중 코딩(Double Coding) 방식

- 단일 코딩 방식을 변형한 것으로 결합키를 생성한 신청기관 중 한 곳의 결합키에서 파생된 추가 대체키를 생성한 후, 결합키와 추가 대체키를 가진 별도 데이터를 만들어 결합하는 방식이다. 이 방식은 데이터를 결합하려는 신청기관간 직접적인 연결고리를 제거해 안전한 데이터 결합 환경을 제공할 수 있다.

(3) 분리된 신뢰기관을 이용한 이중 코딩 방식

- 결합키 생성과 데이터 결합을 분리하여 개인정보 재식별 위험을 감소시키는 방식이다. 이 방식은 신뢰하는 두 개의 기관을 통해 단순 이중 코딩의 결합 방식을 보완한 것으로 신청기관 2개와 결합키 관리기관 및 결합 전문기관의 신뢰기관이 필요하다.

- 이 방식을 적용한 사례로 개인정보 보호법에 의한 결합 방식이 있다.

IV. 개인정보 비식별화 기술 활용

1. 보건·의료 데이터에 대한 개인정보 비식별화

- 보건·의료 데이터 활용은 개인정보 보호법, 생명윤리 및 안전에 관한 법률, 임상시험심사위원회(Institutional Review Board: IRB), HIPAA Privacy Rule 등 여러 규정을 준수해야 한다.

- 대표적인 보건·의료 데이터의 개인정보 비식별화 사례는 국민건강보험과 관련하여 공공데이터포털(www.data.go.kr)에서 해마다 공개하는 건강검진정보, 의약품처방정보, 진료내역정보 등이 있다.

건강검진정보의 경우, “기준 년도, 가입자일련번호, 성별코드, 연령대코드(5세 단위), 시도코드, 신장(5cm 단위), 체중 (5kg 단위), 허리둘레, 시력(좌), 시력(우), 청력(좌), 청력(우), 수축기혈압, 이완기혈압, 식 전혈당(공복혈당), 총콜레스테롤, 트리글리세라이드, HDL콜레스테롤, LDL콜레스테롤, 혈색소, 요단백, 혈청크레아티닌, (혈청지오티)AST, (혈청지오티)ALT, 감마지티피, 흡연 상태, 음주여부, 구강검진수검여부, 치아우식증유무, 결손치유무, 치아마모증유무, 제3대 구치(사랑니)이상, 치석, 데이터공개일자”의 34개 속성자를 포함하고 있다.
건강검진정보에 대한 주요 속성자 비식별 기술 설명

2. 통계 데이터에 대한 개인정보 비식별화

- 통계청은 공공용 자료 및 승인용 자료 서비스가 확대되어 비밀노출 위험이 증가될 것을 대비해 정교한 통계적 노출제어(Statistical Disclosure Control/ Limitation: SDC) 적용을 통해 노출위험을 관리하고 비식별화 점검시스템으로 안전한 데이터 활용을 지원한다

통계데이터센터 분석결과 반출자료 대상 비식별화 점검시스템

개별정보 노출제어 처리의 한계

현재 사용되는 노출제어의 종류와 배포되는 자료의 형식

3. 전력 데이터에 대한 개인정보 비식별화

- 전력 데이터에 대한 비식별화는 단순하게 정보 집합물의 속성자 중 식별자 및 준식별자를 선별해 비식별화 기술을 적용하는 것에 그치지 않고, 데이터 분석 유용성과 위험성을 고려하여 데이터의 특성이 갖는 환경 조건의 도출과 분석에 필요한 다양한 역량을 갖춘 전문가 육성 및 발굴이 필요하다.

저작자표시

'IT 와 Social 이야기' 카테고리의 다른 글

[Sunghoon Joo] 구글 AutoML 논문 "AutoML-Zero:Evolving Machine Learning Algorithms From Scratch" 설명 (0)	2020.08.23
[TTA저널] 디지털 뉴딜과 스마트 의료 (0)	2020.08.17
Open Source 데이터 라벨링 툴 목록 List of open source annotation tools for ML (0)	2020.08.09
[KISTEP] 비대면 시대, 비대면 의료 국내외 현황과 발전방향 (1)	2020.08.04
[Biomarker] 바이오마커 (0)	2020.08.03

망가천재의 스토리텔링

[IITP] 데이터 거버넌스와 개인정보 비식별화 기술의 활용

'IT 와 Social 이야기' 카테고리의 다른 글

티스토리툴바

[IITP] 데이터 거버넌스와 개인정보 비식별화 기술의 활용

'IT 와 Social 이야기' 카테고리의 다른 글

관련글

티스토리툴바