*** 출처: [IITP] 데이터 거버넌스와 개인정보 비식별화 기술의 활용 - 차연철 (주)엔텀네트웍스 보안기술연구소장
*** 문서:
file8204856660692078945-195902.pdf
II. 데이터 거버넌스와 개인정보보호 동향
1. 데이터 거버넌스 동향
- 데이터 거버넌스는 “데이터의 가치를 보전하고 활용하기 위한 목적으로 수행하는 전사 차원의 경영 체계”로 정의할 수 있다.
- Data Governance Institute, “The DGI Data Governance Framework,” 2014. 11. 13.
- 데이터 거버넌스 시스템 개념도 (<자료> 서울특별시 스마트도시정책관 빅데이터담당관, “2019 데이터 거버넌스 기반의 빅데이터 통합저장소 구축(1단계)”, 제안요청서, 2019. 11.)
2. 데이터 경제 활성화를 위한 개인정보보호 동향
- 2020년 2월 4일 데이터 3법 개정안을 통과, 8월 5일 해당 법률의 시행
- 개인정보보호법 제2조(정의)에서 개인정보에 대한 개념을 명확히 하고, 가명처리를 정의
- 제3조(개인정보 보호 원칙) ⑦항에서는 “개인정보를 익명 또는 가명으로 처리하여도 개인정보 수집목적을 달성할 수 있는 경우 익명처리가 가능한 경우에는 익명에 의해 익명처리로 목적을 달성할 수 없는 경우에는 가명에 의해 처리될 수 있도록 한다.”고 원칙을 세우고 있다.
- 개인정보 보호법 제3장 개인정보의 처리, 제3절 가명정보의 처리에 관한 특례 조문(제28조2~제28조7)은 가명정보의 처리, 가명정보의 결합 제한, 가명정보에 대한 안전조치의무, 가명정보 처리 시 금지의무, 가명 정보 처리에 대한 과징금 부과 등을 요구
- 동법 시행령 일부개정령(안) 은 개인정보의 추가적인 이용·제공 시 기준 및 고려사항에 대해 [표 1]의 조건으로 당초 수집 목적과 관련 범위에서 추가적인 이용·제공이 가능한 내용과 [표 2]의 내용으로 가명 처리와 관련하여 그 기준을 마련
- [표 1] 개인정보의 추가적인 이용·제공 기준(시행령 제14조의2)
- [표 2] 개인정보 보호법 시행령의 가명처리 관련 개정사항(시행령 제29조의2~제29조의6)
III. 개인정보 비식별화 기술
1. 가명처리와 익명처리
가. 가명정보와 익명정보
- 개인정보와 관련된 용어 정의
- 개인정보, 가명정보, 익명정보의 개념과 활용범위
- 데이터 3법 개정 전, 개인정보보호 기준에 의한 데이터의 분류와 활용
- 데이터 3법 개정 후, 개인정보보호 기준에 의한 데이터의 분류와 활용
나. 개인정보의 식별 가능성
- 식별성은 정형데이터인 정보집합물(Dataset) 또는 비정형데이터인 자유 형식 텍스트(Free Format Text)에서 개별적인 속성값 단독으로 정보주체를 식별하는 가능성 뿐만 아니라, 동일한 정보집합물에 포함된 다른 속성값 및 별도의 정보집합물과 결합을 통해서도 확률적 가능성을 고려할 수 있다.
- 식별 가능성에 대한 정의
다. 익명화 파이프라인
- 식별 가능성 제거 수준은 익명화 파이프라인(Anonymization Pipeline)으로 개념을 정리할 수 있다.
- 익명화 파이프라인(Anonymization Pipeline)
- 익명화 파이프라인의 개인정보 상태
2. 가명정보 결합
가. 가명정보 결합 절차
- 개인정보보호법 제28조의3(가명정보의 결합 제한)과 신용정보법 제17조의2(정보집합 물의 결합 등)은 가명정보에 대한 결합을 조문에 명시하며, 각 법은 시행령(안)에서 구체적 인 결합 절차를 제시하고 있다.
- 개인정보 보호법과 신용정보법은 결합에 대한 용어 및 절차에 일부 차이를 보인다.
- 개인정보보호법 시행령의 가명정보 결합 및 반출 절차
- 신용정보법 시행령의 데이터 결합 절차
나. 가명정보 결합 방식
(1) 단일 코딩(Single Coding)에 의한 방식
- 데이터 결합에 사용하는 가명정보인 결합키를 개별 신청기관이 각각 생성하고, 이 결합키를 이용하여 데이터(속성정보)를 직접 결합하는 방식 이다. 이 방식을 적용한 사례로 신용정보법에 의한 데이터 결합 방식이 있다.
(2) 단순 연결을 이용한 이중 코딩(Double Coding) 방식
- 단일 코딩 방식을 변형한 것으로 결합키를 생성한 신청기관 중 한 곳의 결합키에서 파생된 추가 대체키를 생성한 후, 결합키와 추가 대체키를 가진 별도 데이터를 만들어 결합하는 방식이다. 이 방식은 데이터를 결합하려는 신청기관간 직접적인 연결고리를 제거해 안전한 데이터 결합 환경을 제공할 수 있다.
(3) 분리된 신뢰기관을 이용한 이중 코딩 방식
- 결합키 생성과 데이터 결합을 분리하여 개인정보 재식별 위험을 감소시키는 방식이다. 이 방식은 신뢰하는 두 개의 기관을 통해 단순 이중 코딩의 결합 방식을 보완한 것으로 신청기관 2개와 결합키 관리기관 및 결합 전문기관의 신뢰기관이 필요하다.
- 이 방식을 적용한 사례로 개인정보 보호법에 의한 결합 방식이 있다.
IV. 개인정보 비식별화 기술 활용
1. 보건·의료 데이터에 대한 개인정보 비식별화
- 보건·의료 데이터 활용은 개인정보 보호법, 생명윤리 및 안전에 관한 법률, 임상시험심사위원회(Institutional Review Board: IRB), HIPAA Privacy Rule 등 여러 규정을 준수해야 한다.
- 대표적인 보건·의료 데이터의 개인정보 비식별화 사례는 국민건강보험과 관련하여 공공데이터포털(www.data.go.kr)에서 해마다 공개하는 건강검진정보, 의약품처방정보, 진료내역정보 등이 있다.
- 건강검진정보의 경우, “기준 년도, 가입자일련번호, 성별코드, 연령대코드(5세 단위), 시도코드, 신장(5cm 단위), 체중 (5kg 단위), 허리둘레, 시력(좌), 시력(우), 청력(좌), 청력(우), 수축기혈압, 이완기혈압, 식 전혈당(공복혈당), 총콜레스테롤, 트리글리세라이드, HDL콜레스테롤, LDL콜레스테롤, 혈색소, 요단백, 혈청크레아티닌, (혈청지오티)AST, (혈청지오티)ALT, 감마지티피, 흡연 상태, 음주여부, 구강검진수검여부, 치아우식증유무, 결손치유무, 치아마모증유무, 제3대 구치(사랑니)이상, 치석, 데이터공개일자”의 34개 속성자를 포함하고 있다.
- 건강검진정보에 대한 주요 속성자 비식별 기술 설명
2. 통계 데이터에 대한 개인정보 비식별화
- 통계청은 공공용 자료 및 승인용 자료 서비스가 확대되어 비밀노출 위험이 증가될 것을 대비해 정교한 통계적 노출제어(Statistical Disclosure Control/ Limitation: SDC) 적용을 통해 노출위험을 관리하고 비식별화 점검시스템으로 안전한 데이터 활용을 지원한다
- 통계데이터센터 분석결과 반출자료 대상 비식별화 점검시스템
- 개별정보 노출제어 처리의 한계
- 현재 사용되는 노출제어의 종류와 배포되는 자료의 형식
3. 전력 데이터에 대한 개인정보 비식별화
- 전력 데이터에 대한 비식별화는 단순하게 정보 집합물의 속성자 중 식별자 및 준식별자를 선별해 비식별화 기술을 적용하는 것에 그치지 않고, 데이터 분석 유용성과 위험성을 고려하여 데이터의 특성이 갖는 환경 조건의 도출과 분석에 필요한 다양한 역량을 갖춘 전문가 육성 및 발굴이 필요하다.
'IT 와 Social 이야기' 카테고리의 다른 글
[Sunghoon Joo] 구글 AutoML 논문 "AutoML-Zero:Evolving Machine Learning Algorithms From Scratch" 설명 (0) | 2020.08.23 |
---|---|
[TTA저널] 디지털 뉴딜과 스마트 의료 (0) | 2020.08.17 |
Open Source 데이터 라벨링 툴 목록 List of open source annotation tools for ML (0) | 2020.08.09 |
[KISTEP] 비대면 시대, 비대면 의료 국내외 현황과 발전방향 (1) | 2020.08.04 |
[Biomarker] 바이오마커 (0) | 2020.08.03 |