본문 바로가기

자기계발

데이터 윤리: 윤리적 사용부터 안전한 관리까지

728x90
반응형

송경우 조교수 연세대학교 응용통계학과

 

데이터는 양날의 검

데이터는 힘이기도 하지만, 위험이 되는 요소이기도 함

 

2018년 캠브리지 애널리티카 사건 (데이터 분석회사) 대선에 영향을 줌 개인정보가 동의없이 사용됨 

 

데이터 시노리, 투명성, 공정성이 지켜지지 않으면 사회적 혼란이 일어날 수밖에 없음

-> 이런걸 막고자 데이터 윤리 필요

 

 

데이터 관련된 기술을 얼마나 잘 쓰는지보다, 기술을 대하는 관점과 선택이 중요하다.

유럽연합의 GDPR이나 우리나라의 개인정보보호법 그리고 AI관련된 여러가지 국제 규제들 모두 데이터 활용은 사회적 약속 위에서만 가능하다.

 

 

데이터 윤리란? (Data Ethics)

: 기술이 아닌 사람의 의도와 태도에서 비롯한 '책임'의 문제 

책임 있는 관리와 사용 

하지말자의 금지의 규칙보다는, 새로운 기본 원칙 

 

AI 윤리란? (AI Ethics)

: 수집, 저장, 활용의 책임을 지는 데이터 윤리와 달리 그 위에서 작동하는 판단과 행동에 책임을 지는 것

 

데이터의 숫자가 어디서 왔는지

무엇을 빼고 무엇을 강조했는지 살피기 **

 

데이터를 읽을 때 빠지기 쉬운 함정과 오류들 

1/ 체리 피킹 (Cherry Picking)

: 전체 데이터 중 유리한 데이터만 골라서 보여주고 불리한 근거는 무시하는 선택적 인용

ex ) 실업률이 낮은 곳의 데이터만 빼고, 나머지 지역에서만 통계지표를 계산해서 제공한다고 하면 -> 큰 사회적 혼란이 일어남

 

2/ 데이터 읽기의 함정 : 심슨의 역설   

숫자는 어떻게 묶고, 어떤 맥락인가에 따라 달라지는 언어이다.

 

데이터를 제공하는 사람 또한 오해의 소지가 없는지 조심스러운 태도로 데이터를 제공

데이터를 확인하고 검증하는 사람 또한 전달받은 데이터를 철저하게 분석할 필요성이 있다. 

 

3/ 잘못된 인과관계

여름철이면 증가하는 '아이스크림 판매'와 '익사 사고'의 관계는 전혀 없음

상관관계와 인과관계를 혼동할 수 있으므로 이에 대한 주의를 기울일 필요성이 있다.

 

4/ 표본 편향 (Sampling Bias)

표본이 전체를 대표하지 못하거나 특정 집단만 조사해 실제와 다른 결과가 나오는 오류 

 

 

편향된 데이터가 만든 AI 오류

긴 사진을 -> 짧게 만들어줌

but, 인종이 다른 사진을 함께 올리면, 항상 대표 썸네일에 백인이 올라가는 경우가 존재했음.

 

데이터 편향의 발생 및 완화 기술 : 공정성과 비차별성

 

공정성이란? Fairness

: 데이터와 알고리즘이 나이, 성별, 출신, 지역 등 특정 속성이나 집단을 차별하지 않는 원칙.

속성 =/ AI 판단 

 

데이터 편향이 발생하는 4단계 

1. 역사적 편향 

과거 사회의 불평등이 데이터에 그대로 반영되는 경우

2. 대표성 편향

표본이 특정 집단에 치우쳐 생기는 문제

3. 측정 편향

데이터를 수집하는 도구나 기준이 일관되지 않아 생기는 오류

4. 알고리즘 편향

학습 과정에서 AI가 특정 패턴을 과도하게 강화하면서 편향이 심화되는 경우 

 

** 데이터에 편향이 존재하는지에 알아보는 방법.

type을 얇게 쪼개보기

 

 

Microsoft에서 나온 Fairlearn

IBM에서 나온 AI Fairness 360 이 있음 

 

 

데이터 활용과 프라이버시 보호는 대립이 아닌 함께 가야하는 두 축이다.

 

프라이버시 보호의 세 가지 원칙

1/ 최소 수집의 원칙 

: 필요한 정보만 모으고, 불필요한 데이터는 수집하지 않는 것

 

2/ 명확한 목적성

: 데이터를 어떤 용도로 쓰는지를 이용자에게 분명히 알리는 것

 

3/ 개인의 통제권 

: 사용자가 언제든 자신이 생성한 데이터를 확인하고 삭제할 수 있는 것 

 

K - 익명성 기술 

: 데이터 속에서 개인을 식별할 수 없도록 최소 K명 이상이 같은 조건을 공유하게 만드는 방식

 

동혐암호 기술 

: 데이터가 암호화된 상태에서도 분석이 가능해 원본 공개 없이 결과 획득 가능

: 원본이 없어도 해당 데이터를 기반으로 한 AI 모델 학습 또는 통계 계산을 돕는 기술 

 

 

데이터 주권의 시작 : 마이데이터

데이터 이동권 : 사용자 개인이 자신의 데이터를 원하는 서비스로 자유롭게 옮길 수 있는 권리

ex) 스트리밍 서비스를 한 번에 이동

 

데이터 거버넌스란?

데이터를 안전하게 수집, 관리, 활용하고 비즈니스와 공익에 동무이 되도록 사용하는 것

-> 조직적 관리 체계

단순한 보안 규칙이 아니라 데이터를 하나의 자산이자 공공 책임으로 다루는 시스템임 

 

 

 

개인정보의 유출의 심각성에 대해서 생각을 한 번 해보게 된다.

 

 

 

박조은 마스터

비판적 사고 

 

 

 

728x90
반응형