데이터과학 활용통계 파헤치기
2022년 통계개발원에서 출간한 "데이터과학 활용통계 승인 개선방안 연구" 내용 중 1.데이터과학 활용 통계 도입 필요 배경과 2.데이터과학 활용통계 도입 쟁점사항에 대해 공부한 내용을 정리하였습니다.
index.
1. 데이터과학 활용통계 도입 필요 배경
2. 데이터과학 활용통계 도입 쟁점사항
3. 데이터과학 활용통계 국내/해외 제도 및 사례
4. 데이터과학 방법 국가통계 적용분석
4.1 현황
4.2 시사점
4.3 개선방향
5. 결론 및 향후 방향
1. 데이터과학 활용통계 도입 필요 배경
데이터과학 활용통계란 무엇일까요? 데이터과학 활용통계는 생산 기관의 성격(공공, 민간), 데이터의 유형(정형, 비정형), 생성 주체(기계, 사람)을 불문하고 생산된 빅데이터에 머신러닝(ML)과 인공지능(AI) 기술을 적용하여 재생산하는 통계라 할 수 있습니다.
카카오톡, 메일 등 통신 로그나 인터넷 댓글, 영상, 음성, 사진 등수 없이 많은 빅데이터가 공공, 민간 부문에서 쏟아져 나오고 있으며, 국가통계에 비해 시의성(timeliness)가 매우 높고, 생산 비용(cost)가 매우 낮습니다.또한, 통계청에서 실시하는 가계동향조사, 가계금융복지조사 등 응답률이 매년 감소하고 있는 상황에서 빅데이터는 국민과 조사자의 부담을 최소화할 수 있는 해결책으로 떠오르고 있습니다. 더 이상 전문가만의 전유물이 아닌 국민의 삶에 밀접한 영향을 미치는 중요한 요소가 되고 있습니다.
장점만 있을 것 같은 빅데이터, 어떻게 국가통계로 활용하여 정부의 정책 결정에 활용할 수 있을까요?
2. 데이터과학 활용통계 도입 쟁점사항
특성 | 빅데이터(행정자료 제외) | 행정자료 | 공식통계 |
생산 이유 | 특정 비즈니스 목적 | 행정관리 목적 | 통계생산 용도 |
분석 처리 목적 | 비즈니스 목표에 부합 | 행정관리 지원 | 모집단 추론 정책 효율성 지원 |
모집단 대표성 | 약함 | 강함 | 강함 |
정보추가 | 통계생산 용도는 추가적인 보완조치 필요 |
통계생산 용도는 추가적인 보완조치 필요 |
추가 가능 |
주 분석기법 | 데이터마이닝 기계학습 최적화 | 빈도분석 (빅데이터 기법 일부 활용) |
확률 기반 표본이론 |
수집비용(자료단위 기준) | 낮음 | 중간 | 높음 |
수집 간격 | 실시간 | 실시간 | 주기적 |
전에서 빅데이터의 장점을 나열했었지만 단점도 명확히 있습니다.
먼저 빅데이터는 통계 작성을 목적으로 통계작성기법을 사용하여 조사한 자료가 아니기 때문에 확률표본 추출 방법이 사용되지 않았으며, 자료 수집과정에서 연구자가 관여할 여지가 적어 사전적 통제가 거의 불가능합니다. 즉, 대표성과 신뢰성 확보가 어렵습니다.
따라서 빅데이터를 국가 통계로 활용하기 위해서는 대표성이 높은 한 가지 이상의 조사통계(1차 통계) 또는 보고통계(행정자료)에 어떠한 연산(산술적 처리, 데이터 과학)을 추가한 가공통계(데이터과학 활용통계)로 가공하거나,
- 조사통계 : (1차 통계) 통계작성기법을 사용하여 조사한 자료를 통해 작성한 통계
- 보고통계 : (행정자료 ) 신고, 보고, 신청, 인·허가 등과 같이 행정업무에 수반하여 수집된 자료를 이용하여 작성한 통계
- 가공통계 : 한 종류 이상의 통계와 추가로 수집한 통계자료 또는 행정자료를 이용하여 작성한 통계
모집단 대표성에 대한 품질검증 기준을 기존 승인통계와 다르게 수행할 필요가 있습니다. """통계청 속보성 경제·사회 지표인 나우캐스트(Nowcast)에서 시의성 높은 신용카드 빅데이터가 기존 승인데이터를 대체할 수 있는지의 타당성을 상관분석(상관계수 0.9이상)을 통해 확보하는 것이 기존 품질검증 기준과 다르지만 채택한 것과 비슷한 예라고 생각합니다"""
또한, 민간 빅데이터는 접속기록, 위치정보 등을 포괄할 수 있기 때문에 개인정보보호의 영역과 상충되는 문제가 발생할 수 있습니다. 이에 대해 「개인정보 보호법」,「정보통신망 이용촉진 및 정보보호 등에 관한 법률(약칭 : 정보통신망법)」,「신용정보의 이용 및 보호에 관한 법률」등 데이터3법 개정안이 2020년 1월 9일 국회 본회의를 통과하였으며, 2021년 과학기술정보통신부 연구개발 사업에 동형암호 국가통계분석시스템 개발 과제가 선정되어 개인정보보호 유출 방지 문제에 노력을 가하고 있습니다.
"""빅데이터 통계는 주기적 재학습을 위한 데이터 확보를 위한 추가적인 노력이 수반되기 때문에, 전통적인 승인데이터를 지속적으로 대체할 수 있는 지 가능성을 판단하기 위해 기존의 승인데이터를 얻기 위한 조사도 결국 최소한으로 병행되어야 한다고 생각합니다. 스위스 또한 빅데이터, AI 기술 활용한 통계에 관한 입장으로 조사통계와 데이터 과학에 기반한 통계를 병행 생산해야 함을 제언하였습니다."""
참고문헌
[1] 김혜란·임경민·임창원·김수연, "데이터과학 활용통계 승인 개선방안 연구", 통계개발원 연구보고서 2021-04
[2] 김영란·노숙희·우종혁, "나우캐스트 포털 서비스 알아보기", 통계개발원 가을호 통계포커스s