정의하기
미세먼지 데이터를 신호와 패턴으로 가공하기
데이터를 신호로 변환하기
앞서 발견하기를 통해, 나는 미세먼지 데이터를 신호로 바라보기로 했다. 방법은 마찬가지로 2진 신호로 변환해보면 된다. 2진 신호는 켜지고 꺼지거나, 길고 짧거나 하는 형태가 연속적으로 일어난다. 대표적으로 모스 부호가 있다. 모스 부호는 신호의 길고 짧음을 점과 선으로 나타내며 이를 통해 신호를 문자로 인식할 수 있다. 아쉽게도 모든 문자와 숫자를 모스 부호로 표현할 수 없다는 한계가 있었다. 그래서 나는 모스부호의 원리를 차용해 신호의 길고 짧음으로 표현해보기로 했다. 즉, 비트 숫자 1은 긴 신호가 되며, 비트 숫자 0은 짧은 신호가 된다.

신호를 그래픽과 사운드로 매핑하기
다음으로 신호를 어떻게 인터페이스로 만들 것인가 고안했다. 데이터셋, 데이터, 신호를 각각 시퀀스, 씬, 비트라는 용어로 대응 짓고, 설명도 재정의했다.
시퀀스(Sequence)
사전적 정의로 장면의 연속을 말하며, 프로젝트에서는 일정 기간의 미세먼지 수치의 집합을 말한다.
일련의 장면
씬(Scene)
사전적 의미로 장면을 말하며, 프로젝트에서는 미세먼지 수치가 UI와 대응되는 개념을 말한다.
일련의 비트
비트(Bit)
사전적 의미로 2진 신호를 말하며, 프로젝트에서는 2진수로 변환한 미세먼지 수치의 개별 2진수 변환 값을 말한다.
2진수를 그래픽과 사운드로 변환한 형태

패턴화된 데이터로 가공하기
이제 신호들이 어떤 패턴을 보이는지 파악해보자. 그래서 나는 일시적인 그래프가 아닌, 매년 반복되는 패턴을 발견하기 위해 연도별 누적 통계를 찾기로 했다. 그리고 그 대상을 서울시로 선택했다. 서울은 전 세계에서 가장 미세먼지가 심한 곳 중 하나이며, 한국의 다른 지자체에 비해 데이터 누락이 적고 관측의 공간적 밀도가 높기 때문이다.
나는 서울시 열린데이터 광장에서 2015년부터 2022년까지 서울시 일별 대기오염 평균 데이터를 수집한 후, (초)미세먼지 데이터만 추출하여 하나의 스프레드시트로 병합했다.
그 과정에서 7만 행이 넘는 측정 데이터가 나왔는데, 패턴을 파악하기 위한 목적으로 보았을 때 사용자에게 이를 모두 조회하게 두는 것은 아무 의미가 없었다. 그래서 태블로(Tableau)를 활용해 시각화해보고, 어떤 인사이트를 얻을 수 있을지 분석해보았다.
먼저, 미세먼지 데이터의 특성을 바탕으로 시계열 분석을 진행했다. 미세먼지(대기오염) 데이터는 특정 측정 장소를 기준으로 측정 날짜와 값이 순차적으로 쌓이는 시계열 데이터의 특성을 가진다. 즉, 장소와 날짜를 어떤 기준에 의해 묶거나 필터하는 방식으로 분석을 진행할 수 있다. 그래서 나는 수집된 데이터에서 장소와 시간 입력 값을 나열해보고, 다음과 같이 데이터를 묶거나 필터할 수 있도록 입출력 기준을 세웠다.


결론적으로 나는 시각화 분석 과정을 통해 작품 체험자가 효과적으로 패턴을 탐색하기 위해서는 다양한 조회 유형과 범위를 제공해야 함을 알게 됐다. 더불어, 구현 단계에서 데이터베이스 구조를 어떻게 가져갈지, 사용자가 어떻게 데이터를 효과적으로 조회하게 할 수 있을지에 대한 기준을 세울 수 있었고, 이 과정으로 조회 가능한 데이터셋 주제들을 세부 목록으로 뽑아낼 수 있었다.
연도별
a. 특정 연도 (특정(2015~2022년) 연도의 일별(365일) 데이터를 누적하여 평균을 낸 값)
월별
a. 특정 연도의 1~12월 (특정 연도의 일별 데이터의 날짜를 월 단위로 묶어 평균을 낸 값) b. 연도 전체 누적의 1~12월 평균 (a를 연도 전체로 누적하여 평균을 낸 값)
계절별
a. 특정 연도의 봄~겨울 (특정 연도의 월 데이터를 3달 단위로 묶어 평균을 낸 값) b. 연도 전체 누적의 봄~겨울 평균 (a를 연도 전체로 누적하여 평균을 낸 값)
주별
a. 특정 연도의 1~53주 (특정(2015~2022) 연도의 일별 데이터를 주(7일) 단위로 묶어 평균을 낸 값) b. 연도 전체 누적의 1~53주 평균 (a를 연도 전체로 누적하여 평균을 낸 값)
일별
a. 특정 월의 1~31일 평균 (연도별 특정(1~12) 월의 일별(1~31) 데이터를 전체 누적하여 평균을 낸 값) b. 월 전체 누적의 1~31일 평균 (a를 월 전체로 누적하여 평균을 낸 값)
요일별
a. 특정 월의 월~일요일 평균 (연도별 특정(1~12) 월의 요일별 데이터를 전체 누적하여 평균을 낸 값) b. 월 전체 누적의 월~일요일 평균 (a를 월 전체로 누적하여 평균을 낸 값)
이 모든 조회 방식은 통계 데이터를 바탕으로 이루어지기 때문에 미리 주제별로 묶어둔다면 요청마다 일관되고 정확한 결과를 보장할 수 있다. 그래서 태블로의 필터 기능을 이용해 각 조회 주제와 범위별로 데이터셋을 추출하고, 이를 데이터베이스에 입력하는 방법을 선택했다.

Last updated