랜덤포레스트는 어떤 도구로 어떻게 불이 붙었나? 불이 붙은 재료는 무엇인가? 몇 시에 화재가 발생했나? 어느 정도의 피해가 났나? 등등의 다양한 질문을 던져 여러 개의 ‘사다리 타기’를 거친 뒤, 각각의 화재가 방화에서 비롯됐는지 아닌지 확률적으로 추정하는 분석 방법입니다. 마치 ‘스무고개’식 사다리를 타서 결론을 도출하는 방식과 같은데요. 이 과정을 ‘의사결정 나무’라고 부릅니다. 랜덤 포레스트는 ‘의사결정 나무’를 수백 개 만들어 그중에서 투표로 답을 고르듯이 적합한 결론을 찾아갑니다.
앞서 언급한 6개 관심 구역을 제외한 전국의 다른 소방서 구역 207곳의 2년 치 데이터로 컴퓨터를 학습시키고, 이렇게 만들어진 예측모델로 관심 구역에서 발생한 화재가 방화인지 여부를 추측하도록 했습니다. 컴퓨터는 이 방화 분류 알고리즘의 정확도를 85~88% 정도로 추산했습니다.
분석 결과, 소방서는 ‘방화’로 판정하지 않았지만, 컴퓨터 알고리즘은 ‘방화’일 가능성이 있다고 분류한 화재가 324건에 달했습니다. 다만, 이 머신러닝 예측 모델은 입력 데이터에서 오는 한계와 오차가 명백히 존재합니다. 그래서 기자는 방화일 확률이 80% 이상 넘는 것으로 분석된 화재를 중심으로 다시 검토했습니다.