연랩

데이터 분석: 날씨(기온, 습도)와 스포츠 관중 수와의 관계 본문

프로젝트

데이터 분석: 날씨(기온, 습도)와 스포츠 관중 수와의 관계

parkjiyon7 2024. 11. 28. 01:09

프로젝트 배경

- 코로나 이후로 스포츠 산업이 다시 활성화 되면서 관중 수가 다시 증가하는 추세임

- 좋은 날씨는 야외 활동에 동기를 부여하고 쾌적한 관람환경을 제공

- 날씨와 스포츠 관중 수와의 상관관계를 파악하여, 날씨에 따라 관중 수가 증가할 경우, 부수 판매량(음식, 유니폼 등)의 증가 또한 예상되기 때문에 유의미한 데이터 분석이 될 것이라 생각

- 우리나라에서 대표적으로 인기가 많은 스포츠인 야구(KBO)를 중심으로 데이터 분석 진행

- 통계 분석을 위해 R 코드로 진행

 

주요 역할과 경험

- 기상청 및 KBO 통계자료 전처리

- R을 활용하여 KBO 및 KBL 데이터를 분석

  KBO 구단별 관중 수를 인기 척도로 활용하여 가중치를 부과 후 분석 진행 및  원래 데이터와 비교

  기온과 습도를 사용하여 관중 수 클러스터링

  실내외 경기의 날씨 영향 비교를 위하여 실내 스포츠인 KBL 데이터 참조, 실내 구장인 고척 과의 비교도 적용

- R을 활용하여 기상청의 지역별 날씨 데이터를 활용 및 분석

- 약 50명 가량의 학생들 앞에서 발표 진행

 

프로젝트 가설

날씨에 따라 관중 수가 변할 것이라 예상

-> 좋은 날씨일 수록 스포츠 관중 수가 많을 것이라 예상

 

고려 요인 및 변인

날씨 데이터

- 기온: 경기 당일의 평균 기온 사용(15 °C -25 °C가 최적임을 가정)

- 습도: 경기 당일의 평균 습도 사용(40%-60%가 최적임을 가정)

- 지역별 날씨: 지역별로 다른 날씨 데이터 사용(기상청 지역별 날씨 데이터)

 

관중 수 데이터

- 경기 별 관중 수: 특정 지역의 경기마다 관중 수 반영(구장, 구단 별 관중 수)

- 구단 별 관중 수: 구단별 인기에 따른 관중 수 반영
- 구장 별 관중 수: 실내외 구장에 따른 관중 수 차이 반영

- 경기 중요도: 경기의 중요성(가을 야구 전 등)

 

데이터 전처리

- 날씨 데이터의 경우, 기상청 기상자료개방포털에서 각 지역별(구장이 있는 지역별)로 가져와 각각의 시트로서 엑셀에 저장하였다

기상청-지역별 기온과 습도 자료

 

- 관중 수 데이터의 경우, KBO와 KBL에서 제공하는 일자별 관중 현황 데이터를 가져와 엑셀로 전처리한 후 사용하였다. 구단별 관중 현황도 KBO 홈페이지에 들어가면 찾을 수 있다.

 

KBO, KBL-관중수 데이터

 

 

 

프로젝트 분석 및 결론

 

KBO(Korea Baseball Organization) 데이터를 활용하여 기온과 습도에 따른 관중 수를 R로 분석하였다.

기온과 습도로 클러스터링한 결과는 다음과 같다.

 

구단 별 관중 수 가중치 반영 안된 전체 데이터

 

구단 별 관중 수 가중치가 반영이 안된 KBO 전체 데이터를 기온과 습도로 클러스터링 한 결과는 위와 같다. 

빨간색 *는 관중 수가 많았던 날 Top 10을 의미하며 X는 각 클러스터의 평균을 나타낸다.

클러스터별 평균 정보와 상위 관중 수 평균 정보는 다음과 같다.

 

클러스터별 평균
상위 관중 수 top10 평균

 

클러스터별 평균을 살펴 보면, 일정 수준의 기온을 넘어가면 관중 수 차이가 크게 없다는 사실을 알 수 있다.

그러나, 관중수가 많은 날은 기온과 습도가 최적이라는 사실을 알 수 있다.

이를 통계적/수치적으로 살펴 보면,

 

기온과 관중 수의 상관계수:

기온과 관중 수의 상관계수는 0.156-> 약한 양의 상관계수

p-value는 4.13e-05<0.05 로 유의미하게 작음-> 기온과 관중 수 사이에는 통계적으로 유의한 관계가 있음

 

습도와 관중 수의 상관계수:

습도와 관중 수의 상관계수는 -0.036-> 거의 상관 없음

p-value는 0.34로 통계적으로 유의미하지 않음-> 습도와 관중 수 사이에는 유의미한 관계가 없음

 

기온과 습도의 결합 변수와 관중 수의 상관계수:

기온과 습도의 결합 변수(기온*습도)와 관중 수의 상관계수는 0.106->약한 양의 상관계수

p-value는 0.052로 유의미한 상관이 있지만, 기온과 습도 조합은 관중 수에 큰 영향을 미치지 않는 것으로 해석

 

결론:

기온과 관중 수: 유의미한 관계

습도와 관중 수: 유의미한 관계 거의 X

기온과 습도의 결합: 약한 영향

 

그러나, top10 관중 수의 데이터를 살펴보면 관중 수가 가장 많은 날들에서는 날씨가 평균적으로 좋음을 알 수 있다.

 

 

다음으로, 현재 국내 유일의 실내 구장인 고척을 제외함으로서 구장별 특징을 고려하였다(실내외 구장 비교).

 

가중치 반영 안된 고척 제외 데이터

 

가중치(구단별 인기)가 반영 안된 고척 구장 제외 데이터를 기온, 습도를 클러스터링한 것은 위와 같다.

전체 데이터와 시각적인 차이가 거의 없음을 알 수 있다.

마찬가지로 통계적으로 살펴보면, 

 

기온과 관중 수

유의미한 양의 상관관계, 기온이 상승하면 관중 수도 증가

 

습도와 관중 수

유의미한 관계X, 습도의 변화가 관중 수에 미치는 영향은 미미

 

기온과 습도의 조합과 관중 수

약한 양의 상관관계, 기온과 습도의 결합이 관중 수에 미치는 영향이 있을 수 있으나 그 영향이 약함

 

따라서 기온이 관중 수에 미치는 영향은 유의미하나 습도는 유의미한 영향을 미치지 않음을 알 수 있다.

또한, 관중 수가 많은 날 top10은 여전히 좋은 날씨임을 알 수 있다.

 

 

그렇다면, 가중치를 반영해보면 어떨까?

가중치는 KBO에 제공되어 있는 구단별 관중 현황을 사용하였다.

이는 구단별 인기 척도로 간주할 수 있으므로 이를 활용하여 가중치를 적용하였다.

 

KBO-구단별 관중 현황

 

위의 그래프는 구단별 관중 현황이다. 이를 활용하여 계산한 가중치는 다음과 같다.

 

팀별 가중치

 

LG 구단을 중심으로 각 구단의 가중치를 계산 및 정규화한 결과이다. 이를 역으로 곱하여 가중치를 감안한 조정관중수를 계산하여 관중수로 활용하였다.

이러한 조정관중수를 근거로 고척 구장을 제외하고 기온, 습도로 클러스터링한 결과는 다음과 같다.

 

가중치 반영 고척제외 데이터

 

가중치를 반영하여 조정관중수를 구한 후, 이를 기온과 습도로 클러스터링한 결과는 위와 같다.

위 그래프의 빨간색 삼각형들은 조정관중수 top5의 데이터를 나타낸 것이며, 파란색 삼각형들은 관중수 top5의 데이터를 나타낸 것이다. 이를 통해 여전히 관중수 가 많은 날들은 최적의 날씨임을 알 수 있다.

또한 기온과 습도에 따른 조정관중수 클러스터들에 대하여 평균을 살펴보면 아래와 같다.

 

가중치 반영 고척제외 데이터 클러스터링 평균

 

기온이 높고 습도가 높은 여름에 조정관중수가 많음을 알 수 있다. 즉, 날씨보다 다른 요인에 더 많은 영향을 받음을 알 수 있다.

이를 통계적으로 살펴보면,

 

기온과 관중 수의 상관계수:

상관계수는 0.1615-> 약한 양의 상관관계

p-value5.66e-05-> 매우 유의미한 관계가 있음

유의미한 관계이나, 그 관계는 강하지 않음

 

습도와 관중 수의  상관계수:

상관계수는 0.0308-> 거의 상관 없음

p-value0.45-> 통계적으로 유의미하지 않음

습도와 조정관중 수 사이에는 유의미한 관계가 없음

 

기온과 습도의 조합과 조정관중 수의 상관계수:

기온과 습도의 조합과 조정 관중 수의 상관계수는 0.14-> 약한 양의 상관관계

p-value는 0.000343-> 기온과 습도의 조합이 조정 관중 수에 미치는 영향은 통계적으로 유의미

 

결론:

기온은 조정관중수와  유의미한 관계가 있지만, 습도는 관중 수와 유의미한 관계가 없다.

기온과 습도의 결합은 조정관중수와 유의미한 관계가 있다.

 

 

그렇다면 조정관중수의 상위 5개의 조건을 먼저 살펴보자.

 

조정관중수 상위 5개 조건

 

조정 관중 수 상위 5개의 조건을 보면 평균적으로 좋은 날씨에 위치함을 알 수 있다. 즉, 날씨가 좋다고 관중수가 많은 것은 아니지만, 관중수가 많은 날은 날씨가 좋음을 알 수 있다. 이는 조정관중수 하위 10개의 조건과 살펴보면 더욱 명확히 알 수 있는데, 

 

조정관중수 하위 10개 조건

 

하위 10개의 경우, 기온이 15도 이상이거나 15도 이하인 값이 상당 수 분포함을 알 수 있다. 따라서 관중수가 적은 날에는 날씨가 좋지 않음을 알 수 있다.

또한, 주말 여부를 분석하여 보면, 상위 5개는 대부분 주말 경기이지만, 하위 관중 수 경기들은 대부분 평일 경기임을 알 수 있다.

즉, 요일 효과도 무시할 수 없다는 것이다.

 

 

다음으로, 실내 관중 수 데이터와 비교하여 보자. 앞서 제외하였던 고척 돔 데이터와 대표적인 실내 스포츠인 KBL(농구)를 함께 살펴보도록 하겠다.

 

가중치 반영 안된 고척 데이터

 

이를 통계적으로 분석하여 보면 다음과 같다.

 

기온과 관중 수:

약한 양의 상관관계지만, 통계적으로 유의미하지 않음

즉, 기온만으로 관중 수 예측 불가

 

습도와 관중 수:

상관관계가 거의 없으며, 통계적으로도 유의미하지 않음

 

기온과 습도의 조합과 관중 수:

관중 수에 약한 영향을 미칠 수 있으나, 그 관계 역시통계적으로 유의미 하지 않음

 

따라서, 기온과 습도가 관중수에 직접적인 영향을 미치는 주요 요인으로 보기 어렵다.

또한, top5 관중수의 분포를 보더라도 넓게 분포되어 있어 실외 구장에 비해 상관관계가 적음을 알 수 있다.

 

 

마찬가지로 KBL 데이터를 살펴보면,

KBL 데이터-기온,습도와 관중수의 관계

 

시각적으로도 야구의 실외구장과 비교하여 인구 분포가 넓게 분포되어 있어 날씨의 영향이 적다는 것을 알 수 있다.

 

기온과 습도의 조합과 관중 수 간의 상관관계:

상관계수: 0.1517(약간 긍정적인 상관관계)

p-value: 0.0001(유의미한 관계, p < 0.05)

기온과 습도의 조합은 관중수와 유의미한 상관관계를 보임

 

유의미한 상관관계가 있다고 상관계수가 비교적 낮으며 하나 클러스터의 분포가 비교적 넓고 상위 데이터들의 분포가 넓게 되어 있는 것으로 보아, 날씨의 영향이 적은 것은 알 수 있다.

 

지금까지의 결론:

- 날씨가 좋다고 사람이 많은 것은 아니나 사람이 많은 날은 날씨가 좋음

 

다른 변인:

- 주말이나 공휴일, 방학의 영향을 더 크게 받음

- 만석인 경우, 각 구장마다 수용인원이 달라서 정확한 분석이 불가능

- 라이벌 경기나 연승의 경우에도 영향

 

 

추가 분석

 

지금까지의 결과, 관중수가 기온과는 어느정도 유의미한 상관관계를 가지고 있으나, 습도와 관중수와의 관계가 거의 없음을 알 수 있다.

그렇다면 과연 정말로 습도와 관중 수는 아예 관계가 없다고 할 수 있을까?

 

우선 보다 면밀히 습도와 관중 수와의 관계를 파악하기 위해 기온으로 먼저 클러스터링한 후, 습도로 클러스터링 하였다.

이를 활용하면 계절별로 어느 정도 분리할 수 있다는 장점이 있다.

여름에는 가을 야구를 위한 결정전, 방학 등 다양한 이벤트들이 몰려있기 때문에 계절별로 볼 수 있다는 것은 큰 장점이 될 수 있다.

또한, 교통에 의한 변인들을 통제하기 위해 구장별로 따로 분석을 해보았다.

 

대구 구장- 기온 클러스터링 후 습도 클러스터링

 

위의 표를 살펴보면, 비슷한 온도일 경우, 습도가 너무 높은 것(75%이상)보다 최적에 가까울 때 관중 수가 더 많음을 알 수 있다.

 

구장별 기온 클러스터링 후 습도 클러스터링

 

다른 구장에서 비교한 것을 보아도 습도가 너무 높은 날보다 최적일 경우 관중 수가 더 많음을 알 수 있다. 즉, 습도가 높으면 항상 관중 수가 적은 것은 아니지만 최적인 습도에 비해 상대적으로 적음을 확인할 수 있다.

 

 

결론

- 날씨가 관중 수에 영향을 미치는 가장 큰 요인은 아니다

  다만, 실내 스포츠와 비교하여 보면, 날씨가 좋은 날이 선호됨을 알 수 있다

- 관중 수가 많은 날은 날씨가 좋으나, 날씨가 좋다고 반드시 관중 수가 많은 것은 아니다

- 비슷한 기온 범위 내에서는 너무 습한 날보다 습도가 최적인 날이 선호된다

 

아쉬웠던 점...

 

- 사실 만석의 경우에 날씨에 따른 인원차이를 고려하기가 어려웠다. 가중치를 부여하여 분석을 진행하였는 데, 구장 별로 만석일 경우의 좌석 수가 달라(수용 인원이 다름) 만일 만석이 아니였다면 어디가 더 관중 수가 많을 지는 알 수 없는 이야기이기 때문이다. 따라서 가중치를 부과하는 데에 있어 모순이 생긴 부분이기도 한 것 같다.

- 스포츠 경기의 경우, 미리 예매하는 경우가 많다는 사실을 알게 되었다. 예매 날짜의 날씨를 고려하기 보다 개인의 시간에 맞추어 일정을 정하고 예매하는 것이기 때문에 날씨의 영향보다 다른 부가적 요인이 관중 수가 끼치는 영향이 더 큰 것 같았다.

- 요일 효과(주말, 평일)의 변인 통제의 어려움도 있었다. 구단별 인기의 경우, 자료가 있어 가중치를 부과할 수 있었지만, 주말과 평일의 차이는 사실 명확한 근거로 가중치를 부과하기 어려워 이를 감안하기가 어려웠다.

 

 

간단한 후기

 

사실 R을 써서 데이터 분석을 해보는 것이 처음이라 어려움이 있었지만, 그래도 새로운 분야를 경험할 수 있어서 즐거웠다. R에서 정말 다양한 기능을 제공하고 이를 통해 데이터 분석을 할 수 있다는 점이 신기하고 재미있었다. 이번 프로젝트에서는 오히려 예상이 빗나가 날씨와 스포츠 관중 수는 사실 큰 상관관계가 없다는 사실을 알게 되었지만, 그 자체로도 새로운 지식을 배울 수 있어서 좋은 기회였다. 다음에는 데이터 분석을 통해 전혀 예상하지 못했던 연관관계가 있는 데이터를 발견하고 싶다. 빅데이터 시대에 맞추어 데이터 분석이 중요해지는 시점에서 좋은 공부가 되었고, 앞으로도 이 경험을 살려 여러 전문적으로 분석해 보고 싶다.

 

 

출처

[1] KBO, “구단별 관중수 데이터”, 2023. [Online]. Available: https://www.koreabaseball.com/Record/Crowd/GraphTeam.aspx. [Accessed: 31-Oct-2024].

[2] KBO, “일자별 관중 수 데이터”, 2023. [Online]. Available: https://www.koreabaseball.com/Record/Crowd/GraphDaily.aspx. [Accessed: 31-Oct-2024].

[3] 기상자료개방포털, “기상통계분석”, 2023. [Online]. Available: https://data.kma.go.kr/climate/RankState/selectRankStatisticsDivisionList.do. [Accessed: 31-Oct-2024].

[4] KBL, “KBL 관중 수 기록,” 2024. [Online]. Available: https://www.kbl.or.kr/record/crowd. [Accessed: 01-Nov-2024].

 

-If any problem for references, or any questions please contact me by comments.

-This content is only for recording my studies and personal profiles

 

본문의 내용은 학습과 개인 profile 이외의 다른 목적이 없습니다

상업적인 용도로 사용하는 것을 금합니다

본문의 내용은 2024-2 고급컴퓨터수학 학습 내용을 담고 있습니다.

 

반응형