[데이터 분석] 요즘 핫한 넷플릭스 영화/TV쇼 트렌드는?

서론 세계 최대의 비디오 스트리밍 서비스 기업 넷플릭스! 다들 이용하시죠? 넷플릭스는 2019년 당시 7787개 이상의 콘텐츠를 보유하고 있으며 전 세계 1억 3500만명의 유료 고객과 계약을 맺었다고 발표한 바 있습니다. 많은 사람들이 넷플릭스를 이용하고 있는 만큼 몇 년간의 넷플릭스 트렌드를 파악하는 것은 곧 현대인의 트렌드를 파악할 수 있는 방법이라고 생각됩니다. 따라서 이번 기사에서는 넷플릭스 영화와 TV쇼 제목의 데이터 세트를 분석하여 수년간 어떤 경향이 있었는지 알아보려고 합니다. 이 글을 통해 넷플릭스가 어떤 방식으로 빅데이터를 수집, 분석하고 사용자 기반 서비스를 확장해왔는지 알 수 있을 것입니다.데이터 세트 데이터 세트는 데이터 분석 플랫폼인 kaggle에서 획득했으며 추가적으로 다양한 변수를 포함했습니다. 영화나 TV 프로그램 제목과 함께 감독, 출연자, 날짜, 개봉 연도, 설명, 기간 등을 추가했습니다. 이러한 변수를 사용하여 보다 다양하게 관찰하고 시각화 결과를 작성할 수 있었습니다.

분석

이 차트를 보면 영화 제목 수가 TV 쇼보다 많다는 것을 알 수 있습니다. 그러나 2020년이 가까워짐에 따라 영화의 수는 감소하고 TV 쇼가 증가합니다. 왜 그럴까요?

유력한 원인 중 하나는 신종 코로나바이러스 감염증의 유행입니다. 코로나19 유행으로 인해 영화 산업이 축소된 것입니다. 또한 동시에 넷플릭스 오리지널 시리즈는 흥행하고 TV 쇼는 확대된 것으로 분석할 수 있습니다.

이 두 차트는 2010년부터 2020년까지 매월 추가된 콘텐츠 수와 월평균 타이틀 수를 보여줍니다. 보시다시피 2월에 추가된 콘텐츠 양이 가장 적고 10월이 가장 많습니다.

이 boxplot에서는 상위 11개국의 넷플릭스 영화 상영 시간을 볼 수 있습니다. 주목할 만한 것은 2001년 119분에서 2020년 90분으로 수년간 평균 상영시간이 감소했다는 것입니다.

이 차트에서는 등급별 영화/텔레비전 쇼의 타이틀 수와 출연자의 반복 횟수를 볼 수 있습니다. R등급 영화나 발리우드 배우가 많이 나오는 걸 볼 수 있겠네요.

넷플릭스 제목에서 가장 많이 나타난 단어를 워드 클라우드로 만들어 보면 다음과 같습니다. 사랑과 크리스마스에 관한 주제가 많이 눈에 띄네요!

결론 넷플릭스가 성공한 핵심 요인 중 하나는 빅데이터 활용에 있습니다. 고객의 이용 정보나 패턴을 수집하고 그들이 다음에 어떤 콘텐츠를 보면 좋을지 추천해 줍니다. 넷플릭스는 이러한 형태의 데이터 수집과 분석을 지속함으로써 매년 더욱 발전할 수 있었습니다. 세계 어느 지역에 어떤 콘텐츠를 추가할지를 파악하고 계속 사용자 기반 서비스를 향상시키는 데 그들이 수집한 빅데이터는 매우 중요한 역할을 했을 것입니다.

데이터 활용 넷플릭스 같은 기업만 가능한건가요? 아니요! 저희도 충분히 많은 양의 데이터를 수집하고 이를 분석하여 다양한 분야에 적용할 수 있습니다. 스파이더 김에게서 원하는 정보를 빠르게 수집하세요!

출처 : https://nycdatascience.com/blog/r/eda-on-netflix/

데이터를 바탕으로 연구해 보고 싶은 분야가 있나요? 스파이더 김으로 간단하게 원하는 데이터를 수집하세요!

error: Content is protected !!