Python分析百部電影數據,我分析出了一個殘酷的真相 - Medium

文章推薦指數: 80 %
投票人數:10人

2019年就這麼匆匆過去了,就在前陣子國家電影局發布了2019年中國電影市場數據,數據顯示去年總票房為642.66億元,同比增長5.4%;國產電影總票房411.75 ... 十週入門數據分析Excel資料視覺化數據分析職場技能書籍推薦行業新動態合作/投稿聯繫Python分析百部電影數據,我分析出了一個殘酷的真相數據分析那些事FollowJul15,2020·8minread2019年就這麼匆匆過去了,就在前陣子國家電影局發布了2019年中國電影市場數據,數據顯示去年總票房為642.66億元,同比增長5.4%;國產電影總票房411.75億元,同比增長8.65%,市場佔比64.07%;城市院線觀影人次17.27億,同比增長0.64%。

看上去似乎是一片大好對不對?不過作為一名嚴謹求實的數據分析師,數據哥我呢,從官方數據中看出了一點端倪:國產票房增幅都已經高達8.65%了,為什麼觀影人次增長不足1%?到底為什麼會出現這樣的現象,最好的辦法就是從數據中找答案。

數據哥跟同事們說找就找,按照老規矩,先用python爬取數據、再用BI進行數據分析,最終事情的真相就會顯現在我們面前。

一、分析目的和分析指標首先明確我們數據分析的目的,根據2019年電影的數據分析國內電影市場,主要是為了找到票房與觀影人次的關係。

怎麼去衡量一部電影的好壞呢?懂電影的人應該都知道這麼幾個指標:“電影票房”、“票房佔比”、“上座率”、“排片比”、“評分”等等,其中我們的數據源就用貓眼電影吧,但是因為貓眼評分門檻很低,可能充斥著很多網軍,所以這次就不用“評分”這個指標了。

二、Python爬取下面就要開始爬取數據了,因為貓眼電影的網頁結構比較簡單,爬取操作比較簡單,所以這裡我就不詳細展示了,只說幾步需要注意的地方就行。

1、先看看結構從貓眼電影上可以看到我們要爬取的網頁,首先要提取出這個網頁的資訊,在瞭解了大致的情況之後,就右鍵選擇查看網頁的原始碼,看一下我們需要爬取的數據資訊在原始碼中的什麼地方。

2、偽裝成瀏覽器進行數據請求這個方法就是老生常談的事情了,這裡不細講了,在發送請求前加上headers參數即可。

3、提取數據貓眼裡的電影票房等都是加密後的字體,因此我們需要解密字體。

雖然字符的編碼是變化的,但是對像是不變的。

那麼我們可以通過第一次下載一個字體文件origin.ttf,並把對應編碼的字體寫出來,當第二次從網上重新下載一個字體文件online_base64.ttf的時候,可以對比對象資訊,如果對象是一樣的,那麼就把第一次編碼對應的文字賦值給第二次的編碼,這樣即可。

4、主程序調用保存在excel中首先需要建立一個空列表,將所有的數據添加到裡面去。

在之前的提取數據那個函數的時候,將print(data),改寫成yielddata,將所有的數據添加到一個列表之後就可以保存數據了。

5、需要注意的地方下載一個基本字體路徑,找到它對應的數字及其編碼每一次爬取網頁時,都要先下載該網頁的字體文件,然後與基本字體文件作對比,獲得爬取網頁的數字對應編碼。

三、BI分析有了源文件,我們就可以進行BI分析了,至於為什麼不用python是因為比較麻煩,像我們如果要做二八分析模型,代碼寫起來還是比較麻煩的,日常共工作中不太能滿足需求。

所以一般來說我現在都是用專業的BI工具進行數據分析。

目前市場上的BI工具十分繁多,但是性能也參差不齊,這裡我就以BI工具的優秀代表FineReport為例。

1、數據加工我們爬取到的數據可能需要第二次加工,比如髒數據處理、數據合併、過濾等等,Excel就可以通過選擇欄位、過濾、分組匯總、新增列、欄位設置、排序、合併等操作對數據進行處理。

2、數據連接接著導入我們需要分析的數據,FineReport可以連接Excel,CSV,XML,以及各類數據庫,這裡因為有了python爬取到的excel表,所以直接選擇excel導入即可。

3、資料視覺化帆軟FineReport作為一款圖表製作和資料視覺化軟體,其動態圖表支援豐富的交互效果,讓使用者簡單明了、方便快捷的理解和利用數據資料。

四、結論分析不說廢話,先放結論:國內電影市場接近飽和,今年的成績是虛假繁榮;頭部效應加劇,大多數電影票房慘淡,市場成績不佳;票房的增長基本是靠電影價格拉動起來的,觀影人次基本沒有增長,電影寒冬到來;1、票房排名前二十的電影今年票房前二十名中一半以上都是國產電影,看似繁榮,但其實從上圖的區間柱狀圖中能夠看出,《哪吒》、《流浪地球》、《复聯4》三部電影屬於第一梯隊,票房在40億以上;《我和我的祖國》、《中國機長》、《瘋狂的外星人》、《海王》屬於第二梯隊,票房在20–30億左右;剩下的電影中基本在20億以下,排名20的《銀行補習班》只有8億。

整體來說,去年國內電影市場受歡迎的作品較多,但是整體呈現階梯狀,斷崖較多,大部分集中於前五名之中,大體上符合二八法則。

2、票房的帕累托模型為了搞清是否真的符合帕累託法則,我特意用FineReport的姊妹產品FineBI加入了一條票房累積百分比:結果很明顯,排名前20%的電影佔據了整個市場80%以上的票房總量,也就是說,去年國內市場的票房總量基本上靠著幾大熱門電影撐起來的,票房分佈越來越集中絕對不是一件好事,這意味大多數的電影成績慘淡,根本沒有生存空間。

3、票房佔比、場次率與票房的關係.票房佔比:電影票房收入佔總收入的比例,票房佔比越高,說明電影質量越好,人們越想看;.場次率:場次率高、票房低就是爛片,而場次率低、票房高的電影才是黑馬;這張圖我們可以跟排名前二十的柱狀圖對比一下,真正意義上高票房、高票房佔比、低場次率的黑馬電影有哪些呢?答案只有一部《流浪地球》。

《哪吒》的排片率高是因為上映同期沒有什麼優質電影與之競爭,所以《哪吒》的成功一半要歸功於人和,一半要歸功於天時;《瘋狂外星人》的表現中規中矩,《海王》屬於典型的商業片,《我和我的祖國》屬於特殊情況,不能一概而論。

4、上座率與票房的關係.上座率:即一部影片獲得觀眾人次的多少,優秀的影片上座率就高,反之則低。

為了方便對比,我在圖中加入了一條平均上座率的警戒線,其中上座率最高的是《我和我的祖國》、《我為你犧牲》,原因就不說了,大家應該都明白;其中比較奇怪的是《飛馳人生》、《新喜劇之王》、《攀登者》,上座率非常高,票房成績卻不如人意,應該是得益於其導演、主演的號召力。

《流浪地球》上座率在平均值以上,無論從哪個角度看都是一部好電影,無懈可擊。

值得欣慰的是,上座率排名靠前的基本都是國產電影,看的出來國外電影尚不能滿足大多數人的口味。

5、做點其他分析電影類型與上座率的關係喜劇電影一騎絕塵,動畫電影黑馬突起,科幻電影方興未艾,驚悚、懸疑、歷史等小眾題材的電影仍然慘淡無比。

顏色越深代表上座率越高,字體越大代表票房越高陳凱歌現在雖然經常被爛片之王所詬病,但是不得不說他的成績還是很不錯的,另外像寧浩、韓寒、郭帆、陳國輝等人都是國產電影的希望。

關注數據君的臉書:我是「數據分析那些事」。

常年分享數據分析乾貨,不定期分享好用的職場技能工具。

按贊我的臉書,期待你與我的互動!現在FineReport個人版完全免費!現在註冊還可以擁有海量模板和行業案例呦~~點選下方連結獲取免費版FineReport軟體&激活碼:免費獲取FineReport報表設計器激活碼|FineReport最強大的動態報表與BI商業智慧工具FineReport報表工具設計器激活碼手機號註冊,使用郵箱激活www.finereport.com數據分析那些事數據分析那些事.7.2Klikes.這是一個專注於數據分析職場的內容社群,聚焦一批數據分析愛好者,在這裡,我們每天都數據分析相關優質文章推送、互動環節以及每周熱點資訊分享,希望熱愛數據的你也可以加入我們!www.facebook.com數據分析不是個事分享數據人必備的知識!數據分析Finereport102 claps1021數據分析不是個事分享數據人必備的知識!Writtenby數據分析那些事Follow這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步!臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/數據分析不是個事分享數據人必備的知識!



請為這篇文章評分?