Kaggle項目之電影數據分析 - GetIt01

文章推薦指數: 80 %
投票人數:10人

Kaggle項目之電影數據分析. 04-28. *項目背景:. 項目地址:TMDB 5000 Movie Dataset. 你是一名業務分析師顧問,你的客戶是一個電影製作新公司,他們將製作一部新電影 ... 標籤:Kaggle Kaggle項目之電影數據分析 04-28 *項目背景:項目地址:TMDB5000MovieDataset你是一名業務分析師顧問,你的客戶是一個電影製作新公司,他們將製作一部新電影。

客戶想確保電影能成功,從而使新公司立足市場。

他們希望你能幫助他們了解電影市場趨勢,使他們能做出正確的決策。

下附分析過程及相關代碼: 1.提出問題: ●問題1:電影類型是如何隨著時間的推移發生變化的?●問題2:UniversalPictures和ParamountPictures之間的對比情況如何?●問題3:改編電影和原創電影的對比情況如何?●問題4:電影頁面查看次數與評分次數的相關關係? 2.理解數據: 2.1.採集數據: 數據來源於Kaggle項目數據:TMDB5000MovieDataset2.2.導入數據:檢查數據集內容,發現genres、keywords、production_companies、production_countries、spoken_languages、cast、crew列為JSON編碼的字元串。

觀察得知movies中id列與cridits中movie_id列呈對應關係,故以此為連接合併兩個數據集。

2.3.查看數據集信息: 理解moviesDf及creditsDf中各變數含義:●id:標識號●movie_id:標識號●popularity:在MovieDatabase上的相對頁面查看次數●budget:預算(美元)●revenue:收入(美元)●original_language:原始語言●spoken_languages:輸出語言●original_title:原始電影名稱●cast:演員列表,按|分隔,最多5名演員 ●crew:劇組●title:電影名稱●status:電影狀態●homepage:電影首頁的URL●tagline:電影的標語●keywords:與電影相關的關鍵字,按|分隔,最多5個關鍵字●overview:劇情摘要●runtime:電影時長●genres:風格列表,按|分隔,最多5種風格●製作公司列表:production_companies按|分隔,最多5家公司 ●production_countries:製作國家●release_date:首次上映日期●vote_count:評分次數●vote_average:平均評分查看數據集行列數、描述統計信息、缺失情況、各列數據類型:經觀察,budget、vote_count、vote_average、revenue最小值為0,列中可能有異常值。

homepage、overview、release_date、runtime、tagline列均有數據缺失。

3.數據清洗: 3.1.數據預處理:3.1.1.選擇子集: 選擇id、popularity、budget、revenue、original_language、spoken_languages、cast、crew、title、status、keywords、runtime、genres、production_companies、production_countries、release_date、vote_count、vote_average作為分析數據。

3.1.2.列名重命名:因合併時有兩個title列,系統生成列title_x,title_y。

將title_x重命名為title。

3.1.3.缺失數據處理:在選擇的子集內,release_date列缺失1條數據,runtime列缺失2條數據。

3.1.4.數據類型轉換:將json格式的字元串轉換為python字元串數據。

觀察得genres、keywords、crew、production_companies、production_countries、spoken_languages、cast列為json格式的字元串。

將release_date數據類型轉換為日期。

並分別提取出年份月份。

3.1.5.數據排序:按發行年月升序排列。

3.1.6.異常值處理:budget、vote_count、vote_average、revenue最小值為0,將0用平均值填充。

3.2.提取特徵: 3.2.1.數據分類:1)數值類型:id、popularity、budget、revenue、runtime、vote_count、vote_average2)時間序列:release_date,已轉換為單獨的年份release_year、月份列release_month。

3)分類數據:有直接類別:status:original_language:字元串類型:spoken_languages、cast、crew、genres、production_companies、production_countries 4.構建模型: 4.1.電影類型是如何隨著時間的推移發生變化的?選取數量排在前11名的電影類型,選取1970年以後的數據。

電影市場在90年代萌芽,經歷了1990-2000的快速發展後,一直保持著活力。

其中戲劇、喜劇片、驚悚片最為大眾喜愛。

4.2.UniversalPictures和ParamountPictures之間的對比情況如何?UniversalPictures與ParamountPictures均為production_companies(製作公司列表)中元素。

UniversalPictures即發行環球影業,ParamountPictures即派拉蒙影業。

下面比較兩家公司發行的電影類型:兩家公司發行的電影類型大致一致,佔主要比重的類型是喜劇片、戲劇、動作片、冒險片。

兩家公司發行的電影的收入比較:兩家電影公司營收狀況良好,年利潤達億元級。

其中Paramount公司在2002年低谷後,一直呈上升趨勢,而Universal利潤水平均在一億元左右。

近兩年電影市場有崛起跡象,兩家公司利潤均大幅度上升。

(2017年數據未統計完整,故不計入研究。

)4.3.原創電影和改編電影之間的對比情況如何?電影市場上絕大多數電影為原創電影。

4.4.評分次數與電影頁面查看次數的相關關係如何?案例決定係數為0.69,說明模型精確度較高。

推薦閱讀: ※kaggle比賽初體驗※深度學習入門:Tensorflow實戰DigitRecognizer(一)※數據挖掘系列篇(27):Kaggle數據挖掘比賽經驗分享※關於數據科學競賽的一點思考※Kaggle比賽心得 TAG:Kaggle| 一點新知 GetIt01



請為這篇文章評分?