Kaggle項目之電影數據分析 - GetIt01

2024-11-15

文章推薦指數： 80 %

投票人數：10人

Kaggle項目之電影數據分析. 04-28. *項目背景：. 項目地址：TMDB 5000 Movie Dataset. 你是一名業務分析師顧問，你的客戶是一個電影製作新公司，他們將製作一部新電影 ... 標籤：Kaggle Kaggle項目之電影數據分析 04-28 *項目背景：項目地址：TMDB5000MovieDataset你是一名業務分析師顧問，你的客戶是一個電影製作新公司，他們將製作一部新電影。

客戶想確保電影能成功，從而使新公司立足市場。

他們希望你能幫助他們了解電影市場趨勢，使他們能做出正確的決策。

下附分析過程及相關代碼： 1.提出問題： ●問題1：電影類型是如何隨著時間的推移發生變化的？●問題2：UniversalPictures和ParamountPictures之間的對比情況如何？●問題3：改編電影和原創電影的對比情況如何？●問題4:電影頁面查看次數與評分次數的相關關係？ 2.理解數據： 2.1.採集數據：數據來源於Kaggle項目數據：TMDB5000MovieDataset2.2.導入數據：檢查數據集內容，發現genres、keywords、production_companies、production_countries、spoken_languages、cast、crew列為JSON編碼的字元串。

觀察得知movies中id列與cridits中movie_id列呈對應關係，故以此為連接合併兩個數據集。

2.3.查看數據集信息：理解moviesDf及creditsDf中各變數含義：●id：標識號●movie_id：標識號●popularity：在MovieDatabase上的相對頁面查看次數●budget：預算（美元）●revenue：收入（美元）●original_language：原始語言●spoken_languages：輸出語言●original_title：原始電影名稱●cast：演員列表，按|分隔，最多5名演員 ●crew：劇組●title：電影名稱●status：電影狀態●homepage：電影首頁的URL●tagline：電影的標語●keywords：與電影相關的關鍵字，按|分隔，最多5個關鍵字●overview：劇情摘要●runtime：電影時長●genres：風格列表，按|分隔，最多5種風格●製作公司列表：production_companies按|分隔，最多5家公司 ●production_countries：製作國家●release_date：首次上映日期●vote_count：評分次數●vote_average：平均評分查看數據集行列數、描述統計信息、缺失情況、各列數據類型：經觀察，budget、vote_count、vote_average、revenue最小值為0，列中可能有異常值。

homepage、overview、release_date、runtime、tagline列均有數據缺失。

3.數據清洗： 3.1.數據預處理：3.1.1.選擇子集：選擇id、popularity、budget、revenue、original_language、spoken_languages、cast、crew、title、status、keywords、runtime、genres、production_companies、production_countries、release_date、vote_count、vote_average作為分析數據。

3.1.2.列名重命名：因合併時有兩個title列，系統生成列title_x,title_y。

將title_x重命名為title。

3.1.3.缺失數據處理：在選擇的子集內，release_date列缺失1條數據，runtime列缺失2條數據。

3.1.4.數據類型轉換：將json格式的字元串轉換為python字元串數據。

觀察得genres、keywords、crew、production_companies、production_countries、spoken_languages、cast列為json格式的字元串。

將release_date數據類型轉換為日期。

並分別提取出年份月份。

3.1.5.數據排序：按發行年月升序排列。

3.1.6.異常值處理：budget、vote_count、vote_average、revenue最小值為0，將0用平均值填充。

3.2.提取特徵： 3.2.1.數據分類：1)數值類型：id、popularity、budget、revenue、runtime、vote_count、vote_average2)時間序列：release_date，已轉換為單獨的年份release_year、月份列release_month。

3)分類數據：有直接類別：status：original_language：字元串類型：spoken_languages、cast、crew、genres、production_companies、production_countries 4.構建模型： 4.1.電影類型是如何隨著時間的推移發生變化的？選取數量排在前11名的電影類型，選取1970年以後的數據。

電影市場在90年代萌芽，經歷了1990-2000的快速發展後，一直保持著活力。

其中戲劇、喜劇片、驚悚片最為大眾喜愛。

4.2.UniversalPictures和ParamountPictures之間的對比情況如何？UniversalPictures與ParamountPictures均為production_companies（製作公司列表）中元素。

UniversalPictures即發行環球影業，ParamountPictures即派拉蒙影業。

下面比較兩家公司發行的電影類型：兩家公司發行的電影類型大致一致，佔主要比重的類型是喜劇片、戲劇、動作片、冒險片。

兩家公司發行的電影的收入比較：兩家電影公司營收狀況良好，年利潤達億元級。

其中Paramount公司在2002年低谷後，一直呈上升趨勢，而Universal利潤水平均在一億元左右。

近兩年電影市場有崛起跡象，兩家公司利潤均大幅度上升。

（2017年數據未統計完整，故不計入研究。

）4.3.原創電影和改編電影之間的對比情況如何？電影市場上絕大多數電影為原創電影。

4.4.評分次數與電影頁面查看次數的相關關係如何？案例決定係數為0.69，說明模型精確度較高。

推薦閱讀： ※kaggle比賽初體驗※深度學習入門：Tensorflow實戰DigitRecognizer（一）※數據挖掘系列篇（27）：Kaggle數據挖掘比賽經驗分享※關於數據科學競賽的一點思考※Kaggle比賽心得 TAG:Kaggle| 一點新知 GetIt01