Kaggle項目之電影數據分析 - GetIt01
文章推薦指數: 80 %
Kaggle項目之電影數據分析. 04-28. *項目背景:. 項目地址:TMDB 5000 Movie Dataset. 你是一名業務分析師顧問,你的客戶是一個電影製作新公司,他們將製作一部新電影 ...
標籤:Kaggle
Kaggle項目之電影數據分析
04-28
*項目背景:項目地址:TMDB5000MovieDataset你是一名業務分析師顧問,你的客戶是一個電影製作新公司,他們將製作一部新電影。
客戶想確保電影能成功,從而使新公司立足市場。
他們希望你能幫助他們了解電影市場趨勢,使他們能做出正確的決策。
下附分析過程及相關代碼:
1.提出問題:
●問題1:電影類型是如何隨著時間的推移發生變化的?●問題2:UniversalPictures和ParamountPictures之間的對比情況如何?●問題3:改編電影和原創電影的對比情況如何?●問題4:電影頁面查看次數與評分次數的相關關係?
2.理解數據:
2.1.採集數據:
數據來源於Kaggle項目數據:TMDB5000MovieDataset2.2.導入數據:檢查數據集內容,發現genres、keywords、production_companies、production_countries、spoken_languages、cast、crew列為JSON編碼的字元串。
觀察得知movies中id列與cridits中movie_id列呈對應關係,故以此為連接合併兩個數據集。
2.3.查看數據集信息:
理解moviesDf及creditsDf中各變數含義:●id:標識號●movie_id:標識號●popularity:在MovieDatabase上的相對頁面查看次數●budget:預算(美元)●revenue:收入(美元)●original_language:原始語言●spoken_languages:輸出語言●original_title:原始電影名稱●cast:演員列表,按|分隔,最多5名演員
●crew:劇組●title:電影名稱●status:電影狀態●homepage:電影首頁的URL●tagline:電影的標語●keywords:與電影相關的關鍵字,按|分隔,最多5個關鍵字●overview:劇情摘要●runtime:電影時長●genres:風格列表,按|分隔,最多5種風格●製作公司列表:production_companies按|分隔,最多5家公司
●production_countries:製作國家●release_date:首次上映日期●vote_count:評分次數●vote_average:平均評分查看數據集行列數、描述統計信息、缺失情況、各列數據類型:經觀察,budget、vote_count、vote_average、revenue最小值為0,列中可能有異常值。
homepage、overview、release_date、runtime、tagline列均有數據缺失。
3.數據清洗:
3.1.數據預處理:3.1.1.選擇子集:
選擇id、popularity、budget、revenue、original_language、spoken_languages、cast、crew、title、status、keywords、runtime、genres、production_companies、production_countries、release_date、vote_count、vote_average作為分析數據。
3.1.2.列名重命名:因合併時有兩個title列,系統生成列title_x,title_y。
將title_x重命名為title。
3.1.3.缺失數據處理:在選擇的子集內,release_date列缺失1條數據,runtime列缺失2條數據。
3.1.4.數據類型轉換:將json格式的字元串轉換為python字元串數據。
觀察得genres、keywords、crew、production_companies、production_countries、spoken_languages、cast列為json格式的字元串。
將release_date數據類型轉換為日期。
並分別提取出年份月份。
3.1.5.數據排序:按發行年月升序排列。
3.1.6.異常值處理:budget、vote_count、vote_average、revenue最小值為0,將0用平均值填充。
3.2.提取特徵:
3.2.1.數據分類:1)數值類型:id、popularity、budget、revenue、runtime、vote_count、vote_average2)時間序列:release_date,已轉換為單獨的年份release_year、月份列release_month。
3)分類數據:有直接類別:status:original_language:字元串類型:spoken_languages、cast、crew、genres、production_companies、production_countries
4.構建模型:
4.1.電影類型是如何隨著時間的推移發生變化的?選取數量排在前11名的電影類型,選取1970年以後的數據。
電影市場在90年代萌芽,經歷了1990-2000的快速發展後,一直保持著活力。
其中戲劇、喜劇片、驚悚片最為大眾喜愛。
4.2.UniversalPictures和ParamountPictures之間的對比情況如何?UniversalPictures與ParamountPictures均為production_companies(製作公司列表)中元素。
UniversalPictures即發行環球影業,ParamountPictures即派拉蒙影業。
下面比較兩家公司發行的電影類型:兩家公司發行的電影類型大致一致,佔主要比重的類型是喜劇片、戲劇、動作片、冒險片。
兩家公司發行的電影的收入比較:兩家電影公司營收狀況良好,年利潤達億元級。
其中Paramount公司在2002年低谷後,一直呈上升趨勢,而Universal利潤水平均在一億元左右。
近兩年電影市場有崛起跡象,兩家公司利潤均大幅度上升。
(2017年數據未統計完整,故不計入研究。
)4.3.原創電影和改編電影之間的對比情況如何?電影市場上絕大多數電影為原創電影。
4.4.評分次數與電影頁面查看次數的相關關係如何?案例決定係數為0.69,說明模型精確度較高。
推薦閱讀:
※kaggle比賽初體驗※深度學習入門:Tensorflow實戰DigitRecognizer(一)※數據挖掘系列篇(27):Kaggle數據挖掘比賽經驗分享※關於數據科學競賽的一點思考※Kaggle比賽心得
TAG:Kaggle|
一點新知
GetIt01
延伸文章資訊
- 110大行业公开数据免费下载:文化娱乐行业
TMDB5000电影1)数据集描述TMDB 提供了可以公开使用的电影数据。 数据下载地址: https://www.kaggle.com/tmdb/tmdb-movie-metadata需要注意...
- 2StoryFit 數據分析系列(三):電影宣傳與發行階段的應用
實際來看StoryFit,一間專門服務電影、戲劇的科技公司,如何利用數據分析與改善.
- 3TFAI-國家電影及視聽文化中心Taiwan Film and Audiovisual ...
關於國家影視聽中心ABOUT US. 我們將每一部電影、電視、廣播作品蒐集、珍藏, 讓每一個年代的記憶、文化能被保存,及再次被看見。
- 4Kaggle項目之電影數據分析 - GetIt01
Kaggle項目之電影數據分析. 04-28. *項目背景:. 項目地址:TMDB 5000 Movie Dataset. 你是一名業務分析師顧問,你的客戶是一個電影製作新公司,他們將製作一部新...
- 5全國電影票房統計數據 - 台灣公開資訊網