前言:
眼前小伙伴们对“python电影数据分析报告”大概比较重视,朋友们都需要了解一些“python电影数据分析报告”的相关内容。那么小编在网上收集了一些关于“python电影数据分析报告””的相关文章,希望同学们能喜欢,小伙伴们快快来了解一下吧!大哥大姐,Python大大来了。这期准备用Python给大家分析近年来的国外电影情况。比如这些电影的类型,收视率,影评如何等。够八卦吧!就是这样,要学习也要悦乐。
好,进入正题。
准备数据集
数据从哪里来?互联网电影数据库(IMDb)是一个网站,作为世界电影的在线数据 库。该网站包含大量有关电影的公开数据,如电影的标题,电影的发 行年份,电影的类型,观众,评论家的评级,电影的持续时间,电影 的总结。电影,演员,导演等等。
本文数据是从IMDb网站上进行爬取,可以过滤搜索,从而显示一年中的所有电影,例如2017年。例如,2017年IMDb电影的第一页可在以下URL下找到:
;sort=num_votes,desc&page=1
以下是要保留的数据:
· 电影标题
· 这部电影的类型
· 电影的持续时间(以分钟为单位)
· 电影发行年份
· 公众投票数量
· 公开评分(满分10分)
· 评论家评分(得分100分)
· 电影总票房(百万美元)
具体的爬虫技术这里不纠结,可以简单使用BeautifulSoup库开发一个Python脚本,它允许解析HTML代码,将每年解析限制为8页,所以从2000年开始,Python脚本检索8页的数据,然后重做相同的接下来的一年到2017年。
爬取的电影信息很多,很可能还有缺失的数据,所以爬取后,会得到一个包含缺失值的数据集。可以考虑使用以下方法修复此数据集问题的几种解决方案:
1. 删除缺少值的行
2. 使用特定值填充空字段
3. 用计算填充空字段
本文选择了第一个解决方案,最后爬取了2000年和2017年之间的数据。
数据探索
数据有了,使用Pandas库,可以概览数 据集,并通过应用info(),describe()和head()等函数,可以 检查数据集的内容。
将head()函数应用于数据集后,会显示数据集的一部分。显示了前8个数据如下:
我们找到所选数据: • 电影标题 - >电影
· 电影的类型 - >流派
· 电影时长(以分钟为单位) - > timeMin
· 电影发行年份 - >年份
· 公众投票数 - >投票
· 公开评级(10分) - > audienceRating
· 评论家评分(得分100分) - >评论评分
· 电影总票数(以百万美元计) - >百万美元
在数据集上应用info()函数: 可以在上面的图像中看到,共4583个条目(行),其中包 含8列(每列一种数据)。对于每一列数据(audienceRating,Genre 等),没有任何缺失值(非空)。为了能够使用和可视化这两个数据类型和电影,在 打印输出类别,得到:
因此,两个数据类型和电影是类别类型。 然后,使用describe()显示数据集的统计摘要。
通过此摘要,可以获取数据集的大量信息,例如行数,平
均数据,标准差,最小值,最大值和所有三个四分位数。
如前所述,我为统计建模选择了以下数据:
· 电影标题 - >电影
· 电影的类型 - >流派
· 电影时长(以分钟为单位) - > timeMin
· 电影发行年份 - >年份
· 公众投票数 - >投票
· 公开评级(10分) - > audienceRating
· 评论家评分(得分100分) - >评论评分
• 电影总票数(以百万美元计) - >百万美元
从这些数据中,可以分析出Pandas库内置的各种指标。
并且根据2000年至2017年期间发布的所有电影的评论评级来形象收 视率(audienceRating)。
基于2000年至2017年评论家评级的收视率的图形表示:
我们看到有一个高度集中的点,遵循一条直线,这意味着在大多数情 况下,电影的收视率与评论家评级的收视率一致。我们还看到,对于 公众而言,5/10和8/10之间的分布以及30/100和80/100之间的批评 分布更强,这证实了在大多数情况下,收视率和评论家评级之间的一 致性。
然而,我们可以看到,对于一些电影,公众与批评者不一致,例如, 对于一些电影,收视率在1/10到3/10之间,而评论家的收视率在 40/100之间和60/100。我们还可以看到,对于其他电影,收视率(公 众评级)介于4/10和7/10之间,而评论家的收视率介于20/100和 50/100之间。
在这张图中,我们可以得出结论,公众经常欣赏电影并且通常得分高 于5/10,而评论家则更苛刻,因为评论家的评级通常低于任何电影的 公众评级。
基于2000年至2017年评论家评级的六角形收视率表示:
在这张图上,我们可以看到观众和评论家之间音符的线性。
在进一步分析数据集之后,可以确定公众和评论家最受欢迎的电影。公 众在2000年至2017年期间欣赏的最佳电影是:
• "自我的世纪"于2002年以9/10的成绩发布。
• "黑暗骑士:黑骑士"于2008年以9/10的成绩发布。
评论家最欣赏的电影是:
• "童年"于2014年发布,得分为100/100。
按照2000年至2017年的电影长度对收视率进行图形表示:
在此图表中,我们看到大多数电影时间在60分钟到120分钟之间,这些分数在4/10到8/10之间,大多数分数高于 6/10。
对于一些持续超过3小时(180分钟)的电影,我们注意到公众对它们 表示赞赏,因为它通常会给出7/10以上的分数。在这张图中,我们看 到最长的电影持续366分钟,即6小时10分钟,得分为8.5 / 10,在数 据集中搜索后,它是关于2003年发行的电影"我们最好的年份"这是一 部戏剧电影。
根据2000至2017年电影的持续时间,评论家评级的图形表示:
在这张图上,我们注意到对于60分钟到120分钟之间的电影,评论家 的评分更加集中,并且在10/100和98/100之间变化。
根据公众在2000年至2017年期间的笔记,电影总数的图形表示:
在这张图表中,很明显,公众评价较高的电影是票房收入数百万美元的 电影,这是合乎逻辑的,因为如果人们喜欢看电影,他们会评论,并鼓励其他人去电影院观影,从而增加了电影的总量。观 众(公众)评级更集中在5月10日至8月10日之间。
在数据集中,带来数百万美元的电影是电影"星球大战:第七集 - 原力 觉醒",2015年收获936.66百万美元。
根据2000年至2017年评论家的得分,电影总数的图形表示:
数据科学:2000至2017年电影放映的电影分析.htm
11/30
2019/5/26 数据科学:2000至2017年电影放映的电影分析
在这张图中,我们注意到评论家的评分更集中在30/100和80/100之 间,这意味着评论家对电影的要求比公众要高。我们还注意到,评论 家评价较高的电影是那些带回了大量资金的电影。
根据2000年至2017年公众分数的投票数量的图形表示:
在此图表中,我们可以看到,观众越喜欢这部电影,他们投票的次数越
多,评分越高。
获得最多选票的电影是电影"黑暗骑士:黑暗骑士",获得1865768 票。
根据2000至2017年电影的持续时间,电影总数的图形表示:
在此图表中,我们注意到60分钟到150分钟(2小时30分钟)之间的电 影是带来最多的电影。另一方面,持续时间超过3小时的电影产量低得 多,也就是说,低于一百万美元。
我们推断导演应该避免制作一部持续时间至少为3小时的电影,并且他 应该将他的电影限制在1到2:30之间,这样他的观众就不会在电影放映 期间感到厌倦。
按观众,评论家,持续时间,总票数,票数和年份分配:
· 观众评分:大多数观众评分在6/10到7/10之间。
· 评论家评分:大多数评论家的评分在40/100到70/100之间。
· 电影的持续时间:大量电影的持续时间为100分钟(1小时40分 钟)。
· Movie Gross:大多数电影价值在0到1亿美元之间。
· 投票数:大多数投票票数在0到250000之间。
· 年份:许多电影在2000年,2009年和2017年发布。
因为整个数据集中有18种类型的电影,将数据集划分为3个子数据集,每个数据集分为6个
类型。
电影的类型是:
• 行动 • 冒险 • 动画 •传
• 喜剧 • 犯罪 • 记录 • 戏剧 • 家庭 • 幻想 • 恐怖 • 音乐 • 神秘 • 浪漫 • 科幻
f
• 惊悚 • 战争
因此,我通过6种类型的组获得三个直方图图。
2000年至2017年期间电影类型的直方图:
在这个直方图中,我们看到2000年至2017年期间,传记,喜剧,犯 罪,戏剧和恐怖电影的数量最多。在此期间,很少有神秘或战 争电影。
我们还注意到,带来最多(2亿到4亿美元)的电影是动作,戏剧和神 秘电影。
2000年至2017年电影类型的收视率直方图:
我们注意到,观众最喜欢的是动作,冒险,动画,传记,喜剧,犯 罪,纪录片,戏剧,神秘和科幻电影(得分高于或等于8/10)。
2000至2017年电影类型评论家的直方图:
我们注意到冒险,动画,传记,喜剧,纪录片,戏剧,科幻小说和神秘电影是评论家评价最高的电影(得分大于或等于80/100)。
2000年至2017年电影类型的投票直方图:
与其他电影相比,动画,戏剧和神秘电影获得的票数最多。
基于2000年至2017年电影类型评论评级的收视率的图形表示:
将数据集分成3组,每组6种类型的电影时,得到了三个图
形。
在大多数情况下,公众和评论家都对电影有着相同的看法,尤其是喜
剧或犯罪电影。动画和冒险电影是公众和评论家最受欢迎的电影。
戏剧和纪录片是公众和评论家最欣赏的。
神秘和科幻电影是公众和评论家最欣赏的。
根据2000年至2017年的电影类型,一些数据的箱形图:
在这些箱图中,必须参考中间值,最小值和最大值,以查看中值周围
数据的离散度。
• 评论家评级:动画,传记,犯罪,戏剧,神秘和科幻被评论家评 为。
• 观众评分:动画,冒险,传记,犯罪,纪录片,神秘和科幻小说 最受公众评价。
• 电影总收入:动作,冒险,动画,家庭电影是报道最多的电影。
• 电影的持续时间:动作,冒险,传记,犯罪,家庭,戏剧和神秘 电影在持续时间方面持续时间最长。
还可以绘制箱形图,如下所示:
这些图表的解释与箱图的解释相同。
使用Pandas库,还可以以网格形式显示图形,这允许在同一图形上 显示大量信息。
能够在同一个图表上显示以下信息:
• y轴上的收视率
• 评论家评价x轴
• 每行一种• 每栏一年
该数据集包含18年(2000年至2017年)和18个类型,因此有许多列 要显示(18列)和要显示的流派。为了便于表示,因此分为6年一组 (2000年到2005年,2006年到2011年和2012年到2017年)。
基于2000年至2005年评论评级的动作,冒险,动画,传记,喜剧和 犯罪的收视率的图形表示:
基于2000至2005年纪录片,戏剧,家庭,幻想,恐怖和音乐评论家 评分的收视率的图形表示:
基于2000年至2005年神秘,浪漫,科幻,惊悚,战争和西方电影评 论家评分的收视率的图形表示:
根据2006年至2011年评论评级为动作,冒险,动画,传记,喜剧和 犯罪电影收视率的图形表示:
基于2006年至2011年评论家对纪录片,戏剧,家庭,幻想,恐怖和 音乐电影评分的收视率的图形表示:
基于2006年至2011年的神秘,浪漫,科幻,惊悚,战争和西方电影 评论家评分的收视率的图形表示:
根据2012年至2017年评论家对动作,冒险,动画,传记,喜剧和犯 罪电影的评分,对观众的收视率进行图形表示:
基于2012年至2017年期间的纪录片,戏剧,家庭,科幻,恐怖和音 乐电影评论等级的收视率的图形表示:
基于2012年至2017年神秘,浪漫,科幻,惊悚,战争和西方电影评 论评分的收视率的图形表示:
可视化解释
• 从2000年到2005年,家庭电影,科幻,神秘,浪漫,科幻小说, 惊悚和战争的影响很少,2000年至2005年间的音乐和西方电影类 型更少。公众和评论家的评价是一致的。
2006年至2011年间,很少有奇幻电影,神秘,浪漫,科幻和惊 悚,几乎没有家庭,音乐,战争和西方电影。公众和评论家似乎 对大多数电影都有同样的看法。
在2012年至2017年期间,几乎没有家庭电影,幻想,神秘,浪 漫,科幻,惊悚,西方和几乎没有战争电影。观众和评论家的评 分非常相似。
因此,在2000年到2017年之间,公众给出的评分接近大部分电影评论 家的评分,并且推断出公众和评论家对电影有相同的看法。
3个DashBord和每组可视化:
• 观众评分基于电影配方• 根据电影的评论评论总体而言 • 电影总体根据他们的流派• 受众评级基于关键评级
第一个仪表板是2000年至2017年的动作,冒险,动画,传记,喜剧和 犯罪电影。
第二个仪表板适用于2000年至2017年间的流派电影纪录片,戏剧,家 庭,幻想,恐怖和音乐。
第三个仪表板适用于2000年至2017年间的流派电影"神秘,浪漫,科 幻,惊悚,战争和西方"。
3个仪表板显示动作,冒险,动画和家庭电影是报道最多的,电影的收 视率与评论家评级非常接近,电影得到了公众的好评。批评者是那些 带来了大量资金的人。
数据的准备,这些数据的建模,然后用各种图表对这些数据进行可视 化,最后对这些图表的解释使得有可能对电影中发布的电影进行分析 和全局视图。 2000年和2017年。
这项研究通过大量数据,能够确定2000年至2017年间电影的以 下分析结论:
· 电影的观众收视率与评论家收视率非常接近
· 批评者的评价更苛刻
· 大多数电影时长从60分钟到120分钟
· 受到公众和评论家好评的电影赚得最多
· 公众对电影的欣赏程度越高,他们投票的次数就越多,评分也越 高
· 60分钟到150分钟(2小时30分钟)之间的电影赚的最多
· 超过3小时的电影带来的钱最少
· 动画,传记,犯罪,戏剧,神秘和科幻电影是评论家评价最高的
· 动画,冒险,传记,犯罪,纪录片,神秘和科幻电影是公众评价 最高的
· 动作,冒险,动画和家庭电影是赚钱最多的
· 动作,冒险,传记,犯罪,家庭,戏剧和神秘电影时长最长
· 传记,喜剧,犯罪,戏剧和恐怖电影是最多的
· 很少有神秘或战争电影
· 制作成本最高的电影是动作,戏剧和神秘电影
好了!过瘾吧,Python能带给你更多的,不仅仅只是呆板的编程。本教程的代码,请微信公众号"python_dada"输入关键字"电影票房分析"获取。
标签: #python电影数据分析报告 #python电影评价分析