Python 爬影评,《悬崖之上》好看在哪里?

Python 爬影评,《悬崖之上》好看在哪里?
2021年05月14日 18:24 AI科技大本营

来源 | 志斌的python笔记

头图 | 下载于视觉中国

五月过半,观众对五一档上映电影的评价也逐渐沉淀下来,要说观影体验和口碑,当属张艺谋导演的《悬崖之上》了。《悬崖之上》作为一部谍战主题的电影,引人入胜的剧情加上主演们全员在线的演技,顺理成章地在同时期上映的电影种获得了评分排名第一。

本文通过Python爬取豆瓣上对于《悬崖之上》的短评,然后进行数据可视化分析,看看七万条短评里,网友都聊了些什么。

数据采集

在之前的文章我们已经对豆瓣短评的数据采集有过详细的介绍,有不懂的小伙伴可以看看这篇文章我用python分析《你好,李焕英》豆瓣30万+评论,终于找到了它大卖的原因。这里我们直接展示爬虫核心代码:

for page in range(80):

try:

params = (

('start', str(page * 20)),

('limit', '20'),

('status', 'P'),

('sort', 'new_score'),

('comments_only', '1'),

('ck', 'qN8_'),

)

r = requests.get('https://movie.douban.com/subject/32493124/comments', headers=headers, params=params, cookies=cookies)

yonghumingchengs = re.findall('', r.json()['html'], re.S)

youyongshus = re.findall('(.*?)', r.json()['html'], re.S)

pinglunshijians = re.findall('', r.json()['html'], re.S)

pingluns = re.findall('(.*?)', r.json()['html'], re.S)

for i in range(20):

a = a + 1

sheet.append([yonghumingchengs[i], youyongshus[i], pinglunshijians[i].split()[].split("-")[-1],

pinglunshijians[i].split()[1].split(":")[], pingluns[i]])

print(f"已爬取完第{page}页数据,存入{i + 1}条数据....")

except:

wb.save("全部.xlsx")

print(f"共爬取{page}页数据,存入{a}条数据....")

~~~

数据清洗

1.合并Excel

因为是分全部、好评、一般、差评四个部分来对影评进行爬取的,所以我们要对这四个影评文件夹进行合并。代码如下:

for i in files:

wb = openpyxl.load_workbook(i)

sheet = wb['豆瓣评论']

for i in range(2,502):

A_cell = sheet[f'A{i}']

B_cell = sheet[f'B{i}']

C_cell = sheet[f'C{i}']

D_cell = sheet[f'D{i}']

E_cell = sheet[f'E{i}']

a = [A_cell.value,int(B_cell.value),int(C_cell.value),int(D_cell.value),E_cell.value]

sheet_1.append(a)

~~~

2.导入景点数据

用pandas读取合并后的影评数据并预览。

df = pd.read_excel('总.xlsx',names=['用户名称','点赞数','评论日期','评论时间','评论内容'])

print(df.head())

3.删除重复数据

df.drop_duplicates()

4.查看数据类型

查看字段类型和缺失值情况,符合分析需要,无需另做处理。

df.info()

数据可视化

1.各类评论占比

这部电影的短评数有7w+,好评竟能占到快80%,果然张艺谋导演的剧都是好剧~,建议大家抓住五一的小尾巴,去刷一下这个剧。

2.主演提及次数

这部影片一共有五个主演,没想到男一张译和女一秦海璐竟然不是被提及次数最多的,反而是刘浩存被提及次数最多,那让我们来看看大家在影评中都是怎么评价她的。

从词云图中看出,作为新晋的谋女郎,刘浩存确实实力很强,演技很好,同时影片中的角色也很好,可能是这样才导致它的被提及次数成为第一吧。

3.各类星级占比

从图中,我们可以明显的看出,打4星的观众最多,占了54%,其次是3星和5星,分别占26%和17%。这样看来,观众还是非常肯定这部影片的。

4.评论发表时间分布

从图中,我们可以看出,大部分影评发表时间在晚上和凌晨,白天发表影评的数量很少,影院可以适当增加晚上和凌晨的场次。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部