龙空技术网

我用Python做了六百万字的歌词分析,告诉你中国Rapper都在唱些啥

娇兮心有之 299

前言:

现在各位老铁们对“python歌词”大体比较关注,兄弟们都想要知道一些“python歌词”的相关内容。那么小编在网摘上网罗了一些关于“python歌词””的相关资讯,希望我们能喜欢,你们快快来了解一下吧!

《中国有嘻哈》火了,作为一名对中国HipHop毫无了解的吃瓜群众,我开始好奇以下三个问题:

HipHop到底在唱些什么?

各个国家和地区的 Rapper 们想要说的唱的都有哪些特色?

如果想当一个Rapper,我应该怎样写词才能紧跟潮流又不会离题太远?

为了解答这个疑问,我用Python抓取了美英、台湾、香港、中国大陆四个地区,总共六千万的歌词,其中包括大陆600万的歌词,做了一些数据分析的工作,目的就是给我以及像我一样的吃瓜群众们一个有理有据的答案。

我的数据源选了X米音乐,写了好一会代码,抓取歌词的爬虫开始蹭蹭工作了⇣

爬虫一般会面对两个问题——

1.代理问题

频繁地抓取网站的页面,IP很容易被封。于是写了个抓免费代理的爬虫,抓了八百多个代理IP,够用了。

2.效率问题

10万首歌,即使是1秒一个请求,那得27个小时,我可等不了27个小时。

于是我决定开10个线程,三小时程序就能跑完。

……

然后在三小时之后,我收获一个约100M,49419首歌的数据库。

接下来,就是一些数据清洗、处理、分析的工作。

总之,我都搞定了,以下就是分析结果。我们先看看大陆地区的rapper歌词里有都写啥关键词⇣

“世界”和“时间”占据首位,“老子”、“兄弟”、“baby”、“money”、“bitch”、“real”等词倒是让rapper的形象呼之欲出。rapper的词里频繁提到“音乐”、“歌词”、“旋律”、“歌曲”,可见他们对自己的音乐非常在乎。嘻哈音乐由于有freestyle的文化,对亲自写词有要求,否则就不“ real ”,从节目中他们对偶像rapper的diss也能看出来。

接着,我们来看看与其他几个地区的关键词对比↓

看起来rapper的生活差不多,无论大陆还是台湾,都喜欢喊“baby”,身边都有一群“兄弟”和“朋友”,有“梦想”,平时都在唱“hip hop”,有“烦恼”了就骂骂街。

亮点是美国的关键字top1是“nigga”,这个和带有种族歧视意味的“nigger”还不是一个词。关于这个Tupac有过一个有意思的定义。

nigger: a black man with a slavery chain around his neck.(黑奴)

nigga: a black man with a gold chain on his neck.(金链黑汉子)

接下来,为了了解rapper的生活状况,我开始分析一些常见词汇在歌词中出现的频率。饶舌歌手们的生活想必少不了豪车,出门骑摩拜可能有被开除rap籍的风险。

感谢维基提供汽车品牌页面,并且很贴心的分了英语名称、中国大陆译名,于是我又写了个爬虫把品牌名称抓下来,然后统计数据库中每个品牌出现的频率。

这是各汽车品牌在国内16284首嘻哈歌曲中出现的情况,在一首歌的歌词中出现算一次,总共约有400多首歌中出现至少一次汽车的品牌名字。可以看出,饶舌歌手喜欢宝马和奔驰的很多,特点只有一个,就是贵!其实夏利、桑塔纳等车也有不少歌提到,但一般表达的是消极情绪。

然后我又统计了一下rapper们都喝什么⇣

*红色是国内饶舌歌手的数据,黄色是总数据

有需要Python学习资料的小伙伴吗?小编整理【一套Python资料、源码和PDF】,感兴趣者可以关注小编后私信学习资料(是关注后私信哦)反正闲着也是闲着呢,不如学点东西啦

标签: #python歌词