您好、欢迎来到现金彩票网!
当前位置:516棋牌游戏 > 文本采掘 >

文本挖掘林夕、黄伟文43万歌词 他们在唱些什么?

发布时间:2019-06-07 20:41 来源:未知 编辑:admin

  本文也是探究音乐方面推送的又一篇文章,作者分析了林夕和黄伟文两位香港乐坛著名词作人43万字歌词后,得出了有趣的结论。

  在我十几年的听歌生涯里,熟悉的歌曲可以说有80%以上的作词,都是出自香港两大金牌词人——林夕和黄伟文之手,粉丝界也出了不少文章从二人的韵脚使用、意识形态、选材议题尤其是爱情观等角度做分析,甚至网络上还有流传林夕引进门,皈依黄伟文的说法。作为他们的迷妹,并且最近恰好在看一些关于文本挖掘的文章,忍不住从文本挖掘的角度对他们的歌词做了一个颇粗浅的分析。

  首先我通过Python爬虫在虾米音乐上抓取了所有他们的歌词文本,对比了虾米、网易云和QQ三大音乐门户,虾米上收录的比较全,但是抓取下来的数据也不能保证囊括了两人出道来所有的作品,所以呢结果仅作参考。

  对抓取结果进行去重和去空文本后,约43万字,其中夕爷跟歪闷字数比例7:1左右,从文本歌曲数来看,夕爷跟歪闷大约一个8:1的比例,看来歪闷单曲平均字数更丰富(线首。可以说夕爷绝对属于天道酬勤自带天赋的努力型选手,这应该也是夕爷在大陆知名度更高的主要原因,生产力带动了市场覆盖率,虽然歪闷没有夕爷那么高产,不过在含金量方面应该是更胜一筹的多金型选手,毕竟分母更小。

  对他们两人所有的歌词文本通过Python库(主要是jieba、snownlp)作分词、词性处理和情绪分析。我把每个文本里的你、我、他等单字和oh yeah之类的语气词去掉后,用剩下的词语分别生成了两人肖像字符云,上图是夕爷,下图是歪闷(排名不分先后)

  没有是两人词云里最突出的词,前段时间有篇文章分析了香港四十年来歌曲关键字的变化,说在90年代后,歌坛关键词从以前的相思、鸳鸯、我心切换成了没有,词云的结果就刚好对应上了这个结论,90年代后,夕爷和歪闷包揽了香港歌坛绝大部分传唱度高的词作,而这两人使用频度最高的词就是没有。

  从词性来看两人惯用的前9招几乎是一模一样的:动词>名词>副词>形容词>代词>数词>连词>人名>时间词。一直到地名、其他名动词和方位词等才开始有所差别。

  两人动词排名靠前的也很接近:没有、得到、需要,知道。在没有之后,有需要,想得到,也有领会(知道),区别似乎是夕爷的在没有之后是不会恋爱还念着拥抱(靠拥抱亦难任你拥有——《富士山下》),歪闷的是继续恋爱但是害怕没法子(害怕一直也再没法恋爱——《耿耿于怀》)。

  在春夏秋冬里,夕爷跟歪闷都是更爱春秋,自古诗人多伤春悲秋,不同的是夕爷的春秋只相差了10个百分点,而歪闷对春天属于压倒性宠爱,在四个季节里占了一半的比重。

  我仔细想了一下,夕爷是引佛入词,虽然世事无常但是要从中解脱要包容要宽宏,虽然我爱的人不爱我但是我们是朋友还可以问候,你掌心的痣我总记得在哪里,离开你六十年但愿能认得出你的子女。所以正面的歌词文本是要远远超过负面,别忘了,夕爷还有《快乐崇拜》、《wuha》、《北京欢迎你》之类积极向上的歌曲(扶额)。而歪闷呢,更注重坦白内心的疮疤,虽然血迹斑斑但是要迎刃而解,我爱的人不爱我所以我渡日月穿山水仍在恨那谁,你没有好结果,来让你一生最喜欢和珍惜那人也摧毁你一生完全没半点恻隐但是我为我生存明日我必须振作,活得比你好,因此可以说表达的正负面意义是一半一半。

http://dolphinfixtures.com/wenbencaijue/133.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有