记一个歌词热度预测引擎的意外诞生

2019-05-29

起因:

在某一个周末,跟在凡影的工作的前同事小航聊天,说到电影咨询的一些市场基本情况。有一个重要业务是通过问卷调查,研究即将发行的电影,是否受欢迎;也提到现在的剧作者,越来越重视消费者喜欢看什么,IP创作从极个人化的方式向市场导向转变。我结合之前做音乐个性化推荐的经验,提出了一个通过分析剧本的文本,在拍摄之前就大致预测受欢迎程度的思路。

北京凡影科技有限公司(凡影Fanink),电影行业专业的调研公司,很多电影都是他们的客户,比如《流浪地球》

思路:

基本思路是这样,通过分析影史 top1000 的电影剧本得出受欢迎剧本的基本特征,结合对大众对故事性的一般理解和时下风尚,就可以预测新剧本是否欢迎,同理还可以用作网络小说的预测。

什么是好剧本?

一个好剧本,应当是剧作者具备相当的文字功力,会讲故事,台词废话少,能用合理的篇幅表达人物和冲突,总结起来应该具备下面几点:

人物突出

节奏合理

情感传达到位

怎么从剧本文本中判断?

从好剧本的要素来看,需要通过剧本文本判断出很多内容:

通过获得大量的剧本文本,通过机器学习的技术,剧本本身的一些规范以及开源的各种NLP库支持,应该是可以识别出来的,我找到了小伙伴振民和晓峰,说起这个基本思路,他们觉得可以业余时间试试看。

阻碍:

现实还是骨感的,我们都不是这个行业里的人,资源和思路上都有局限性。

1、一个电影或者电视剧的流行,剧本很重要,但也只是其中一部分,还要考虑导演、演员、宣发等各要素。2、优秀的剧作者不需要这种机器分析。3、最关键的,我们拿不到大量的剧本素材,机器学习无从谈起。

思路转变:

既然剧本拿不到,就只能找一个替代品,我想到的是字幕。字幕文件里有对话文本和对话发生的时间,更接近电影播放时给观众的感受。如果将视频的整个时长当作一条时间线,可以这么看:

1、对话发生的时间区间,将对话发生密集的位置,当作视频核心场景。2、在核心场景中,计算台词的密度。3、分析人物数量是比较困难的,准确的需要通过剧本或者分析视频获得。4、对话中包含大量“你”、“我”、“我们”等代词,可以用来分析对话。

代价也是有的:

1、字幕不包括人物名称,需要单独分析,有相当难度。2、大量影片的出彩之处是演员的肢体语言和表情,没有台词,也就没有字幕可以分析。3、场景切换也需要通过其他方式来识别,除非排除“场景”这个要素对剧本质量预测的影响。

实际上,如果有弹幕数据支持,这个分析会更好做,那是B站的活。

工作:

主要的工作都是用振民同学完成的,我们指定了目标网站,购买了服务器,他写了爬虫,去获得字幕和电影评分等数据。其中的过程略去不表,倒是有几个发现:

1、字幕大佬射手网停了,原有的电影和电视剧字幕,也被用作深度学习的训练材料,不过是翻译方向的。2、并非只有我们想到了分析剧本这个方向,优酷认知实验室有一个叫做鱼脑团队也在做。

不太好的结果:

还是因为我们并没有这方面的经验,彼此的时间也都不可控,断断续续进行了一段时间,进展不理想,距离分析预测剧本还差很远。这不是一个文本相似度的简单计算,而是剧本内容的高度抽象,不花时间思考和实验,不会有好结果。

意外插曲:

中间还发生了一个意外,非常有趣。有一天意外(我确实忘记是从哪里)得到了一个几千部电影字幕的压缩包网盘地址,于是兴致勃勃在服务器上下载回来,结果发现是岛国特产电影的字幕,字幕文件名就是车牌号,本着“下都下好了”的精神,我们决定聚类一下看看会出现什么情况,振民同学在排除掉高频无意义的词之后,得到了28个分组的结果,当然分组内容很有意思,也大都是不可描述的词语。

再次转变的思路:

剧本和电影字幕太复杂了,我们决定从我最熟悉的歌曲角度入手重新设计,歌曲的歌词字数少,对歌曲受欢迎程度的影响更大,且LRC格式的歌词,同样有时间标记。我们干了下面几件事情:

1、因为过去长期在数字音乐领域,很容易就得到了大量的歌词文件。2、爬了某音乐网站引以为荣的歌曲评论文本。

总的来说,基本假设是歌词的质量和情感倾向,是影响歌曲流行程度的重要因素。歌曲评论的情感倾向,与歌词的情感倾向一致性比较强,也就是说歌词写得好,共鸣更多,更易流行起来。少数收到特定事件和文化背景因素影响的歌曲,歌词与评论的情感倾向可能不一致。

结局:

从希望得到一个剧本预测引擎的初始目的出发,一波三折,最后意外得到了一个歌词流行度预测引擎,考虑到歌手、唱片公司、曲风等要素后,最终得到的预测结果,看起来还是比较合理的。

后记:

这是从文本角度分析的思路,如果讲音乐分拆出来旋律、歌词情感和文化倾向、配器等要素,应该会得到更好的预测分析结果。

<< 回首页
Power by 陆++