记一个歌词热度预测引擎的意外诞生

2019-05-29

起因：

在某一个周末，跟在凡影的工作的前同事小航聊天，说到电影咨询的一些市场基本情况。有一个重要业务是通过问卷调查，研究即将发行的电影，是否受欢迎；也提到现在的剧作者，越来越重视消费者喜欢看什么，IP创作从极个人化的方式向市场导向转变。我结合之前做音乐个性化推荐的经验，提出了一个通过分析剧本的文本，在拍摄之前就大致预测受欢迎程度的思路。

北京凡影科技有限公司（凡影Fanink），电影行业专业的调研公司，很多电影都是他们的客户，比如《流浪地球》

思路：

基本思路是这样，通过分析影史 top1000 的电影剧本得出受欢迎剧本的基本特征，结合对大众对故事性的一般理解和时下风尚，就可以预测新剧本是否欢迎，同理还可以用作网络小说的预测。

什么是好剧本？

一个好剧本，应当是剧作者具备相当的文字功力，会讲故事，台词废话少，能用合理的篇幅表达人物和冲突，总结起来应该具备下面几点：

人物突出

每个场景中出场的人物数量合理
台词集中在主要人物身上
台词符合人物设定

节奏合理

场景数量合适
台词密度合适
冲突段落位置合适

情感传达到位

台词符合剧本基调
人物情感饱满

怎么从剧本文本中判断？

从好剧本的要素来看，需要通过剧本文本判断出很多内容：

人物数量
人物之间的互动频次
场景数量
场景台词密度
场景情感倾向

通过获得大量的剧本文本，通过机器学习的技术，剧本本身的一些规范以及开源的各种NLP库支持，应该是可以识别出来的，我找到了小伙伴振民和晓峰，说起这个基本思路，他们觉得可以业余时间试试看。

阻碍：

现实还是骨感的，我们都不是这个行业里的人，资源和思路上都有局限性。

1、一个电影或者电视剧的流行，剧本很重要，但也只是其中一部分，还要考虑导演、演员、宣发等各要素。2、优秀的剧作者不需要这种机器分析。3、最关键的，我们拿不到大量的剧本素材，机器学习无从谈起。

思路转变：

既然剧本拿不到，就只能找一个替代品，我想到的是字幕。字幕文件里有对话文本和对话发生的时间，更接近电影播放时给观众的感受。如果将视频的整个时长当作一条时间线，可以这么看：

1、对话发生的时间区间，将对话发生密集的位置，当作视频核心场景。2、在核心场景中，计算台词的密度。3、分析人物数量是比较困难的，准确的需要通过剧本或者分析视频获得。4、对话中包含大量“你”、“我”、“我们”等代词，可以用来分析对话。

代价也是有的：

1、字幕不包括人物名称，需要单独分析，有相当难度。2、大量影片的出彩之处是演员的肢体语言和表情，没有台词，也就没有字幕可以分析。3、场景切换也需要通过其他方式来识别，除非排除“场景”这个要素对剧本质量预测的影响。

实际上，如果有弹幕数据支持，这个分析会更好做，那是B站的活。

工作：

主要的工作都是用振民同学完成的，我们指定了目标网站，购买了服务器，他写了爬虫，去获得字幕和电影评分等数据。其中的过程略去不表，倒是有几个发现：

1、字幕大佬射手网停了，原有的电影和电视剧字幕，也被用作深度学习的训练材料，不过是翻译方向的。2、并非只有我们想到了分析剧本这个方向，优酷认知实验室有一个叫做鱼脑团队也在做。

不太好的结果：

还是因为我们并没有这方面的经验，彼此的时间也都不可控，断断续续进行了一段时间，进展不理想，距离分析预测剧本还差很远。这不是一个文本相似度的简单计算，而是剧本内容的高度抽象，不花时间思考和实验，不会有好结果。

意外插曲：

中间还发生了一个意外，非常有趣。有一天意外（我确实忘记是从哪里）得到了一个几千部电影字幕的压缩包网盘地址，于是兴致勃勃在服务器上下载回来，结果发现是岛国特产电影的字幕，字幕文件名就是车牌号，本着“下都下好了”的精神，我们决定聚类一下看看会出现什么情况，振民同学在排除掉高频无意义的词之后，得到了28个分组的结果，当然分组内容很有意思，也大都是不可描述的词语。

再次转变的思路：

剧本和电影字幕太复杂了，我们决定从我最熟悉的歌曲角度入手重新设计，歌曲的歌词字数少，对歌曲受欢迎程度的影响更大，且LRC格式的歌词，同样有时间标记。我们干了下面几件事情：

1、因为过去长期在数字音乐领域，很容易就得到了大量的歌词文件。2、爬了某音乐网站引以为荣的歌曲评论文本。

总的来说，基本假设是歌词的质量和情感倾向，是影响歌曲流行程度的重要因素。歌曲评论的情感倾向，与歌词的情感倾向一致性比较强，也就是说歌词写得好，共鸣更多，更易流行起来。少数收到特定事件和文化背景因素影响的歌曲，歌词与评论的情感倾向可能不一致。

结局：

从希望得到一个剧本预测引擎的初始目的出发，一波三折，最后意外得到了一个歌词流行度预测引擎，考虑到歌手、唱片公司、曲风等要素后，最终得到的预测结果，看起来还是比较合理的。

后记：

这是从文本角度分析的思路，如果讲音乐分拆出来旋律、歌词情感和文化倾向、配器等要素，应该会得到更好的预测分析结果。

<< 回首页

Power by 陆++