暴挖337万字,大数据告诉你郭敬明和韩寒的小秘密!

2017-08-23 01:57

有人的地方就有江湖,有江湖的地方就有潜规则。武术圈如此,作家圈亦是如此。

 

作家郭敬明又上热搜了,虽然又不是什么好事。本着看热闹不嫌事儿大的心态,干脆连他的「老对手」韩寒也一起拉下水。今天就从数据角度对两人十几年的写作生涯进行多维度解析,找找他们笔下的趣闻与秘密。

                                                                             

 

在郭敬明的微博认证信息上,写着:作家、导演、出版人、主编

 

在韩寒的微博认证信息上,写着:作家、赛车手韩寒

 

两人虽然都在名利场沉浮多年,鳞爪涉及不少领域,特别是近年来在电影界大有作为。但二人不约而同地选择作家作为自己第一身份。 

 

整理了两位作家出道以来所出版的小说和文集,如图所示:

 

/ 作品信息仅收录小说及文集 /

 

 

 

除去各种抄袭、代笔的纠纷不谈,二位都是实打实的高产写手。但你知道以上作品热度几何吗?两人究竟谁更受读者关注?

 

为了直观地比较两位作家的作品热度,分别在搜狗搜索引擎输入「作品名+作者名」,记录其反馈的数据结果。

 

注:为减少误差,系列小说记为一个作品。例如《临界·爵迹Ⅰ》《临界·爵迹Ⅱ》关键词设置为「爵迹 郭敬明」。

随后,对两组数据取平均数,郭敬明作品的平均热度为17421,韩寒作品的平均热度为26518。

 

如此看来,韩寒的作品热度更高一点,这似乎与大家印象里「郭敬明更火」的判断有所不同。

 

大家的留言中,纷纷讨论到郭敬明的三观问题。一般来说,一个人经常使用的文字,会暴露他对社会的认知倾向。

 

搜集了二位出道以来的主要作品,试图进行一番全面的文本挖掘,以此窥视他们的内心秘密。

 

由于时间跨度大、政策限制等因素,部分书籍已经难以找到例如韩寒的《脱节的国度》、郭敬明的《迷藏》等书籍),最终共找到30部作品,总字数约为337万字。

 

其中郭敬明12本,174.4万字;韩寒18本,162.9万字。

 

 

 

在确定文本资料后,要对这337万字进行量化处理经过一番苦战之后,共拿到87310个字词。删除「我说」「觉得」「东西」等无意义词,分别两人的TOP500关键词生成了肖像词云图:

郭敬明与韩寒的肖像词云图 /

如图所示,两人十余年的写作生涯似乎都浓缩在这两张看似简单的词云图中。看不清?没关系,这里会为大家抽几个重点一一解读。

 

正所谓「语言是思维的外壳,思维是语言的内核」,我们对两人作品中字词的使用频率进行统计,可以从侧面对两人的性格情感进行画像。

 

 

 

/ 颜色篇:郭浓烈,韩冷淡 /

 

在两人的作品中,对颜色的词语提及量有巨大的差异。

 

在郭敬明的文字世界中,世界是丰富多彩的,充满黑白红这样的夺目色彩。

 

而韩寒对颜色类词汇的使用非常吝啬,他似乎在追求一种纯净的、几近透明的感官世界。

 

 

 

/ 季节篇:郭爱春,韩厌夏 /

 

在最喜欢的季节上,两人不约而同地选择了生机盎然的春天。

但在讨厌的季节上,两人的选择却不同。相对而言,郭敬明比较讨厌秋天,而韩寒讨厌夏天。

 

 

 

/ 时刻篇:都是夜猫子 /

 

我们再来分析一下时间韩寒和郭敬明分别喜欢一天中的哪个时辰呢?

 

通过观察词频,产生一个疑问:是不是所有的故事情节都喜欢发生在月黑风高之时

 

特别是韩寒,「晚上」这一词的提及量竟然高达398,比排名第二的「下午」高了近4倍。不知道现实中二位作家是否也是夜猫子呢?

 

 

/ 时态篇:郭怀旧,韩盼新 /

 

曾经有一篇文章分析了民谣歌手是在向前看还是在向后看,是寄希望未来还是缅怀过去。结果特别有趣,大部分民谣歌手都是歌唱明天,而不care当下。

 

那么对韩郭二位来说,他们的情感寄托在哪里?

 

如图所示,除了遥遥领先的「今天」之外,在「昨天」和「明天」的选择上,两人刚好相反。似乎看来韩寒喜欢畅想未来,而郭敬明更留恋过去

 

 

 

 

/ 情感篇:郭奔放,韩保守 /

 

最后是对两人情感的分析。两人笔下的痴男怨女们都有着怎样的情感世界呢?

 

罗列出代表「喜怒哀乐爱恶欲」七种情感的词汇,并计算这些词在文章中的提及量。

 

在去除「喜乐」人名这样明显属于干扰的词汇之后得到了这样一幅图:

 

 

从图中可以看到,在表达哀、乐、喜三种情感上,两人有较大差异。这是为什么呢?

 

原因出在了「笑」「哭」这两个字上。「笑」在郭敬明的作品中出现了2861次,在韩寒作品中出现了1118次。「哭」在郭敬明的作品中出现了755次,在韩寒作品中出现了211次。

 

看来,郭敬明的喜怒哀乐七情六欲都比韩寒强烈得多。

 

同样,一位作家的写作风格,也是他性格和情感世界的作用体现。

 

/ 分段篇:郭琐碎,韩完整 /

 

首先,我们从最简单的段落数开始分析。把两人作品分别放置到Excel表格中,每一段落记一行。

在去除低于5个字符的段落后(若段落字数低于5个字,则极大可能是无意义段落),统计得出:在这337万字中,韩寒共有17778个段落,郭敬明共有24707个段落。

 

 

 

比较有意思的是,尽管两人的作品总字数相差只有12万,但段落数上却有巨大的差异。我们也可以顺便计算出每段的平均字数:韩寒平均每段有91.6个字,郭敬明平均每个段落有70.5个字。

 

如此看来,韩寒更喜欢用大段大段的文字来表述自己的观点,而郭敬明热爱分段,文风较琐碎,表达更感性。

 

 

/ 句子篇:郭爱长,韩爱短 /

 

然后是对于句子的分析。文字君在段落统计的基础上,通过Excel表格对两人作品中的所有段落进行分列处理,每个句子记作一行。

同样在去除影响因素后,结果显示,韩寒的作品约有45000个句子,平均每个句子35字;郭敬明的作品约有44000个句子,平均每个句子39字。

 

 

 

/ 对话篇:郭话痨,韩话少 /

 

分析完了段落和句子之后,文字君决定再对两人作品中的对话进行分析,看一看谁更像话痨呢。

对话的数量可以通过对引号的使用次数进行预估。

根据统计,在韩寒作品中,共出现对话6420次,占总句子数的14.1%;在郭敬明作品中,共出现对话10093次,占总句子数的22.7%。

如此看来,结果似乎不言而喻了——郭敬明笔下的人物要健谈得多。

 

 

/ 作品篇:三重门vs小时代 /

 

以上是对两人共计337万字作品的分析,如果我们把范围缩小到某一部小说,结果会不会更有趣呢?通过对两人所有小说搜索热度的统计,挑选出最具代表性的两部作品:《三重门》《小时代》

 

 

                                     / 《三重门》高频词词云图 /

 

 

                                   / 《小时代》高频词词云图 /

仔细分析了上面两幅词云图之后,发现一个很有意思的现象:我们甚至不用看原著,仅从这些高频词汇中,就可以大致猜测到小说在讲述什么

 

 

例如在《三重门》中,故事是围绕「林雨翔、罗天诚、马德保、Susan」等人发生的,因为他们的名字提及次数最高;

故事主要发生在校园,因为「学校、老师、校长、寝室」这样的词提及次数比较高;

主要人物应该很喜欢写作或者有不错的文学才华,因为「文学社、文学、社长、文章」这样的词提及量也很高。

 

 

 

至于《小时代》,我们可以猜测它的故事情节会比较复杂,因为它出现的人物很多:唐宛如、顾源、顾里、林萧、南湘、Kitty、周崇光、袁艺、简溪……

小说对人物心理情感及动作神态的刻画非常细腻,因为「表情、眼睛、眼神、目光、轻轻地、望着」等词频繁出现;

另外,我们还能够看出,这本小说的主要关注对象是女性。因为除了主要人物名字多是女性之外,「穿着、精致、模特、衣服、漂亮、尖叫」等和女孩子相关性比较强的词出现的频率也很高。

 

大数据就玩到这里,结尾简单跟大家聊几句韩郭二人。同为80后代表性作家,文风却大相径庭,二人屡屡被拿来对比参照,由此衍生的恩怨情仇成为长盛不衰的话题,只要其中一个上了热门,另一个就难免躺枪。

 

 

这些年,韩寒从田字格中跳出,选择了赛车道,又从赛车道跑到了电影;郭敬明的生意以从小说做到杂志,最后也扎进电影业。两人一路「折腾」,似乎又殊途同归

百闻

聚焦社会各种动态,内容以中国社会发生的热点事件为主,汇集各地奇闻趣事、民俗文化、风土人情等内容。

评论

【声明】评论应与内容相关,如含有侮辱、淫秽等词语的字句,将不予发表。

推荐阅读