海明威写作风格背后数据的统计分析
贾斯汀·赖斯,2016年12月13日出版|下载这个!(PDF)
1954年,欧内斯特·海明威获得诺贝尔文学奖。新利体育官网登录根据nobelprize.org网站的说法,“该奖项是为了表彰他对叙事艺术的精通……以及他对当代风格的影响。”
如果你正在读这篇文章,你很有可能对海明威非常熟悉。你可能对他的风格有所了解。你可能读过一些自己也读过海明威的作家,从他们身上看到了海明威的影响力。当你看到上面的引语时,你可能会想:“被动语态。不是很Hemingwayesque。”
然而,无论你对海明威的作品了解多少,都受到一个事实的限制:你只是个普通人:你只能读这么快;你一次只能记住这么多单词。你读海明威的经历是定性的,就像你以传统的线性方式阅读的任何东西一样。
然而,如果你在阅读的同时增加一些计算量呢?与其将单词视为线性发展,不如将它们视为可以在不同透镜下重新排列和重新检查的原子,以寻找有趣的模式?你能开始量化海明威的风格和影响吗?
我们的目标就是要做到这一点。我们将把海明威的散文当作数据。我们将记录他说过的话,计算他的选择,并试图从统计学上理解是什么让海明威成为海明威。
海明威的写作风格
即句子长度
海明威在群居式的新闻报道中形成了自己的风格。在他当学徒的堪萨斯城(Kansas City)报纸编辑部,有一种类似新闻工作者的教义问答,第一条格言是:“用短句。”’”——安德斯·Österling, 1954年诺贝尔奖获奖演讲
海明威的句子真的特别短吗?让我们来看看,当我们把海明威的作品与典型的作品,以及他同时代人最广泛阅读的一些小说(约翰·斯坦贝克的小说)进行比较时,会发生什么愤怒的葡萄, f·斯科特·菲茨杰拉德了不起的盖茨比,马塞尔·普鲁斯特斯万的方式和格特鲁德·斯坦因的爱丽丝·b·托克拉斯自传):
海明威的句子比平均水平少7个单词,所以是的:他的句子是短的。与此同时,普鲁斯特的句子真的非常非常长。
令人惊讶的是,平均的句子在愤怒的葡萄比海明威作品中的平均句子都要短。这让我们很好奇,所以我们决定深入挖掘一下,看看如果我们单独关注海明威的每本书会发生什么。看一看:
在他早期的小说中,海明威比斯坦贝克做得多。然而,随着海明威年龄的增长,他的句子变得越来越长。因此,尽管短句是海明威的特点,但随着他事业的发展,它们对他的作品的定义越来越少。
2字长
“可怜的福克纳。他真的认为伟大的情感来自于伟大的词汇吗?他认为我不知道十美元的单词。他们我都认识。但还有更古老、更简单、更好的词,我就用这些词。——海明威在《海明威爸爸:一本个人回忆录A. E.霍奇纳,1966年
让我们来研究一下海明威所谓的“更古老、更简单、更好的文字”。海明威喜欢非大词(即短词)吗?当我们将海明威和他同时代人的作品的字数频率与典型作品或“平均”作品进行比较时,我们会看到这样的结果:
正如你所看到的,有几篇文章的单字母单词数量特别多。能猜到原因吗?(提示:他们有很多“我”)
在1个单词的碰撞之后,2到6个字母的单词聚集得非常紧密。然而,在7个字母的单词中,海明威和斯坦贝克出现的频率下降,而普鲁斯特、菲茨杰拉德和斯坦出现的频率上升。7个字母以上的单词:这一定是海明威提到的“价值10美元的单词”。他避开他们。斯坦贝克,你会注意到,对它们更避而不谈。
又是斯坦贝克,比海明威更像海明威。值得注意的是,虽然他和海明威是同时代人,但海明威早了十年就开始出版了。斯坦贝克读过海明威,在他的手稿中东方伊甸园他承认海明威“几乎被所有年轻作家,包括我在内,都在盲目模仿”。这些斯坦贝克数据是海明威影响力的证据吗?
如果是这样,我们希望看到这种影响在其他地方,所以让我们看看其他自称海明威崇拜者的作家。我们是否看到了避免使用价值10美元词汇的趋势?如果我们把三位海明威式作家的作品(大睡由雷蒙德·钱德勒,火腿在黑麦查尔斯·布可夫斯基和雷蒙德·卡弗的短篇小说集)我们得到的是:
3词汇丰富
除了思考海明威的文字长度,我们还可以思考他使用了多少不同的单词。他是反复使用同一个词,还是使用同义词来避免重复?
让我们从比较原始词汇量开始:
标题 | 总字 | 独特的词汇 |
---|---|---|
老人与海 | 25747 | 2402 |
了不起的盖茨比 | 44436 | 5337 |
《太阳照常升起》 | 66846 | 4548 |
永别了,武器 | 88371 | 5142 |
爱丽丝…B部 | 91669 | 6395 |
丧钟为谁而鸣 | 162815 | 7894 |
愤怒的葡萄 | 175477 | 8330 |
斯万的方式 | 193468 | 12154 |
典型的写作 | 981716 | 40234 |
正如你所看到的,总的单词和唯一的单词之间有很强的相关性。这是有道理的:一个5个单词的句子比一本1000页的书有更少的独特单词。
我们感兴趣的实际上不是原始词汇量的大小:而是特定段落中独特词汇的比例,这是一种名为词汇丰富.词汇丰富度越高,重复越少。(例如,这个句子的词汇丰富度为1.00,因为没有单词重复。)较低的词汇丰富度意味着更多的重复。海明威的词汇丰富程度如何?
它的低。他的用词是重复的。他不仅使用更短的单词和句子,他还选择反复使用相同的单词。
你可能会注意到,我们的平均写作,或“典型写作”,是由500个不同作者的500篇文本组成的语料库——词汇丰富度高于任何单个作者。这是为什么呢?虽然每个作者使用的词汇都是有限的,但每个作者的词汇稍有不同。一个特定的集合就像一个指纹:它不仅包括它自己的字符、方言和特殊的词汇,而且反映了作者特有的选择模式。当我们研究单个作者时,我们看到的是一个指纹。当我们看平均数时,我们看到的是500个重叠指纹。
这个论点是导致编辑们新牛津莎士比亚把克里斯托弗·马洛列为莎士比亚三部戏剧的合著者,当我们学习特色词汇时,我们会回到这个话题。
四、对话的数量
“海明威作为这个时代最伟大的风格塑造者之一的意义是显而易见的……主要体现在生动的对话以及语言上的推脱,在这些方面,他树立了一个容易模仿却难以达到的标准。”——安德斯Österling, 1954年诺贝尔奖获奖演讲
当我们研究海明威的对话数量时,我们发现:
他不仅使用的对白是一般作家的两倍,而且比我们考虑过的任何海明威式的作家都要多。包括斯坦贝克。因此,虽然短句和短句定义了海明威的风格,但真正使他与他的崇拜者区别开来的是他让人物说话的决定。
海明威避免长词的倾向在他的所有作品中都是一致的,但就像句子长度一样,他对对话的使用也发生了变化。看一看:
中的人物《太阳照常升起》而且永别了,武器谈论同样的数量,说同样的数量。等我们到丧钟为谁而鸣在这部电影中,角色说的多,说的少。最后,在老人与海剧中的角色几乎不说话。
海明威的词的选择
1.词类
既然我们对海明威的风格有了大致的了解——短句,短句,大量的对话,大量的重复-让我们看看我们是否可以在单词本身。海明威的词汇有什么特色吗?我们可以从他的遣词造句中找到什么规律?
首先,我们将把他的话分成几类。如果我们根据词性对每个单词进行标记,我们会发现:
最大的不同是,海明威使用的名词比一般人少,代词更多。这个选择意味着什么?想想海明威书中人物的数量,以及每个人物的用墨量。当谈到主题时,他喜欢广度还是深度?他对代词的使用是如何影响他的选择的?
接下来,注意,海明威用的形容词比一般人少,用的动词多.这些数字是有道理的,因为我们之前观察到:形容词使句子复杂,使句子更长;动词使事情发生,每句话都需要一个动词。较少的形容词意味着较少的描述。更多的动词意味着更多的动作。到目前为止,我们所学习的词类都是构成短句和简单单词的完美成分。
那副词呢?根据上面的图表,海明威的使用量似乎高于平均水平。那不是意味着更复杂的句子吗?这是怎么回事?
要回答这个问题,让我们来看看海明威作品中最常见的20个副词。仅这张表上的词就占了海明威作品中副词总数的70%:
词 | 频率 |
---|---|
向上 | 0.0813…… |
出 | 0.0695…… |
然后 | 0.0670…… |
现在 | 0.0632…… |
下来 | 0.0548…… |
当 | 0.0481…… |
回来 | 0.0431…… |
在哪里 | 0.0348…… |
如何 | 0.0271…… |
在这里 | 0.0252…… |
再一次 | 0.0239…… |
从来没有 | 0.0234…… |
只是 | 0.0228…… |
只有 | 0.0220…… |
好吧 | 0.0211…… |
从 | 0.0189…… |
走了 | 0.0188…… |
是的 | 0.0186…… |
仍然 | 0.0157…… |
总是 | 0.0153…… |
副词通过说明时间、地点、频率或方式来修饰其他词。上面的列表包括时间副词(“then”,“now”),地点副词(“up”,“out”)和频率副词(“again”,“never”),但不包括任何方式副词。方式副词往往以“ly”结尾,当我们想到副词时,方式副词通常是合理的,或可能是臆想的。
当我们统计以“ly”结尾的单词时,我们发现海明威实际上比一般作家使用方式副词的次数少得多(42%).
2词汇特征
“我试着画一个真正的老人,一个真正的男孩,一个真正的海,一条真正的鱼和鲨鱼。但如果我把它们做得足够好、足够真实,它们就意味着许多事情。最难的事情是让事情变得真实,有时甚至比真实还要真实。——海明威在《时间杂志,1954
当你看到上面列出的副词时,你可能会注意到它们不是很有特色。它们可能经常出现在几乎任何一篇文章中。要找到海明威的特色词汇,我们不能只看海明威用得最多的词汇:我们需要看海明威比一般作家用得更多的词汇。从数据上来说,以下是最具海明威风格的动词、形容词和名词:
海明威的定义…… | ||
---|---|---|
动词 | 形容词 | 名词 |
收起来的时候 | 腐烂的 | 苦艾酒 |
示意 | 可耻的 | 苦艾酒 |
平 | 昏昏沉沉 | 袋 |
系固 | 卡其色 | 嘉年华 |
饵 | 闪亮的 | 头盔 |
挂 | 长方形的 | 衬衫 |
飞驰的 | 气色不好的 | 大衣橱 |
划船 | 艰苦的 | 峡谷 |
放松 | 像女人的 | 救护车 |
绕 | 困了 | 轰炸 |
出汗 | 阴暗的 | 狙击手 |
开玩笑说 | 不忠的 | 高原 |
抚摸 | 嫉妒 | 礼宾部 |
浸渍 | 刺鼻的 | 公牛队 |
被误解的 | 红润的 | 疲劳 |
开始 | 血腥的 | 诱饵 |
穿孔 | 朝上的 | 烛光 |
下降 | 拉紧的 | 骡子 |
小费 | 悲观的 | 商场 |
油 | 令人反感的 | 斗篷 |
这是一份令人回味的清单,上面的文字给人的感觉无疑是海明威式的。它还告诉我们什么?虽然这里要讨论的内容太多了,但我们将进行一些观察并思考它们提出的问题。
- 海明威的动词(“拳击”、“抚摸”、“疾驰”等等)是发自肺腑的、活跃的。这对他笔下人物的反思倾向和行动倾向有何启示?关于他作品中的男子气概?
- 海明威的大多数形容词都是悲观的(“腐烂的”、“可耻的”、“不忠的”、“嫉妒的”、“阴郁的”、“令人厌恶的”)。这说明他笔下人物的世界观如何?关于“迷惘的一代”这个概念?
- 海明威的名词集中在喝酒、战争、斗牛和旅行。这些主题是如何定义他笔下人物的日常生活的?它们之间有什么联系?
我们之前看了海明威最常用的副词,但我们把他的特色副词留到了最后。这是因为,除了海明威式的文字,我们也可以看看非海明威特色的词汇——一般作家用得很多的词,但海明威用得很少,如果用的话——这两者在副词类别上的差异是惊人的:
海明威副词 | UnHemingway副词 |
---|---|
急剧 | 一般 |
每人 | 立即 |
横盘整理 | 每天 |
精致 | 显然 |
可怕地 | 此外 |
深情地 | 约 |
取笑地 | 主要是 |
干净利落地 | 很大程度上 |
懒洋洋地 | 在国外 |
讽刺地 | 精确的 |
不知不觉中 | 之前 |
嘎声地 | 在其他地方 |
极其 | 几乎 |
羡慕地 | 大概 |
轻蔑地 | 具体地说 |
命令式地 | 短暂的 |
粗鲁地 | 不可避免地 |
巧妙地 | 不管 |
傲慢地 | 最近 |
顺利 | 部分 |
海明威的大多数副词使动作更加具体(“陡然地”、“微妙地”、“嘲弄地”),而大多数副词他都避免模棱两可的确定性(“一般地”、“显然地”、“大致地”)。选择避免使用“模棱两可”的副词与海明威宣称的目标有什么关系:让事情“比真实更真实”?
海明威的影响
我们已经分析了海明威的写作风格与众不同的部分原因。在我们的最后一部分,让我们看看他的遗产,以及这种风格是如何历经多年而延续下来的。衡量影响力的一种方法是通过谷歌图书来比较对他作品的引用:
这两个愤怒的葡萄而且了不起的盖茨比排名高于海明威的所有小说。有一种情况是这些比海明威写的任何东西都更经久不衰。
然而,除了在出版75周年纪念版时对斯坦贝克有短暂的兴趣之外愤怒的葡萄海明威本人比菲茨杰拉德、普鲁斯特、斯坦贝克和斯坦因更受欢迎,我们可以从谷歌趋势图中看到:
《海明威》的高人气和《老人与海》的低人气是否意味着人们对海明威这个人更感兴趣,而对作家海明威更不感兴趣?还是说,我们正倾向于做我们已经做过的事情,即把海明威的作品放在一起写,而把菲茨杰拉德和斯坦贝克的作品单独写?你能想到我们可以尝试回答这些问题的方法吗?
就拿“海明威式”这个名字来说。它的存在意味着海明威的作品有足够的共同点来创造一个总体印象。我们并不仅仅依赖于这种印象:我们对它进行了检验,发现海明威的写作确实有一些特点。写海明威文集是有道理的。写菲茨杰拉德或斯坦贝克的文集有意义吗?“菲茨杰拉德式”和“斯坦贝克式”甚至是人们使用的词汇吗?不是:
《海明威式》的流行如何影响我们对海明威相对影响力的评估?自20世纪90年代中期以来,它的受欢迎程度急剧下降,这是怎么回事?海明威的影响力在减弱吗?
如果我们添加更多的名字作为背景,我们会发现:
“奥威尔式”和“卡夫卡式”似乎比“海明威式”更能引起共鸣。也许令人惊讶的是,“普鲁斯特”也是如此。
那么,我们该如何评价海明威的影响呢?根据这个人、他的书和他的名字的相对受欢迎程度,我们能得出什么计算结果吗?也许我们只需要回到开始,寻求外界的认可,并注意到海明威获得了诺贝尔文学奖。新利体育官网登录不过话说回来,斯坦贝克也是如此。