[-]

早在1969年,就有两名伊利诺大学的心理学家开始研究,不同文化中人们使用词汇的方式。结果表明,不管使用何种语言,人们更喜欢使用带正面色彩的词汇。

这一发现印证了“波莉安娜假说”-源自埃莉诺.霍奇曼.波特1913年出版的同名小说《波莉安娜》,女主角在任何环境中都没停止过寻求幸福的脚步。

尽管很出名,但由于数据采集量相对较小,这项研究并不是很让人信服,作为一个参考还可。实际上,还有其它无数类似研究表明,恰恰相反,人们更喜欢用带消极色彩的词汇。

所以,我们需要一个数据充分全面的研究来摒弃质疑。美国佛蒙特大学的Peter Dodds,同其他一些能人志士一起为我们揭开了面纱。

他们从全球24中语言中,收集了100000个词汇,并统计了这些词汇中正面和负面词汇出现的频率。这个拥有坚实数据基础的研究同样印证了“波莉安娜假说”。“全球范围来看,人们更倾向于使用正面词汇。”,他们说道。

研究初期,他们为10种语言构建了语料库,这些语言包括:英语,西班牙语,法语,德语,巴西葡萄牙语,韩语,汉语,俄语,印尼语和阿拉伯语。再从每种语言中挑选10000个最常用的词语。

随后,团队聘请母语人士为这些词语评级,等级为从最积极或悲伤-最消极或快乐。从而他们得以采集到每个词语多达50个的评分等级,进而建立了拥有5百万个元素的庞大数据库,在这个基础上制图发现了每种语言的“幸福程度”。

[-]

结果也很令人喜悦。每种语言的积极倾向都很明显。其中,西班牙语位居榜首,随后是葡萄牙语和英语,汉语垫底。“词语-自然语言的原子-展示了自身的情感光谱,无疑都偏向积极。”,他们谈到。

这只是Dodd团队小试牛刀的成果。他们随即将这些发现作为“镜头”,窥探小说作品的情感。研究的主要方法就是,统计小说每段中积极和消极词汇出现的频率,以此作为判断依据。

最终发现,像《白鲸记》和《罪与罚》这样的著作更倾向于“消极”,而《基督山伯爵》则相对“积极”。这或多或少和人们的阅读感受相吻合。

[-]

为了让每个人都能印证这一发现,这个团队还上线了一款在线工具,并且提供了大量著名小说,让大家对小说词汇是积极还是消极一探究竟。地址在这里(http://www.uvm.edu/storylab/share/papers/dodds2014a/index.html),只需20分钟就可以玩转。(可能是个不错的语料库)

同时,这个网站还提供了相同词汇,在不同语言中的比较,相当有趣。例如,若以1-9作为幸福程度,“gift”在德语里的等级是3.54,显得有点消极,而在英语里却高达7.72。

[-]

这项颇具玩味的研究表明,人类语言倒向的是积极一面。这与心理学家的大量研究也相吻合:生活中“积极”的角色更加重要。比如,我们对美好的信息记忆往往比令人不快的记忆更准确。

这项研究同时也引发了新课题。例如,何种原因导致了各种语言的“幸福”差异。为何汉语排名低于德语和葡萄牙语?又是为何西班牙语排名最前。

或许这些答案都将在不久的将来揭晓。但Dodds和其同仁们的成果,无疑向大众展示了:进行“众包”研究时,数据挖掘的巨大威力,可以帮助心理学家和语言学家达到事半功倍的效果。

将“众包”研究与数据挖掘结合,这当然不是个例。但这为其它类似研究提供了参考。比如,在Twitter通过情感分析,挖掘大众的政治倾向。

显然,科技彻底改变了社会科学家,心理学家和人类学家的研究方式。计算机科学和社会科学将碰撞出如何绚烂的火花,我们拭目以待。

本文译自 Medium,由 claudio 编辑发布。

[ 广告 ]
赞一个 (3)

PREV :
NEXT :