法语是一种罗曼语,源自拉丁语,是古罗马帝国的官方语言。但是,法语并不是一成不变的,而是随着时间和地理而发生了变化。为了更好地了解法语的演变,一些研究人员利用了计算机科学和数学的方法,对法国历史上的书写方式进行了分析。

这项研究由法国国家科学研究中心(CNRS)和巴黎第六大学(Sorbonne Université)的数学家、计算机科学家和语言学家组成的跨学科团队进行。他们收集了从9世纪到20世纪的法语文本,包括诗歌、小说、报纸、政治演讲等,共计约1.2亿个单词。然后,他们使用了一种称为主题建模(topic modeling)的机器学习技术,来自动识别文本中的主题,并分析它们在不同时期和地区的分布。

主题建模是一种无监督的学习方法,它可以从大量文档中提取出隐藏的主题,并给出每个文档和每个单词对每个主题的相关性。例如,一个关于政治的主题可能包含“国家”、“民主”、“选举”等单词,而一个关于文学的主题可能包含“小说”、“诗歌”、“风格”等单词。通过这种方法,研究人员可以发现法语文本中存在的约150个主题,并观察它们如何随着时间和地理而变化。

研究人员发现,一些主题在特定的时期或地区比较突出,反映了历史和社会的变迁。例如,在18世纪末和19世纪初,与革命和民族主义相关的主题在法国大陆比较流行,而在加拿大则没有。另一个例子是,在19世纪末和20世纪初,与现代主义和象征主义相关的主题在法国首都巴黎比较流行,而在其他地区则没有。

这项研究不仅揭示了法语文本中的主题演变,还展示了计算机科学和数学在语言学研究中的潜力。通过使用机器学习技术,研究人员可以处理大量数据,并从中发现新的知识和模式。这种方法也可以应用于其他语言和领域,为人文社会科学提供新的工具和视角。

这项研究发表在2023年6月15日出版的《自然·人类行为》上。

https://phys.org/news/2023-06-written-france-analysing.html

[ 广告 ]
赞一个 (7)

PREV :
NEXT :