Изменение русской лексики за последний век: исследование ко Дню словаря

22 ноября родился Владимир Даль, составитель «Толкового словаря живого великорусского языка», — в день его рождения в России празднуют День словаря.

К этому дню Яндекс приготовил подарок для всех, кому интересен русский язык и его развитие. В фокусе исследования — изменения в лексике в период с первой половины XX века до наших дней.

Материалом для изучения стали статьи и комментарии на Яндекс.Дзене и тексты из собрания центра Прожито Европейского Университета в Санкт-Петербурге — дневниковых записей, сделанных с 1900 по 1940 год.

Аналитики компании вместе с лингвистами нашли такие слова, частотность или контекст употребления которых в двух корпусах сильно различались.

«Слова не только уходят, язык постоянно пополняется новыми словами. И дело не только в том, что появляются вещи, которые надо как-то называть (парковка, кроссовки, чипсы). Есть и такие слова, к которым мы давно привыкли, но которых всего сто лет назад ещё не было в русском языке — во всяком случае, они не встречаются в текстах из корпуса Прожито, — комментирует Борис Иомдин, заведующий сектором Института русского языка им. В. В. Виноградова РАН. — Бывают и другие изменения: слово не уходит, но сильно меняет своё основное значение. Чтобы найти такие примеры, аналитики Яндекса сравнивали лексические окружения каждого слова в двух корпусах — то есть проверяли, насколько изменился контекст его употребления».

Борис Иомдин приводит примеры:

«Часто заменяются глагольные приставки: проконспектировать > законспектировать, выкупаться > искупаться, срепетировать > отрепетировать, вздорожать > подорожать, расцеловаться > поцеловаться (приставка по- вообще используется теперь существенно чаще). Уходят многие слова с суффиксами, выражающими абстрактное значение свойства или процесса: дрянность, талантливость, весёлость, отобрание, напечатание. Как ни странно, уходят некоторые феминитивы: делегатка, консерваторка, музыкантша, домовладелица, жилица».

Вместе с исследованием Яндекс публикует датасет, который содержит информацию, как менялся русский язык с первой половины XX века. Эти данные можно использовать в научной работе.

Списки датасета можно скачать:

    1000 уходящих и ушедших слов (https://yastatic.net/s3/milab/2021/old-words/data/RussianOldWordsDataset.zip)
    1000 слов — недавних приобретений (https://yastatic.net/s3/milab/2021/old-words/data/RussianNewWordsDataset.zip)

Вам может быть интересно:

«Почему нельзя сказать то же по-русски?», или О мифе порчи языка заимствованиями.

Источник: 22century.ru

Добавить комментарий