Работа продолжается, 1 часть
Dec. 6th, 2007 11:06 pmМой текст был по техническим причинам изменён и сокращён. Я здесь помещу полный текст, несколькими частями.
................................
Работа продолжается
Настоящая статья представляет собой попытку представить в первом приближении и в общих чертах результаты статистического анализа лексики текстов песен Михаила Щербакова.
Материалом для анализа послужили тексты 280 песен, написанных в период между 1981-м и 2005-м годами, в разном виде опубликованные автором.
Базовая обработка исходного массива была проведена Сергеем Трифоновым с помощью программных средств компании «Яндекс», с последующей детальной доработкой в «ручном режиме».
Нужно отметить, что результаты анализа нельзя считать совершенно точными, в силу прежде всего изначально условной регламентированности самого языка вообще, и художественной речи в особенности. Семантическая неоднозначность некоторых слов сделали затруднительным более точный учет: во многих случаях разные по смыслу слова учитывались как одно, в том числе из-за невозможности выделить приоритетное значение. Например, слово «великий» (как большой и как значительный), «небеса» (как небосклон и как рай), «отвечать» (чему-либо или за что-то), и т.п.
Многозначность служебных слов еще менее поддаётся семантической дифференциации.
Самые короткие песни – «Седьмой трамвай» (69 слов) и «Тема покоя» (71 слово). Самые длинные песни – «Баб-Эль-Мандебский пролив» (596 слов) и «Предположим» (575 слов). Средняя длина песни – 224 слова.
Собственных имен – приблизительно 440 слов. Из них топонимов – около 190 (43% от общего числа имен собственных), личных имен – около 160 (36% от общего числа имен собственных).
Общий объем проанализированного массива – 60687 слов. Для наглядности статистической картины мы построили распределение по следующим частям речи:
- Существительные;
- Прилагательные;
- Глаголы;
- Наречия, местоимения, числительные и нек.др.;
- Служебные слова: союзы, частицы, предлоги и т.п.
Общая картина распределения такова:
Части речи | Общее количество | % от общего количества слов |
Существительные | 15270 | 25,2% |
Глаголы | 10131 | 16,7% |
Прилагательные | 4218 | 7,0% |
Наречия, местоимения, числительные и нек.др. | 14494 | 23,9% |
Служебные слова: союзы, частицы, предлоги и т.п. | 16574 | 27,3% |
|
|
|
ИТОГО | 60687 | |
Если учитывать только различные, неповторяющиеся слова, то картина такова:
Части речи | Количество неповторяющихся слов | % от количества неповторяющихся слов |
Существительные | 5002 | 48,4% |
Глаголы | 2621 | 25,4% |
Прилагательные | 1560 | 15,1% |
Наречия, местоимения, числительные и нек.др. | 1079 | 10,4% |
Служебные слова: союзы, частицы, предлоги и т.п. | 74 | 0,7% |
|
|
|
ИТОГО | 10336 |
|
...................................................
(продолжение следует)