Лингвистический анализ: Война и мир. Первый вариант романа (Лев Толстой)
В таблице показаны частоты словопар типа «сглагол+уществительное», «предлог+прилагательное» и т.д. Частота выражена в среднем количестве пары на 1000 слов текста. Вертикаль отражает часть речи первого слова биграммы, горизонталь — второго.
| Существительное | Глагол | Местоимение-существительное | Предлог | Союз | Прилагательное | Наречие | Местоимение-прилагательное | Частица | Местоименное наречие | Числительное | Числительное-прилагательное | Междометие | Часть композита — сложного слова | |
| Существительное | 56.91 | 54.43 | 18.05 | 31.56 | 42.71 | 11.13 | 12.06 | 14.23 | 8.53 | 3.60 | 1.11 | 0.40 | 0.52 | 0.00 |
| Глагол | 40.85 | 23.63 | 25.26 | 37.56 | 23.11 | 10.19 | 11.47 | 10.10 | 6.47 | 3.00 | 1.06 | 0.27 | 0.22 | 0.00 |
| Местоимение-существительное | 15.61 | 32.84 | 7.51 | 7.81 | 10.51 | 5.64 | 8.36 | 4.23 | 9.55 | 2.35 | 0.38 | 0.12 | 0.12 | 0.00 |
| Предлог | 49.50 | 2.05 | 19.90 | 0.73 | 1.00 | 11.59 | 0.61 | 13.87 | 0.15 | 0.04 | 1.24 | 1.08 | 0.02 | 0.00 |
| Союз | 18.18 | 21.85 | 17.13 | 8.50 | 5.12 | 6.37 | 8.82 | 4.82 | 8.72 | 2.88 | 0.35 | 0.11 | 0.04 | 0.00 |
| Прилагательное | 37.76 | 5.05 | 2.08 | 3.17 | 6.65 | 6.56 | 1.17 | 1.20 | 0.96 | 0.34 | 0.11 | 0.03 | 0.07 | 0.00 |
| Наречие | 4.43 | 19.79 | 3.48 | 5.55 | 6.06 | 3.83 | 5.07 | 1.68 | 2.89 | 0.88 | 0.33 | 0.08 | 0.08 | 0.00 |
| Местоимение-прилагательное | 21.52 | 8.37 | 5.12 | 2.67 | 2.01 | 6.56 | 2.25 | 2.07 | 2.60 | 0.71 | 0.23 | 0.11 | 0.04 | 0.00 |
| Частица | 4.24 | 21.34 | 4.31 | 3.14 | 2.55 | 1.78 | 2.50 | 1.42 | 2.11 | 0.81 | 0.19 | 0.02 | 0.04 | 0.00 |
| Местоименное наречие | 0.92 | 3.06 | 1.89 | 0.85 | 2.77 | 0.90 | 1.65 | 0.33 | 2.33 | 0.37 | 0.04 | 0.01 | 0.01 | 0.00 |
| Числительное | 3.64 | 0.37 | 0.09 | 0.13 | 0.16 | 0.44 | 0.10 | 0.05 | 0.05 | 0.02 | 0.17 | 0.01 | 0.00 | 0.00 |
| Числительное-прилагательное | 1.48 | 0.21 | 0.09 | 0.08 | 0.09 | 0.07 | 0.04 | 0.03 | 0.03 | 0.09 | 0.02 | 0.02 | 0.00 | 0.00 |
| Междометие | 0.21 | 0.21 | 0.12 | 0.04 | 0.16 | 0.07 | 0.03 | 0.22 | 0.07 | 0.03 | 0.00 | 0.00 | 0.12 | 0.00 |
| Часть композита — сложного слова | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
Части речи на позициях в предложении
Таблица показывает, с какой частотой употреблены автором различные части на позициях в предложении. Например, ячейка «глагол – 3» показывает с какой вероятностью третье слово в случайно взятом предложении произведения является глаголом. Вероятность выражена в процентах. В каждом столбце максимальное значение отмечено розовым цветом, что позволяет по первым трём-пяти столбцам примерно представить типичное для произведения начало предлоджения. Например, последовательность «местоимение-существительное, глагол, прилагательное, существительное» может быть чем-то вроде «Он срубил старое дерево. »
Князь сказал или где была война. Мой опыт исследования «Войны и мир»
Роман-эпопею Льва Николаевича Толстого «Война и мир» я так и не прочитал до сих — в школе было не интересно из-за «словоблудия» автора, а с возрастом как-то нет времени взяться за такой объемный труд.
Однако решил, что изучить стоит…

Подготовка
Я не вычищал от сторонних слов и знаков (латинских номер частей, номеров сносок и части комментариев), что на фоне почти 400 тысяч слов текста романа, погрешность даже в тысячу слов не даст неверных данных, но я решил минимальную подготовку текста все-таки совершить.
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np
#filename = input(«Введите путь к файлу: „)
filename = # полный путь к файлу
file = open(filename, ‘r’)
text = file.read()
text = text.replace(“\n», » «)
text =text.replace(‘]’,»).replace(‘[‘,»).replace(‘\»‘,»).replace(«,», «»).replace(«.», «»).replace(«?», «»).replace(«!», «»).replace(«)», «»).replace(«(«, «»)
text =text.lower()
words_untill = text.split() # отдельно сохранил роман по словам до всех изменений
Как человеку, работающему постоянно с числами, мне стали интересны следующие вопросы:
1. Самое длинное слово в романе
Узнав от жены, что Лев Николаевич еще тот графоман, решил узнать, каких длинных слов выдумал для романа Толстой.
Итак, ТОП-3 длинных слов.
Первое место (27 букв и дефис) поделили слова сверхъестественно-прекрасное, сверхъестественно-утонченное и непреодолимо-обворожительным:
… Как хороший метрдотель подает как нечто сверхъестественно-прекрасное тот кусок говядины, который есть не захочется, если увидать его в грязной кухне, так в нынешний вечер Анна Павловна сервировала своим гостям сначала виконта, потом аббата, как что-то сверхъестественно-утонченное…
… Француз бывает самоуверен потому, что он почитает себя лично, как умом, так и телом, непреодолимо-обворожительным как для мужчин, так и для женщин. Англичанин самоуверен на том основании, что он есть гражданин благоустроеннейшего в мире государства, и потому, как англичанин, знает всегда, что ему делать нужно, и знает, что все, что он делает как англичанин, несомненно хорошо. Итальянец самоуверен потому, что он взволнован и забывает легко и себя и других.
Второе место (25 букв и дефис) заняло слово однообразно-разнообразными:
… Гусары не оглядывались, но при каждом звуке пролетающего ядра, будто по команде, весь эскадрон со своими однообразно-разнообразными лицами, сдерживая дыханье, пока летело ядро, приподнимался на стременах и снова опускался…
Третье место (24 буквы) заняло слово высокопревосходительство, данное слово в отличие от предыдущих встречается восемь раз, как обращение к фельдмаршалу Михаилу Илларионовичу Кутузову.
2. Самое часто употребляемое слово
Предварительно список был очищен от слов из одной и двух букв, чтобы из циклов сравнений убрать предлоги и короткие местоимения. После первой итерации оказалось, что в ТОП-10 не попадает ни одного существительного из трех букв (меч, зло, тыл и т.п.), и я последовательно подчистил список от трехбуквенных слов, и даже, после дальнейших опытов, — от четырехбуквенных слов.
В списке наиболее часто употребляемых слов оказалось не так уж и много существительных, поэтому пришлось из списка слов романа для дальнейшей оценки убрать слова «только», «когда»,
«чтобы», «теперь», «этого», «которые», «который», «потому», «опять», «вдруг», «очень», «ничего», «своей».
В итоге ТОП-10 популярных слов:
1. сказал — 1411
2. князь — 952
3. время — 544
4. Андрей — 500
5. говорил — 464
6. княжна — 435
7. сказала — 424
8. человек — 391
9. Наташа — 376
10. людей — 372
Так как поиск велся без учета форм слов, для «князь» пришлось отыскать все формы слова. После уточнения данных КНЯЗЬ занял первое место в ТОПе с 1435 упоминаниями в романе, против глагола СКАЗАЛ.
Как видно из списка глаголы СКАЗАЛ(1411) и ГОВОРИЛ(464) в романе встречаются чаще, чем глаголы СКАЗАЛА(424), что говорит о том, что в романе мужчины в 4,5 раза говорят больше, чем женщины (тут слышны обвинения в сексизме в адрес Льва Николаевича), да и КНЯЖНА (435) появляется намного реже КНЯЗЯ.
Так же стало интересно, какое отношение у общества было к Наталье Ильиничне Ростовой aka Наташа Ростова. На протяжении романа она так и осталась Наташей, несмотря на то, что к концу романа Наталья Ростова стала женой Пьера Безухова. Во всех формах Наташа встречается в тексте 591 раз, при этом формы имени Наталья и Натали встречаются всего 9 раз.
3. Где в романе была война?
Не смотря на название, «война» в романе встречается во всех формах только 278 раз.
Я разбил весь роман на участки по 10 тыс. слов и решил проследить упоминания слов «князь», «Наташа» и «война» по ходу романа.

По гистограмме видно, что про князей после всплеска описания войны к концу романа говорят меньше, а все больше вспоминают про Наташу.
Хорошо видна обратная корреляция в распределении зависимости упоминания слов «война» и «Наташа» — чем меньше войны, тем больше Наташи.

Также четко просматривается обратная корреляция в распределении зависимости упоминания слов «князь» и «Наташа».

В распределении зависимости упоминания слов «князь» и «война» не просматривается четкой корреляции, хотя видно, что когда про войну мало говорят, то и про князей не вспоминают, однако это не объясняет большое число упоминаний «князей» в отсутствие «войны».

Необходимо отследить корреляцию по ходу развития повествования.

Как видно из графика, высокая корреляция присутствует только в середине романа, когда в романе идет война, в иных местах романа корреляция низкая, на основании чего можно сделать вывод, что употребление «князя» и «войны» не имеет постоянной корреляции по ходу романа.
Сколько слов в приизведении война и мир?

Сколько было детей у Николая Ростова(Война и мир), как их звали?
Сколько было детей у Николая Ростова(Война и мир), как их звали?

Сколько раз повторяется слово «лиловый» в романе «Война и мир»?
Сколько раз повторяется слово «лиловый» в романе «Война и мир».

Роман : Война и мир?
Роман : Война и мир.
— о каких войнах идет речь?

«война и мир» : Как относятся солдаты к войне?
«война и мир» : Как относятся солдаты к войне?
Понимают ли простые солдаты смысл войны?
Желательно с цитатами, а так хотя бы своими словами )).

Произведение война и мир перечисли всех персонажей из войны и мир?
Произведение война и мир перечисли всех персонажей из войны и мир.

В каких главах описывается партизанская война (война и мир)?
В каких главах описывается партизанская война (война и мир).

С чем ассоциируется слово»Боль» в романе война и мир?
С чем ассоциируется слово»Боль» в романе война и мир?

Найти и подчеркнуть главные слова в отрывке боя Руслана с головой в приизведении Пушкина?
Найти и подчеркнуть главные слова в отрывке боя Руслана с головой в приизведении Пушкина.

Война и мир за сколько можно прочитать 1 главу?
Война и мир за сколько можно прочитать 1 главу.

Кто написал войну и мир?
Кто написал войну и мир.
На этой странице находится вопрос Сколько слов в приизведении война и мир?, относящийся к категории Литература. По уровню сложности данный вопрос соответствует знаниям учащихся 1 — 4 классов. Здесь вы найдете правильный ответ, сможете обсудить и сверить свой вариант ответа с мнениями пользователями сайта. С помощью автоматического поиска на этой же странице можно найти похожие вопросы и ответы на них в категории Литература. Если ответы вызывают сомнение, сформулируйте вопрос иначе. Для этого нажмите кнопку вверху.

Школе дорогой уже 80 лет И всё такая молодая не стареешь, нет. Люблю тебя одну родную, Люблю тебя одну такую, Не постареешь никогда. Воспоминания о тебе останутся всегда Как воспитала ты меня Как учила ты меня науке Не забуду никогда Школа дорогая ..


Честь — это достойные уважения и гордости моральные качества человека ; его соответствующие принципы. Честь может восприниматься как относительное понятие, вызванное к жизни определёнными культурными или социальными традициями, материальными причина..

Жирный глаза зелёные а волосы так себе.

Плохое, он не мог заснуть из — за недосыпа же умер потом в своей холодной постели.

Александр Сергеевич Пушкин написал «Сказку о царе Салтане» в 1831, и спустя год её увидели вышедшей в свет. Это и стало началом популярности, большой известности, ведь её полюбили многие читатели. Несмотря на то, что с года создания прошло уже боль..

Постоянная доброта может творить чудеса. Подобно тому как солнце может растопить лед, так и доброта изгоняет непонимание, недоверие и враждебность.

Вільфрел Айвенго — головний герой твору. 1. Походження героя. (Айвенго належав до шанованого старовинного роду саксів. Його батько — Седрік Сакс — представник тієї частини знаті, яка не бажає коритися норманам і мріє про відродження своєї незалежн..

И так представляем вашему вниманию самую классную сказку колобок. Здесь вы узнаете что с ним случилось и у нас есть продолжение сказки. Так что не пропустите. Ждём всех.

Бородинская битва была главным сражением в войне 1812 года. Впервые была развеяна легенда о непобедимости армии Наполеона, и внесен решающий вклад в изменении численности французской армии за счет того, что последняя, из — за масштабных жертв, перес..
Тверской институт экономики и менеджмента
Роману «Война и мир», занимающему в художественном наследии Л.Н. Толстого центральное место, посвящено бесчисленное множество статей и монографий, в которых это произведение подробно рассмотрено в самых разных аспектах.
В данной работе изложены результаты определения основных статистических характеристик текста этого произведения. В табл. 1 приведены общие данные о файле (формат WORD 2000) с текстом романа.
Результаты подсчета числа русских, французских и немецких слов, которые содержаться в романе, за вычетом слов сносок, приведены в табл. 2.
Выделив в отдельный файл только русский текст, подсчитывали частоту, с которой встречаются в тексте слова той или иной длины. Результаты в виде полигона частот распределения длины слов показаны на рис. 1. Обращает на себя внимание большая доля слов, имеющих длину 6 и менее букв. Таких слов в тексте романа почти 70 процентов. Характерной особенностью полигона является относительный минимум при длине слова 4 буквенных знака. Слова, состоящие из 14 и более букв встречаются в тексте очень редко. Самое длинное слова состоит из 24 букв. Это специфический термин – обращение той эпохи: «высокопревосходительство».
Рис. 1 Полигон распределения длины слов
Анализ, подобный изложенному, для французских и немецких слов не проводился, так как они составляют незначительную часть текста романа (менее 3 процентов).
На рис. 2 показан полигон распределения длины предложений по числу входящих в них букв, а на рис. 3 – по числу входящих в предложения слов.
Рис. 2 График распределения длин предложений (букв)
Рис. 3 График распределения длины предложений (слов)
При подсчетах числа предложений той или иной длины ни французские, ни немецкие слова не исключались, в тех случаях когда они входят в состав предложений, состоящих преимущественно из русских слов.
Общее число предложений в романе составляет 31566, включая предложения целиком состоящие из французских или немецких слов.
Результаты статистической обработки выборок слов и предложений приведены в табл. 3, в которой приняты следующие обозначения: x ср – среднее значение, D – дисперсия, E – эксцесс, A – асимметрия.