Все способы подсчета слов в документе
Наше бюро считало слова, когда это еще не было мейнстримом (по крайней мере в России). В далеком 2009 году, когда мы открылись, большинство других бюро рассчитывали стоимость перевода по количеству знаков с пробелами, ссылаясь на ГОСТ. Более того, не по исходному документу, а по переводу, но это уже, вероятно, был не гост, а чисто бизнес =). Ладно, это другая история, мы сразу решили считать по словам в исходном документе, чтобы фиксировать стоимость до начала работ, а потом и другие бюро подтянулись.
Итак, за годы работы мы считали слова, наверно, во всех возможных форматах файлов. Делимся советами.
Посмотреть статистику документа
Первый способ — проверить, нет ли в программе, которая по умолчанию работает с форматом вашего файла, статистики. Если речь идет про текстовые редакторы, то статистика есть во всех основных сервисах и программах.
Статистику обычно можно найти в пунктах меню «Вид», «Информация» или других вспомогательных, не относящихся к непосредственно редактированию текста.
Google docs

Microsoft Word

Apple Pages
Вид → Скрыть/Показать количество слов

Libre Office
Сервис → Количество слов

Все примерно то же самое и в других форматах файлов, которые обычно входят в «офисный пакет»: презентации и таблицы.
Скопировать и вставить в текстовый редактор
Это так называемый «костыль» для диковинных форматов файлов или, например, страниц сайта. Подойдет для любого текста, по которому нет статистики, но который можно скопировать. Просто копируете и вставляете в текстовый редактор, который показывает статистику.
А что делать со сканами и фотографиями?
А вот с отсканированными или сфотографированными документами все гораздо интереснее. Тут уже ничего не посчитаешь средствами программ, которые открывают изображения или pdf-файлы, поэтому приходится прибегать к альтернативным способам подсчета.
Распознать документ в OCR-программе
OCR-программа, более известная в народе как «файнридер» поможет извлечь текст с помощью оптического распознавания символов (OCR — Optical Character Recognition).
Не стали писать «распознайте файнридером», чтобы не сложилось впечатление, что такую работу может выполнить только ABBYY FineReader, признанный лидер в этом сегменте. На рынке все же есть другие разработчики, в том числе бесплатные, в том числе онлайн. Пожалуй, наиболее известный проект с открытым исходным кодом (бесплатный) — это Tesseract (по ссылке вы найдете в том числе список программ, например, для ОС Linux), который придумала компания HP, но забросила, чтобы потом ее выкупил Google.
Итак, скан или фото можно распознать, а потом скопировать текст в текстовый редактор, чтобы посмотреть статистику. Существенные недостатки этого подхода: долго, дорого (легкие в освоении программы платные), может не справиться, если качество исходника не очень.

Посчитать по строкам (настоящий лайфхак!)
Если нет времени, а под рукой нет программы для распознавания текста, выполните грубый подсчет по строкам. Это быстрый способ, но с высокой погрешностью. Подойдет для очень грубых подсчетов. Например, мы его используем, когда нужно оценить примерную стоимость, чтобы клиент мог принять быстрое решение: переводить вообще или нет.
Если кратко, то берете 3-5 самых длинных строк и считаете, сколько они содержат слов. Потом считаете среднее арифметическое значение. Потом считаете количество строк и умножаете на среднее значение.

- Кусок текста небольшой, возьмем 4 строки, определим, сколько они содержат слов, и сложим. 15+11+12+12 = 50. Поделим на количество выбранных строк. 50 / 4 = 12.5. Окей, среднее значение есть.
- Теперь посчитаем количество строк. А вот тут важно. Какие-то строки длиннее, какие-то короче. Руководствуйтесь здравым смыслом и объединяйте короткие строки в одну . У нас с объединением получилось 26 строк.
- Последний шаг. Умножаем среднее значение на количество строк. 26 * 12.5 = 325. Получается, что в этом тексте примерно 325 слов.
Это достаточно быстрый способ подсчета для отсканированных или сфотографированных документов до 10 страниц и для изображений ужасного качества, которые точно не распознаются. Больший объем быстрее распознать или посчитать по страницам (но подсчет по страницам подойдет не для всех документов).
Посчитать по страницам
Берется одна страница, производится расчет точного количества слов, который затем умножается на количество страниц.
Как правильно считать слова в тексте






Описание сервиса
SEO-анализ текста от Text.ru — это уникальный сервис, не имеющий аналогов. Возможность подсветки «воды», заспамленности и ключей в тексте позволяет сделать анализ текста интерактивным и легким для восприятия.
SEO-анализ текста включает в себя:
Счетчик символов, подсчет количества знаков и слов в тексте онлайн
С помощью данного онлайн-сервиса можно определить число слов в тексте, а также количество символов с пробелами и без них.
Определение ключей и семантического ядра текста
Возможность нахождения поисковых ключей в тексте и определения их количества полезна как для написания нового текста, так и для оптимизации уже существующего. Расположение ключевых слов по группам и по частоте сделает навигацию по ключам удобной и быстрой. Сервис также найдет и морфологические варианты ключей, которые выделятся в тексте при нажатии на нужное ключевое слово.
Определение процента водности текста
Данный параметр отображает процент наличия в тексте стоп-слов, фразеологизмов, а также словесных оборотов, фраз, соединительных слов, являющихся не значимыми и не несущими смысловой нагрузки. Небольшое содержание «воды» в тексте является естественным показателем, при этом:
- до 15% — естественное содержание «воды» в тексте;
- от 15% до 30% — превышенное содержание «воды» в тексте;
- от 30% — высокое содержание «воды» в тексте.
Определение процента заспамленности текста
Процент заспамленности текста отражает количество поисковых ключевых слов в тексте. Чем больше в тексте ключевых слов, тем выше его заспамленность:
- до 30% — отсутствие или естественное содержание ключевых слов в тексте;
- от 30% до 60% — SEO-оптимизированный текст. В большинстве случаев поисковые системы считают данный текст релевантным ключевым словам, которые указаны в тексте.
- от 60% — сильно оптимизированный или заспамленный ключевыми словами текст.
Поиск смешанных слов или слов в различных раскладках клавиатуры
Данный параметр показывает количество слов, состоящих из букв различных алфавитов. Часто это буквы русского и английского языка, например, слово «стол», где «о» — буква английского алфавита. Некоторые копирайтеры заменяют в русских словах часть букв на английские, чтобы обманным путем повысить уникальность текста. SEO-анализ текста от Text.ru успешно выявляет такие слова.
SEO-анализ текста доступен через API. Подробнее в API-проверке.
Как посчитать слова в предложении?
Бывают такие задания: "Сколько слов в данном предложении?".
Подсчёт будет лёгким, если предложение будет такое: "Светит яркое солнышко".
А если вот такое: "Жили-были по-над речкой тихо-зыбкой дед-бабка"? Как считать? Слова, написанные через дефис, это одно слово или нет? Предлоги и союзы — это слова или нет?
Начну рассказывать о техническом подсчёте слов в предложениях, опираясь на Ваши подробности к вопросу, так будет более просто. В одном предложении действительно может быть и одно слово или два — тогда подсчёт будет элементарным, а бывает и очень много слов, да ещё каких заковыристых (трудно их пересчитать)!
Предлагаю попробовать считать слова в предложении по такому алгоритму:
1.Если в предложении нет слов, которые написаны через дефис (через чёрточку), то можно подсчитать количество пробелов, прибавить к получившемуся числу единицу и получить нужный результат. Это подойдёт тем, кому пробелы кажутся более явно видимыми, чем сами слова. А другой путь — это посчитать количество частей предложения, разъединённых пробелами. Это и будет найденным количеством слов. Легко и быстро.
2.Если предложение при этом отягощено отдельными дефисами, не отделёнными от слов пробелами, то не обращайте на них никакого внимания. Сочтите их за буквы, а не за знаки препинания. Так будет гораздо проще.
3.Есть в русском языке и слова, которые значатся в словарях, как одно слово, но пишутся в виде двух или нескольких частей, которые разделяют пробелы. Например — "В течение долгого года". Что делать, ведь "в течение" — это один производный предлог? Программа "ворд" считает этот предлог за два слова, только что проверила в седьмой версии. Потому что считать его за единое целое программе не хватает интеллектуальности. А мы может, в зависимости от характера и подробностей задания, уподобиться привычному "ворду" или идти по пути лингвистики.
4.Осталось указать на то, что предлоги и союзы технически и лингвистически всегда считаются отдельными словами.
Подсчет слов в тексте
Подскажите, пожалуйста, как правильно считать сколько слов, допустим в таком тексте:
Тут тоже посидит, поглазеет, как у амбаров пеньку вешают или крупчатку ссыпают, – опять ей зевнется, она и рада: прикорнет часок-другой, а проснется – опять та же скука русская, скука купеческого дома, от которой весело, говорят, даже удавиться.
Акцентирую внимание на дефисах и тире, считаются ли они словом? Допустим при чтение, ну или в целом при подсчете слов в тексте.