Удаление дублирующих строк в Notepad++
Надо удалить повторяющиеся строки в текстовом файле. Для этого воспользуемся Notepad++.
Прямой функции в Notepad++ нет, но можно воспользоваться некоторыми функциями, чтобы всё реализовать.
Допустим, что у нас есть файл такого содержания:
Первый способ
Запустите окно замены в файле и введите команду:
При этом настройки замены должны быть как на рисунке:
И нажмите Заменить всё . Повторяющиеся строки удаляться. Но при этом останутся не первые варианты строк, а последние повторы.
Второй способ
Если надо удалить повторы так, чтобы оставалось первые варианты строк, а не последние, то тут надо по-другому поступить. Идея простая. Мы меняем порядок строк, а потом просто применяем первый способ, а потом меняем обратно.
Для этого нам потребуется плагин TextFX. По ссылке рассказывается и про его установку.
Итак, нужно сделать следующие действия для изменения порядка строк.
Выделите весь текст Ctrl + A :
Вставьте номера строкам: TextFX → TextFX Tools → Insert Line Numbers :
Если стоит флажок TextFX → TextFX Tools → +Sort ascending , то его убрать:
Отсортируем строки TextFX → TextFX Tools → Sort lines case sensitive (at column) :
Удаляем номера строк TextFX → TextFX Tools → Delete Line Numbers or First Word :
Потом используем первый способ для удаление повторяющихся строк. А потом обратно меняем порядок строк.
Третий способ
Но я бы всё-таки для таких целей использовал бы специализированные средства (ибо, иногда способы в статье немного шалят). Вот два рабочий сервиса, которыми я пользуюсь при случае:
- Notepad++
- Текстовой редактор
- blog
- it
- program
Надо удалить повторяющиеся строки в текстовом файле. Для этого воспользуемся Notepad++.
Надо удалить повторяющиеся строки в текстовом файле. Для этого воспользуемся Notepad++.
7 способов удалить дубликаты строк в текстовых файлах
Простой текстовый файл является одним из наиболее распространенных способов хранения типизированных данных на компьютере. Создать текстовый файл не только очень просто, но и невероятно легко его редактировать, потому что это можно сделать с помощью чего-то простого, например, встроенного в Windows Notepad. Текстовый файл также является универсальным форматом, что означает, что его можно читать на разных платформах, включая ПК с Windows, Mac, Linux, телефоны, планшеты и все, что между ними.
Если у вас есть несколько больших текстовых файлов, которые вам нужно прочитать, или вы объединили несколько текстовых файлов в один, чтобы упростить задачу, имеет смысл удалить любые строки текста, которые дублируют друг друга. Вы можете просмотреть файл вручную и удалить дубликаты самостоятельно, но гораздо проще позволить процессу обрабатываться автоматически. Здесь мы покажем вам несколько различных способов, с помощью которых вы можете удалить дубликаты строк из ваших текстовых файлов.
Используйте стороннюю утилиту для удаления дубликатов строк
Простой и распространенный способ удаления повторяющихся строк из текстового файла – использовать специальную стороннюю утилиту.
1. TextCrawler
TextCrawler – очень мощная бесплатная программа, созданная в основном для поиска и замены данных в текстовых файлах. К счастью, несмотря на свою мощь, TextCrawler все еще относительно прост в использовании, а опция удаления повторяющихся строк фактически находится в отдельном окне, называемом Scratchpad.
Чтобы открыть Scratchpad, установите и запустите TextCrawler и перейдите в меню «Инструменты»> «Скретчпад» или нажмите F2. Вставьте текст в окно и нажмите Делать Кнопка, опция удаления дубликатов должна быть выбрана в раскрывающемся списке по умолчанию, она не выбирается заранее. Затем нажмите Сохранить, чтобы создать новый текстовый файл или скопировать и вставить текст обратно в ваш любимый текстовый редактор. В раскрывающемся списке также есть другие параметры для удаления пробелов и сортировки текста в порядке возрастания или убывания.
Скачать TextCrawler
2. Notepad ++
Notepad ++ – это многофункциональный текстовый редактор, но он не имеет встроенной функции удаления повторяющихся строк, однако эту опцию можно добавить через внешний плагин, который использует Notepad ++. Хотя некоторые из них уже включены, плагин TextFX не установлен по умолчанию и должен быть добавлен вручную.
В строке меню Notepad ++ щелкните Плагины> Диспетчер плагинов> Показать диспетчер плагинов и найдите TextFX символы плагин из списка. Установите флажок, нажмите устанавливать и перезапустите программу, когда будет предложено, и меню TextFX будет доступно. Чтобы использовать функцию удаления дубликатов, загрузите текстовый файл в Notepad ++ и выделите весь текст (Ctrl + A), перейдите в TextFX> Инструменты TextFX и выберите опцию «+ Сортировать только выходные строки UNIQUE (в столбце)».
Вернитесь в то же самое меню инструментов TextFX и нажмите «Сортировать строки с учетом регистра (в столбце)» или «Сортировать строки без учета регистра (в столбце)», выделенное желтым цветом выше. Это удалит дубликаты строк и либо оставит, либо удалит строки с другим регистром. Затем сохраните файл снова.
Скачать Блокнот ++
3. Duplicate Lines Remover
Duplicate Lines Remover от охранной компании NoVirusThanks.org и имеет некоторые полезные функции. По какой-то причине веб-страница программы была удалена с их веб-сайта, но, к счастью, официальная ссылка для скачивания по-прежнему доступна. Доступен только установщик установки, но вы можете сделать программу переносимой с помощью Universal Extractor.
Чтобы удалить повторяющиеся строки, найдите или перетащите файл в окно, нажмите Проверьте и если найдены повторяющиеся строки, нажмите исправлять и выберите имя для сохранения. Вы также можете обрабатывать несколько файлов одновременно, в том числе во вложенных папках, используя вкладку «Сканирование файлов». Имейте в виду, что он автоматически создает резервные копии .bak и заменяет исходные файлы обработанными файлами. Используйте поле маски и добавьте расширение файла, чтобы остановить все, что обрабатывается. Специальная версия командной строки доступна в пакете для более опытных пользователей.
Скачать Duplicate Lines Remover
4. TextMechanic Оффлайн
Отдельная часть имени предназначена для того, чтобы отличать этот инструмент от онлайновой службы TextMechanic, поскольку они не связаны между собой. Этот инструмент является переносимым исполняемым файлом и размещен на SourceForge. В дополнение к удалению повторяющихся и пустых строк, TextMechanic Offline также может удалять строки, содержащие определенный текст или находить и заменять текст.
Вставьте текст, который будет обработан, в окно TextMechanic, прежде чем нажать «Удалить дубликаты строк", А затем"Удалить пустые строки». Если вы не нажмете обе кнопки, текст будет содержать пустые строки, в которых были удалены дубликаты. Наконец нажмите «Сохранить в буфер обменаТаким образом, исправленный текст можно вставить обратно в ваш текстовый редактор. Этот инструмент чувствителен к регистру, поэтому строки должны быть идентичны как по регистру, так и по содержанию, если они должны быть удалены.
Скачать TextMechanic Оффлайн
Удалить дубликаты строк с помощью встроенных команд Windows
Используя смесь встроенных команд Windows, можно удалить дубликаты строк из текстовых файлов.
5. Использование пакетного скрипта
Объединение этих команд в единый пакетный скрипт позволяет быстро и легко выполнять обработку. Это также может быть полезно, если на вашем компьютере есть какие-либо ограничения на использование стороннего программного обеспечения. Используемый нами скрипт был найден в StackOverflow и изменен для упрощения работы.
Просто загрузите файл DeDupe Zip и распакуйте его, внутри находятся два файла BAT, один из которых чувствителен к регистру и не будет изменять строки, если только их регистр также не идентичен, а другой скрипт не учитывает регистр. Чтобы удалить дубликаты строк в файле, все, что вам нужно сделать, это поместить текстовый файл в файл .BAT, и он автоматически обработает и выведет файл в той же папке с суффиксом _deduped. Линии не переупорядочиваются, а удаляются на месте, идеально, если вы хотите сохранить тот же порядок строк, что и у оригинала.
Скачать пакетные файлы DeDupe
Удалить дубликаты строк, используя онлайн-сервис
Есть много онлайн-сервисов для удаления дублирующихся строк из текста, мы выбрали пару, которая должна удовлетворить ваши потребности.
6. TextMechanic
Не путать с инструментом TextMechanic Offline, который не имеет отношения, этот веб-сайт имеет множество различных онлайн-инструментов для работы с текстом. Помимо удаления только повторяющихся строк, если вы хотите, чтобы все другие инструменты были доступны одновременно, используйте Блокнот управления текстом «все в одном».
Есть два способа вставить текст в окно: либо воспользуйтесь кнопкой «Загрузить файл», чтобы найти его, либо нажмите синюю кнопку «С», чтобы очистить текущий текст в окне и вставить свой собственный текст. Затем нажмите кнопку «Удалить дубликаты строк». , чувствительность к регистру и удаление пустых строк доступны для проверки, если ваш текст требует этого. После этого нажмите кнопку «Сохранить как» или нажмите S, чтобы выделить весь текст, щелкните правой кнопкой мыши и скопируйте его (или нажмите Ctrl + C), чтобы вставить его в текстовый редактор.
Посетите TextMechanic Удалить дубликаты строк
7. Удалить дубликаты строк
Как и TextMechanic.com выше, на веб-сайте TextFixer имеется множество инструментов HTML, чисел и манипулирования текстом, из которых только одна страница – Инструмент удаления дубликатов.
Вставьте текст для обработки в верхнее окно, нажмите Удалить дубликаты строк Кнопка и результат появится в нижнем окне, готовый для выбора и копирования. Этот инструмент имеет несколько полезных опций сортировки, таких как сортировка в алфавитном порядке или полностью изменяет порядок сортировки. Удаление строки чувствительно к регистру, поэтому одна строчная или строчная буква в строке означает разницу между тем, остается ли она или удаляется.
Блокнот ++ удалить дубликаты строк и сортировать
У вас есть список и хотите удалить дубликаты, быстро и легко?
Одним из возможных решений, свободных и эффективных, является использование Notepad ++ [1], бесплатного текстового редактора, но, вдобавок к этому, оно легкое и предлагает множество интересных функций.
Вам также потребуется установить плагин TextFX. Для этого перейдите на SourceForge [2] и загрузите последнюю версию плагина (рис. 10). Затем вам просто нужно извлечь скачанный архив в папку установки Notepad ++ (рис. 11).
После запуска Notepad ++ вы можете иметь файл, содержащий дубликаты (рис. 1).
Чтобы удалить их, в первый раз убедитесь, что опция «+ Сортировка выводит только строки UNIQUE (в столбце)» (рис. 2), а затем выберите ваши данные (рис. 3).
Как удалить все дубликаты слов на каждой строке с помощью Notepad++?
Я работаю над файлом, содержащим строки с ключевыми словами, а некоторые строки содержат повторяющиеся ключевые слова.
Я хочу сказать Notepad++, что я хочу удалить каждое Дублированное слово в строке. Для этого примера dangerous, будет удалено:
у меня есть куча таких строк, и именно поэтому я ищу автоматизированный способ сделать это.
04.04.2023 12:28 2411
2 ответа
вы можете использовать регулярное выражение для удаления последовательных дублированных слов в строке, однако я не думаю, что можно удалить дублированные слова, которые не являются последовательными (e.g dangerous, hazardous, dangerous ).
используйте это регулярное выражение в окне заменить в Notepad++, и не забудьте выбрать «регулярное выражение» в качестве опции режима поиска ниже:
это регулярное выражение удалит все подряд повторяющиеся слова — будь то 2 дублированных слова или 10 повторяющихся слов подряд: \b(\w+)(. \s+\b)+ .
таже без запятых регекс быть: \b(\w+)(?:\s+\b)+ (может быть полезно для других пользователей).
если вы хотите регулярное выражение специально только для двух дублированных слов (Double), используйте это регулярное выражение: (\b\w+\b)\W+ .
поместите это регулярное выражение в заменить на поле, чтобы сохранить одно вхождение слова (в противном случае все повторяющиеся слова будут удалены): .
эти регулярные выражения исправят ситуацию, подобную описанной в вашем вопросе в качестве примера. Первое регулярное выражение будет работать для каждого числа повторяющихся слов (e.g dangerous, dangerous, dangerous, dangerous, hazardous ), в то время как вторая версия будет работать только для двух дублированных слов (e.g dangerous, dangerous, hazardous ).
Примечание: регулярное выражение будет применяться только к формату, описанному в вопросе, а это означает, что такие форматы, как two words, two words, anotherword , two-words, two-words, anotherword , three words expression, three words expression, anotherword не будет изменено, потому что регулярное выражение к ним не будет применяться.
вот способ сделать работу, это заменит все повторяющиеся слова Эван, если они не являются смежными:
- Ctrl + H
- найти: (?:^|\G)(\b\w+\b),?(?=.*)
- заменить на: LEAVE EMPTY
- проверить обернуть вокруг
- проверить регулярное выражение
- НЕ ПРОВЕРЯТЬ . matches newline
- заменить все
объяснение:
задается вход типа: dangerous,dangerous,hazardous,perilous,dangerous,dangerous,hazardous,perilous