Предварительная обработка документов
Инструмент предварительной обработки предназначен для замены текста в HTML-страницах, текстовых и других видах файлов. Выполняется сразу после загрузки/считывания (перед извлечением email-адресов).
Включить данную опцию можно в окне Настроек программы, на вкладке Предобработка:
В полях ниже необходимо указать искомый текст, текст замены и условие - имя файла или URL (опционально):
Пример использования
Имеется страница с опубликованным Email-адресом:
Однако, извлечения адресов не происходит. Заглянем в исходный код страницы, чтобы выяснить причину:
Мы видим несколько причин и возможных решений:
1. Значение href закодировано с помощью Javascript и расшифровка просходит непосредственно в момент клика. Решить данную проблему можно с помощью иммитации клика, но это требует включения эмуляции браузера и значительно замедлит парсинг, поэтому это наименее приоритетный вариант.
2. Текстовая часть ссылки также затруднена для распознавания использованием тега <span> и HTML-кодированным символом "@":
Дополнительный анализ HTML-кода страниц показал, что в некоторых случаях присутствует также и случайный перенос строки внутри email-адреса, что также будет являться проблемой для парсера. Добавим следующие правила:
Первое правило работает для всех URL-страниц (символ *), и заменяет все вхождения <span>@</span> на символ собачки @
Второе правило работает также для всех URL-страниц и удаляет символы перевода каретки \r и \n (заменяет на пустую строку)
Сохранив настройки и запустив парсер по URL, мы успешно соберем результаты: