×

Предварительная обработка документов

 
Инструмент предварительной обработки предназначен для замены текста в HTML-страницах, текстовых и других видах файлов. Выполняется сразу после загрузки/считывания (перед извлечением email-адресов).
 
Включить данную опцию можно в окне Настроек программы, на вкладке Предобработка:
 
 
В полях ниже необходимо указать искомый текст, текст замены и условие - имя файла или URL (опционально):
 
 

Пример использования

 
Имеется страница с опубликованным Email-адресом:
 
 
Однако, извлечения адресов не происходит. Заглянем в исходный код страницы, чтобы выяснить причину:
 
 
Мы видим несколько причин и возможных решений:
 
1. Значение href закодировано с помощью Javascript и расшифровка просходит непосредственно в момент клика. Решить данную проблему можно с помощью иммитации клика, но это требует включения эмуляции браузера и значительно замедлит парсинг, поэтому это наименее приоритетный вариант.
 
2. Текстовая часть ссылки также затруднена для распознавания использованием тега <span> и HTML-кодированным символом "@":
Дополнительный анализ HTML-кода страниц показал, что в некоторых случаях присутствует также и случайный перенос строки внутри email-адреса, что также будет являться проблемой для парсера. Добавим следующие правила:
 
 
Первое правило работает для всех URL-страниц (символ *), и заменяет все вхождения <span>&#064;</span> на символ собачки @
Второе правило работает также для всех URL-страниц и удаляет символы перевода каретки \r и \n (заменяет на пустую строку)
 
Сохранив настройки и запустив парсер по URL, мы успешно соберем результаты: