Массовый парсинг email адресов по списку URL или ключевым словам
Вы можете использовать инструмент извлечения email адресов с сайта, чтобы произвести обход конкретного сайта. Базовая функция поиска по ключевым словам позволяет быстро запустить новый поиск. Инструмент массового поиска предназначен для обработки нескольких сайтов, или более точного парсинга по ключевым словам.
Чтобы запустить инструмент массового поиска, щелкните на кнопку "Поиск по списку".
Способ 1 - По списку доменов/URL-адресов
Укажите список URL адресов или доменов для обхода. Программа перейдет по ссылкам, загрузит страницы, и извлечет email-адреса и другие контакты. В параметре Глубина обхода вы можете указать, загружать ли страницы, ссылки на которые будут обнаружены на страницах из первоначального списка. Значение Глубина обхода = 0 означает, что LetsExtract следует загрузить только исходный URL адрес.
Способ 2 - По ключевым словам
Нажав на кнопку Вставить шаблоны вы можете вставить базовый шаблон запроса, который можно модифицировать под ваши нужды. Эта возможность позволяет настроить поиск по ключевым словам максимально точно.
- Удалите ненужные поисковые системы.
- Значения параметров заключайте в кавычки.
- Вы можете заменять параметр Engine на домен желаемой поисковой системы.
- Замените параметр Keyword на ключевое слово или фразу для выбранного поисковика.
- Параметр Depth указывает, сколько максимально страниц поисковой выдачи следует открыть (новые результаты поиска могут закончиться и раньше). Значение = 0 означает первую страницу поисковой выдачи.
- Параметр Max указывает, сколько максимально ссылок из каждой страницы поисковой выдачи следует обойти. Значение = -1 означает "без ограничений".
- Значение Глубина обхода означает, как много страниц следует загрузить LetsExtract. При значении = 0, программа будет загружать только страницу из результатов поиска.
Пример: Мы хотим выполнить поиск контактов только на сайтах из первой страницы выдачи поисковиков Яндекс (Россия) и Google (Великобритания). И без ограничений по количеству найденных результатов на этой одной странице. В таком случае наши шаблоны будут выглядеть так:
{Engine="google.co.uk" Keyword="Buy good tea in London" Depth="0" Max="-1"}
{Engine="yandex.ru" Keyword="Производство пластиковых окон" Depth="0" Max="-1"}
Мы также хотим, чтобы LetsExtract открыл каждый найденный сайт, и просмотрел только первые страницы, ссылки на которые будут в результатах поиска (не погружался вглубь). Для этого установим общее значение Глубина обхода = 1. Запустим поиск:
Способ 3 - Сгенерированному списку URL адресов
Некоторые сайты имеют страницы вида:
http://website.com/forum/members?id=12932
Чтобы не загружать все страницы таких сайтов, можно сгенерировать список только нужных URL-адресов. Чтобы запустить генератор, нажмите кнопку Генерировать ссылки. Отредактируйте шаблон, нажмите кнопку Генерировать, проверьте несколько сгенерированных адресов, и нажмите OK, чтобы вернуться в главное окно.