Парсинг по списку названий компаний
Этот пример будет полезен, если у вас есть список названий компаний, без точного URL-адреса страниц их сайтов. Наши эксперименты показали, что парсинг будет успешным, если:
-
У вас есть публичное название компании/торговой марки/бренда
-
Компания имеет сайт, который находится на первых позициях поисковых систем
-
На сайте имеются опубликованные контакты (email-адреса, телефоны и т.п.)
Рассмотрим парсинг на примере. Список компаний который мы имеем:
Лукойл
Газпром
Татнефть
Нефтьмагистраль
ОРТК
Адреса сайтов неизвестны. Будем использовать режим Поиск по списку, так как он позволит нам настроить поиск максимально точно. После открытия окна нажмите на кнопку Вставить шаблоны.
Для наших целей не нужно столько поисковых систем, ведь мы хотим просто получить ссылку на первый сайт по нашему поисковому запросу, точно также как это выглядело бы в браузере:
Оставим google.com потому, что она немного лояльнее к парсингу чем Яндекс и реже выводит Капчу. Вы можете использовать любую поисковую систему.
Установка ограничений
Значение Depth установим =0, так как нам нужна только первая страница поисковой выдачи для поиска адреса компании.
Значение Max установим =1, так как мы хотим получить только первый URL из результатов поиска поисковой системы (расчитываем, что это будет адрес сайта компании).
Генерация ссылок
Теперь нам нужно сгенерировать ссылку для каждого ключевого слова. Нажмите на кнопку Генерировать ссылки и вставьте предварительно сгонфигурированный шаблон в первое поле, а ключевые слова (названия компаний) во второе поле:
Теперь, чтобы ключевое слово вставилось в качестве значения параметра Keyword="your keyword" нам нужно вставить шаблон замены {0} вместо your keyword:
После нажатия на кнопку Генерировать мы получим готовые ссылки для каждого из ключевых слов:
Нажмите OK, чтобы вернуться в окно поиска по списку ссылок. Теперь наш поиск должен выглядеть так:
Дополнительно укажем Глубина обхода = 2, для того, чтобы программа загрузила главную страницу из результатов поиска (1), и все страницы на которые ссылается эта страница (2). Скорее всего, этого будет достаточно для перехода на страницу "Контакты/О компании/Связаться с нами" и т.п. и извлечения контактов.
Запустим поиск нажатием на кнопку OK.
Через некоторое время на вкладке Результаты: