×

Решение капчи и обход блокировок

Почему появляется капча?

Поисковые системы стараются выявлять и блокировать ботов, собирающих поисковую выдачу и Contact Extractor не исключение. В случае, если поисковик решает, что отправляемый ему запрос не был отправлен человеком, он запускает проверку на бота - "капчу".
 
Капча - это русское озвучивание англоязычной абревиатуры CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart), что означает Полностью Автоматизированный Публичный тест Тьюринга для различения Компьютеров и Людей.
 
 
 
В LetsExtract Contact Extractor капча может появиться при сборе по ключевым словам, при сборе с Google Maps. Признаки того, что вы идентифицированы как бот:
 
Выведено окно, в котором необходимо разгадать капчу.
 
Выдается ошибка:
 
Выдаются ошибки 403 (Forbidden, запрещено), или 429 (Too many requests, слишком много запросов):
 

Что делает LetsExtract чтобы капча появлялась реже?

  • Алгоритмы Contact Extractor, обрабатывая очередь URL, всегда стараются отсрочить отправку ключевого слова в поисковую систему, загружая в первую очередь ссылки, не являющиеся ссылками-запросами в поисковые системы.
  • Contact Extractor никогда не делает два и более запросов к одному поисковику одновременно (даже с разными ключевыми словами).
  • Contact Extractor при необходимости автоматически переходит в режим эмуляции браузера, обращаясь к поисковикам.
  • Contact Extractor использует паузы между запросами, хранит и использует сессии.
 

Насколько хватит эффекта от разгаданной капчи?

Это зависит от вашей репутации в глазах поисковых систем и насколько много вы делаете запросов. Иногда одной разгаданной капчи достаточно, чтобы последующие 20, 30, и даже 40 запросов завершились успешно. В иных случаях, капча появится снова уже при следующем запросе.
 

Что увеличивает частоту появления капчи

Поисковики разделяют "запрашивающих". Если у вас хорошая репутация, вам будет позволено получить больше информации. Начав использовать LetsExtract первое время, возможно, вы даже не будете знать о такой защите как капча. Если вы будете использовать парсинг поисковых систем немного и аккуратно, капча также не доставит проблем. Эти признаки увеличивают вероятность появления Капчи:
 
  • Массовый IP-адрес (мобильные операторы, плохие прокси-серверы)
  • IP-адрес не соответствует языку запроса
  • Страна вашего IP в списке подозрительных
  • Отсуствуют cookies
  • Вы отправляете слишком много запросов за короткий промежуток времени
 

Что можно сделать?

 
Способ #1. Если вы собираете данные небольшими порциями и не регулярно - просто поставьте на паузу ваш проект на 12-24 часа.
 
Способ #2. Использовать сервисы разгадывания капчи. LetsExtract поддерживает интеграцию с сервисами Anti-Captcha и 2Captcha. Для подключения сервиса необходимо:
 
1. Создать аккаунт, перейдя на сайт сервиса.
2. Войдя в аккаунт, найти API-ключ, скопировать его и вставить в программу:
 
3. Вернуться в сервис и пополнить его баланс. Для теста начните с минимальной суммы.
3. Убедиться, что галочка "Skip all Captcha requests" выключена и продолжить поиск.
 
Сервиса разгадывания капчи используют специальных ботов и даже людей, чтобы разгадывать Капчи. Процесс разгадывания каждой капчи может занимать несколько минут. За каждую разгаданную капчу с вас будет списана плата, в зависимости от вашей ставки, загруженности сервиса, и сложности изображения.
 
Способ #3. Использовать хорошие прокси-серверы. Мы рекомендуем этот способ как наиболее надежный и простой. Он может не только от блокировок поисковых систем, но и сайтов.
Прокси-сервер - это промежуточный сервер, который помещается между вашим компьютером и сайтом с которого вы извлекаете информацию.
 
 
В зависимости от выбранного типа прокси, в глазах поисковика вы будете выглядить как резидент конкретной локации, как клиент сотового оператора и т.п. Некоторые сайты предлагают специальные неблокируемые прокси-серверы под конкретные поисковые системы или порталы, например прокси для Google, прокси для парсинга Yelp и т.п. Некоторые - готовый "снимок" человека, включающий не только IP-адрес, но и сессию с cookies.
 
Никогда не используйте бесплатные/дешевые/анонимные прокси - это не улучшит ваши результаты. Воспользуйтесь услугами проверенных поставщиков, например для работы в международном сегменте мы рекомендуем https://iproyal.com/ или https://brightdata.com/
Для России у нас пока нет проверенных поставщиков. Попробуйте провести анализ рынка, обратившись в Google с запросом типа "элитные прокси серверы" или "резидентские прокси серверы для google" и т.п.
 
Внимание: сейчас LetsExtract поддерживает только HTTP/HTTPs прокси-серверы.
 

Защита сайтов от парсинга

Не только поисковики пытаются защититься от сбора информации. В последнее время системы защиты сайтов от ботов, типа CloudFlare получили значительное распространение. Признак того, что сайт защищен:
вы можете открыть сайт в браузере, но при обходе сайта выдается ошибка 403, 404. Системы определения ботов оценивают множество параметров, но решающими являются:
 
  • Cookies
  • Репутация IP-адреса
  • Признаки браузера - включенный Javascript, User-agent.
     
    В первую очередь, увидев похожие ошибки на вкладке Queue, остановите парсинг сайта, подождите некоторое время, затем увеличте интервал загрузки страниц минимум от 5 секунд, уменьшите максимальное количество потоков для сайтов одного домена до 1:
     
     
    Затем начните новый поиск в режиме эмуляции браузера:
     
     
 
Например, Cloudflare при первом посещении сайта проверяет посетителя запустив Javascript и установив куки. Потом он соберет ваш "снимок" (IP-адрес, данные браузера, куки) произведет поиск в своей базе (как именно вы вели себя на других сайтах), проверит, имеются ли у вас куки CloudFlare. Если у вас хорошая репутация, то он пометит вас как человека в рамках данной сесиии и откроет требуемую страницу. Если у него появятся сомнения, он покажет вам Капчу. Если же он зафикировал вас как бота - выдаст ошибку 403/404.
 
К сожалению, мы пока не поддерживаем разгадывание капч для сайтов, поэтому единственным вариантом, в случае если вы выполнили рекомендации выше, но видите ошибки - станет использование хороших прокси-серверов.
 

Что делать если ничего не помогает

Напишите нам. Обязательно пришлите максимум информации - ваши поисковые запросы, URL-адреса, скриншоты и  описание ситуации. Мы попробуем помочь.