Гайды

Проверка источника перед парсингом

Как быстро проверить сайт, каталог или канал перед парсингом: доступность, лимиты, капча, поля данных и формат результата.

Перед парсингом важно проверить не только «открывается ли сайт». Нужен маленький безопасный тест: можно ли достать один реальный элемент с нужными полями и понять, какие ограничения есть у источника.

Такая быстрая проверка помогает не продавать задачу вслепую. В кейсе AI-поиск конкурентов для CRM важна была не сама выдача, а фильтрация мусора, дедуп и проверка результата перед передачей дальше.

Что проверить сначала

  • страница открывается без логина или понятно, где нужен доступ;
  • нужные данные есть в HTML, API, RSS, JSON или другом читаемом формате;
  • можно получить один пример записи: заголовок, цену, дату, ссылку, изображение, контакты или другие поля;
  • нет жёсткой капчи на первом же шаге;
  • сайт не режет запросы после 2-3 безопасных обращений;
  • правила площадки не запрещают нужный сценарий.

Один статус 200 OK не доказывает, что источник подходит. Страница может открываться, но данные подгружаться скриптом, скрываться за авторизацией или исчезать после антибот-проверки.

Что прислать для оценки

Передайте:

  • ссылку на источник;
  • пример страницы или карточки, которую нужно получить;
  • список нужных полей;
  • как часто нужно обновлять данные;
  • итоговый формат: таблица, JSON, CRM, бот, файл, админка;
  • допустимую скорость сбора;
  • что делать с дублями и ошибками.

Когда нужен отдельный тест

Отдельный тест нужен, если источник большой, нестабильный, закрыт логином, активно защищён от автоматизации, часто меняет вёрстку или связан с маркетплейсом, соцсетью, картами, видео, поисковой выдачей и другими антибот-зонами.

В таких задачах честнее сначала проверить маленький кусок, а потом считать полноценную автоматизацию.

Обсудить задачу

Опишите задачу — предложу решение и ориентир по срокам.