Мониторинг цен конкурентов: какие бывают парсеры и как они работают
Парсеры интернет-магазинов собирают данные о товарах, ценах на них, наличии, условиях кредитов и доставки. Это полезно для других интернет-магазинов для анализа конкурентов, их цен, ассортимента и других данных. На рынке есть много инструментов, предлагающих такую услугу.
Однако большинство современных онлайн-магазинов защищаются от парсинга, поэтому далеко не все инструменты работают качественно. Если вам нужны точные и актуальные данные, у вас есть две опции: тщательно искать подрядчика и тестировать качество его работы или разрабатывать парсеры самостоятельно (что почти всегда нерентабельно, учитывая затраты на инфраструктуру и, самое главное, поддержку).
В этом материале мы расскажем, какие бывают парсеры и на что стоит обращать внимание при выборе такого инструмента для анализа конкурентов.
Парсеры помогают ускорить сбор информации о ценах и ассортименте на онлайн-рынке. Объемы данных, которые человек обрабатывает в течение 10–20 часов, парсер может собрать за минуты.
Хотя парсинг не новая технология, достичь высокого уровня качества при сборе данных с онлайн-магазинов довольно сложно. Представленные на рынке шаблонные решения могут найти 70–80% нужных данных. Чтобы увеличить точность, нужно создавать или совершенствовать парсер для каждого конкретного случая, что требует времени и бюджета на разработку.
Платформы ценовой аналитики совмещают парсинг (как технологию сбора данных) с инструментами анализа: вы получаете не «сырые» данные, а визуализированную аналитику, с которой можно работать как с готовыми инсайтами.
Какие данные собирают парсеры
Парсеры интернет-магазинов могут собирать разные типы данных. В общем, среди них могут быть:
Базовая информация о товаре:
код товара (артикул);
название товара;
название производителя/бренда;
URL-ссылка на карточку товара;
изображение (ссылка на фотографии товара).
Цена + наличие:
обычная цена;
промоцена;
статус наличия;
количество штук в наличии.
Большинство парсеров собирают только эти данные. Более совершенные инструменты имеют более широкие возможности и собирают дополнительные данные, влияющие на продажи и позиционирование товара.
Расширенные данные:
количество отзывов на товар;
рейтинг товара;
продавец товара (актуально для анализа конкурентов на маркетплейсах);
условия покупки: кредит, оплата частями;
условия доставки: бесплатная доставка, сроки;
позиция товара в каталоге;
активные промо (например, название акции: «Черная пятница», «Распродажа»);
лейблы: «Новинка», «Хит продаж», «Суперцена».
В Pricer24 мы собираем все перечисленные данные: стандартно — базовую информацию о товаре, ценах и наличии, ведь они являются основой качественной ценовой аналитики. Кроме этого, можем настраивать сбор дополнительных данных — под конкретные задачи клиента.
Важно: сбор легальных данных и ограничения
Мы не собираем данные, защищенные авторским правом и являющиеся интеллектуальной собственностью интернет-магазинов, например текстовые описания товаров и характеристики.
Почему цены можно собирать? Потому что это информация из открытых источников, не являющаяся интеллектуальной собственностью. Цена — это публичное предложение, а не уникальный контент.
Типы парсеров
Парсеры можно классифицировать по-разному, но самая практичная классификация — по источнику сбора данных:
файл-парсеры;
парсеры по ссылкам (парсеры карточек товаров);
парсеры категорий (+ парсеры результатов поиска);
парсеры мобильных приложений.
Рассмотрим каждый из них, начнем с самого простого.
Файл-парсеры
Файл-парсеры — это инструменты, собирающие данные из файлов, доступ к которым предоставляют нам клиенты. Примеры: прайс-листы поставщиков, список товаров в каталоге клиента. Форматы таких файлов — CSV, XLS (X), XML или JSON, то есть они содержат структурированную информацию о товарах: артикул, цену, наличие, название, бренд и т. д.
Файл-парсеры позволяют обрабатывать большие объемы информации очень быстро. Данные поступают в структурированном, удобном для анализа формате, что значительно упрощает их обработку.
Как это работает
Клиент предоставляет доступ к файлу или API. Это может быть регулярное обновление прайс-листа или одноразовый файл с данными о товарах. К примеру, вы можете предоставить стандартизированные фиды с данными о товарах (Google Shopping, Hotline, Prom.ua и т. д.) или партнерский доступ к порталу через ключ авторизации. В таком случае API позволяет парсеру получать данные непосредственно из системы с минимальной задержкой.
Парсер сканирует файл и распознает структуру данных: колонки с артикулами, ценами, наличием, названиями, брендами и т. д.
Парсер сводит данные в единый формат. Это могут быть, например, одинаковые обозначения наличия (In stock → «В наличии»).
Парсеры по ссылкам
Парсеры по ссылкам (парсеры карточек товаров) собирают данные непосредственно с HTML-кода конкретного оффера на сайте конкурента. За один запрос парсер получает информацию о товаре — цену, наличие и т. д.
Как это работает
Більшість сервісів цінової аналітики збиБольшинство сервисов ценовой аналитики собирают данные о товарах конкурентов следующим образом:
На старте сотрудничества проводят анализ сайта конкурента: находят все ссылки на все товары.
Сопоставляют пары: ссылку на ваш товар к ссылке на такой же товар на сайте конкурента.
Далее сканируют только те же ссылки и не ищут новых связок.
Основное ограничение парсинга по ссылкам состоит в том, что, сканируя старые ссылки снова и снова, вы не учитываете новинок в каталогах конкурентов.
Представим ситуацию: вы настроили сбор данных по ссылкам на 100 товаров по определенной категории, по трем конкурентам. В течение первого месяца конкурент А добавил 50 новых товаров, конкурент В — 30, конкурент С — 20. Вы ничего не знаете об этих новинках, то есть фактически не видите часть рынка, которая может влиять на ваши продажи. А теперь масштабируйте эти цифры на свой ассортимент. Хуже всего то, что с высокой вероятностью вы узнаете о новинках конкурентов со значительным опозданием, когда уже придется анализировать причины падения продаж.
Чтобы выявлять новинки в каталогах конкурентов, вам нужно:
регулярно заходить на сайт каждого конкурента;
проверять количество товаров по их категориям (хорошо, если они и у вас, и у конкурента размещены в одной категории);
сравнивать с вашим ассортиментом;
выявлять новые товары;
добавлять ссылки в систему для мониторинга.
Вторая проблема — некоторые магазины могут создавать дубликаты карточек товаров в своем каталоге, снижая цену в новосозданной карточке. Это делают для защиты от парсинга: ваш парсер продолжает собирать данные со старой карточки (где цена выше), а реальные покупатели видят новую карточку с более низкой ценой.
Иногда конкуренты также массово изменяют структуру URL и могут не настроить редиректы.
Все старые ссылки перестают работать в один момент. Вам нужно выявить проблему, найти новый URL и обновить его в системе.
Еще один распространенный кейс: вы добавили ссылку, а конкурент удалил эту карточку. Парсер заходит на страницу и видит ошибку 404. Он показывает, что на этот товар у конкурента нет цены, и вы думаете, что он не продает его.
Если ответственность за актуальность ссылок лежит на вас, вы должны следить за ассортиментом конкурентов, добавлять новые ссылки, удалять неактуальные. Это десятки, а для больших каталогов — сотни часов работы категорийного менеджера ежемесячно. Даже если команда сервиса берет эту задачу на себя — вы все равно должны контролировать точность и полноту ваших данных.
Когда этот способ имеет смысл
Парсинг по ссылкам оправдан, когда вам нужно точечно отслеживать конкретные товары. Например, у вас в категории всего 3 товара, а у конкурента — 3000. Собирать всю категорию нецелесообразно — вы будете платить за сбор данных о 2997 ненужных товарах. Значительно эффективнее задать ссылку только на те 3 товара, которые вас интересуют.
Парсеры категорий
Парсеры категорий собирают данные со всех товаров в определенной категории на сайте конкурента или маркетплейса.
К этому типу можно отнести и парсеры результатов поиска. Они работают аналогично, но вместо категории обрабатывают страницы, которые формируются по конкретному поисковому запросу.
Как это работает
Боту задается ссылка на начальную страницу категории. К примеру, категория «Холодильники»: https:website.ua/refrigerators/.
Бот автоматически проходит по всем карточкам на всех страницах категории и собирает всю доступную информацию о каждом товаре в каждой карточке.
Подвид этого типа парсеров — парсеры по поисковым запросам. Если вам нужно отслеживать только один бренд, удобнее использовать именно такой парсер.
Пример запроса: https://website.ua/ua/search/?text=ecoflow.
Парсер будет собирать все, что найдется на сайте конкурента по слову Ecoflow.
Это довольно удобно, но имеет определенные ограничения:
Если на сайте конкурента поиск или фильтры реализованы некорректно, результаты парсинга будут содержать много «шума». Вы ищете телефон, а вам выдают наушники, зарядки, чехлы и что угодно, кроме телефонов. Пример: поиск по запросу «секатор» выдает ножницы для когтей животных.
Если у бренда, по которому вам нужно собирать данные, неуникальное название, вы также будете иметь «шум» в результатах. Пример из нашей практики — бренд Grey: большинство сайтов будут выдавать в результатах поиска товары серого цвета (grey color); товары, в названии которых есть слово grey; и где-то среди этого всего — реальные товары бренда Grey.
Плюсы парсеров категорий
1. Автоматическое выявление новинок.
Это самое главное преимущество. Вчера у вашего конкурента еще не было товара, который есть у вас, но уже сегодня он добавил этот товар и поставил на него цену на 15% ниже вашей. Как мы упоминали ранее, если вы отслеживаете только конкретные ссылки, то просто не заметите появления этого товара. Парсинг по всей категории позволяет своевременно фиксировать новинки и оперативно реагировать на рыночные изменения.
2. Анализ всего рынка, а не только пересечения ассортимента.
Парсер категорий позволяет видеть товары, которых у вас еще нет. Это открывает возможности для:
Мониторинга уникальных офферов. К примеру, у конкурента есть эксклюзивный товар. Если он продает его очень дешево, это влияет на весь сегмент. Возможно, вам нужно корректировать цены на свои похожие товары, чтобы оставаться конкурентоспособными.
Выявления пробелов в вашем ассортименте. Парсинг категорий позволяет видеть, какие товары активно продаются у конкурентов, но еще отсутствуют в вашем ассортименте. Это ценный сигнал для расширения ассортимента и определения конкретных товаров, которые стоит добавить для повышения продаж.
Выявления нарушений РРЦ. Это суперактуально для брендов и дистрибьюторов. Иногда партнеры хитрят — создают две карточки одного товара: одну — с нормальным названием и правильной ценой (для показа бренду), вторую — с неочевидным названием и заниженной ценой (для реальных продаж). Парсер категорий находит все карточки, даже скрытые от очевидного поиска. Вы видите реальную картину ценообразования вашего партнера.
Подводные камни парсинга категорий и как делать это профессионально
1. Сбор «лишних» данных.
Например, у вас в категории 10 холодильников определенного бренда, а у конкурента — 1000 от разных брендов. Вы хотите сравнивать только свой ассортимент, но система собирает в 100 раз больше информации. Или другой пример из практики: если на маркетплейсе Rozetka вас интересуют только товары от магазина Rozetka, то собирать всю категорию с другими продавцами нецелесообразно.
Как мы это решаем: используем дополнительные фильтры по вашему бренду или по продавцу, как в примере с товарами Rozetka.
Так можно контролировать объем данных и оптимизировать бюджет: мы можем ограничивать количество данных, которые собираем, с учетом специфики и потребностей клиента.
2. Хаотичная категоризация на разных сайтах.
Имеется в виду ситуация, когда один и тот же товар на разных сайтах размещен в разных категориях.
К примеру, пылесосы:
на сайте А — только в категории «Пылесосы»;
на сайте Б — в категориях «Роботы-пылесосы», «Ручные пылесосы», «Вертикальные пылесосы», «Мойщики окон» и т. д.
Еще один сложный сегмент — аксессуары. В одном магазине 10 аксессуаров будут в категории «Аксессуары для ноутбуков», а в другом те же товары могут быть разбросаны по категориям: «Аккумуляторы для ноутбуков», «Сумки», «Чехлы», «Периферия», «Зарядные устройства».
Из нашей практики, в нишах «Зоотовары» и «Автотовары» также довольно хаотичная категоризация.
Как мы это решаем: на этапе настройки вручную проверяем товары без пересечения. Если товар клиента не найден, это сигнал о том, что, возможно, пропущена какая-то категория. Такой подход обеспечивает максимальное покрытие.
Золотое правило: мы используем парсер категорий там, где пересечение ассортимента с конкурентом ≥ 50%. Иначе существует риск собирать слишком много лишних данных.
3. Динамическая сортировка.
Некоторые сайты используют динамическую сортировку товаров в категории по популярности. Товар, который только что был на первой странице, может мгновенно переместиться на вторую. Из-за этого существует риск собрать товар дважды или пропустить его вовсе.
Как мы это решаем: система запоминает товары, которые были в наличии ранее. Если теперь их не видно в категории, система дополнительно проверяет по прямой ссылке, есть ли товар в наличии сейчас или нет. То есть мы либо парсим по предварительным запускам (проверяем, какие товары ранее были в наличии, проверяем их еще раз, и если в течение определенного времени они не появляются, прекращаем повторные проверки), либо собираем данные о товарах по брендам.
Парсер ссылок или парсер категорий: какой выбрать?
Если бы все интернет-магазины имели одинаковую структуру, рынок был бы гораздо проще и можно было бы выбирать одно решение. В сложившейся ситуации лучший подход — гибридный.
Для главных категорий, где ваш ассортимент существенно пересекается с конкурентами, удобнее всего использовать парсер категорий. Он автоматически собирает все товары, позволяет выявлять новинки на рынке и отслеживать пробелы в вашем ассортименте.
Это особенно актуально, если:
пересечение ассортимента с конкурентом ≥ 50%;
рынок динамичный и постоянно появляются новые товары;
нужно видеть весь рынок, а не только свой ассортимент;
важно отслеживать нарушения рекомендованных цен (РРЦ) для брендов.
А вот для специфических товаров, которые сложно классифицировать, лучше подойдет парсинг по ссылкам. Он позволяет точечно отслеживать именно те SKU, которые вас интересуют, и не собирать лишние данные.
Этот подход особенно удобен, если:
у вас узкая специализация (например, 3 товара в категории, а у конкурента — 3000);
нужен точечный контроль конкретных SKU;
бюджет ограниченный, а ассортимент стабильный.
Комбинируя оба подхода, вы получаете полную картину рынка и в то же время не переплачиваете за ненужные данные.
При выборе price intelligence решения обязательно выясните:
Какие типы парсеров использует подрядчик?
Как он решает проблему выявления новинок?
Поддерживается ли гибридный подход?
Как часто обновляются данные?
Какой процент покрытия вашего ассортимента они гарантируют?
Парсеры мобильных приложений e-commerce
Часто интернет-магазины предлагают разные цены в веб-версиях и в своих мобильных приложениях. Поэтому, если вы хотите иметь полную и реалистичную картину рынка, вам необходимы данные из обоих типов источников.
Парсеры мобильных приложений в e-commerce — это специализированные программные инструменты, автоматически собирающие структурированные данные о товарах, ценах, наличии, а также отзывы и другую информацию непосредственно из мобильных приложений магазинов и маркетплейсов.
Из-за специфики мобильных приложений такой парсинг технически сложнее сбора данных с веб-сайтов. Самый распространенный метод — эмуляция мобильного устройства (Android/iOS) с автоматизированным взаимодействием с интерфейсом. Программа имитирует действия пользователя: открывает разделы, листает списки товаров, переходит в карточки товаров и сохраняет нужные данные. Для приложения это выглядит так, будто оно запущено на реальном устройстве.
Этот подход требует высокой технической экспертизы. Современные мобильные приложения борются с эмуляторами, проверяя системные свойства, аппаратные характеристики «устройства» и поведенческие паттерны пользователя. Они применяют антибот-защиту, требуют авторизации или верификации, регулярно обновляются и изменяют структуру интерфейса. Кроме того, эмуляторы потребляют много ресурсов, что усложняет масштабирование при сборе больших объемов данных.
Pricer24 имеет возможность парсинга мобильных приложений, преодолевая все эти технические вызовы. Наша платформа использует передовые технологии эмуляции и автоматизации, чтобы собирать данные с мобильных версий маркетплейсов и интернет-магазинов. Благодаря собственной инфраструктуре и опыту работы с различными системами защиты, мы обеспечиваем клиентов актуальными и точными данными с мобильных каналов конкурентов, что позволяет вам принимать решения на основе полной рыночной аналитики.
In-house vs outsource: какой подход выбрать
Часто парсинг ошибочно воспринимают как разовое техническое задание: написал код — и он работает. На самом деле каждый парсер нуждается в постоянной поддержке и совершенствовании.
Сайты постоянно меняются: обновляется структура каталога, меняется дизайн и HTML-разметка, усиливается защита от ботов, появляются новые механики (например, блоки с открытыми промокодами, которые сразу дают скидку, или динамическая загрузка контента).
Каждое такое изменение требует доработки парсера, чтобы он мог собирать информацию в новых условиях.
Проблема собственной разработки (in-house)
Компании редко готовы платить зарплату разработчику исключительно за поддержку парсеров, ведь это нестабильная загрузка. Если в компании есть внутренний специалист, ему будут поручать и другие задачи по разработке с высоким приоритетом. Из-за этого на практике часто случаются задержки на неделю-две, когда парсер требует внимания, а специалист занят другими вопросами. В это время ожидания парсер работает некорректно или не работает вовсе, а вы не получаете данные.
Кроме этого, качество работы парсера во многом зависит от стратегии парсинга.
Что именно парсить? Какие товары, каких конкурентов, какие параметры?
Как структурировать данные для вашей аналитики?
Как проверять качество собранной информации?
Как реагировать на изменения в ассортименте конкурентов?
Компаниям часто не хватает экспертизы для разработки грамотной стратегии парсинга, и им негде ее получить, поэтому парсер собирает некачественные данные с первого дня.
Особенности outsource-решения
Специализированные платформы ценовой аналитики, такие как Pricer24, могут дать лучший эффект, чем собственная разработка, благодаря специализации на парсинговых решениях для e-commerce. Однако чтобы получить максимум результата от подрядчика на аутсорсе, вам также нужно четко объяснить задачу, удобный для вас формат работы с данными и установить критерии, по которым вы будете оценивать эффективность сбора данных.
Среди таких критериев:
Discovery rate. Какой процент от всех товаров, которые есть и в вашем каталоге, и в каталоге, который вы парсите, был найден.
Частота парсинга. Раз в день, раз в месяц или 10 раз в день — зависит от динамики в вашей категории.
Частота проверки ссылок — на случай дублей карточек в каталогах.
Допустимое количество ошибок при метчинге, то есть в процессе сопоставления товаров («ваш товар» = «товар конкурента»), и другие критерии.
Выбор между in-house и outsource должен быть экономически целесообразным, поскольку влияет на ваши затраты. Однако качество данных — это тоже важный параметр, определяющий уже вашу прибыль в долгосрочной перспективе.
Вывод
На пеНа первый взгляд парсинг может показаться простым: запустил ботов — и получил данные. Но за 5+ лет работы с разными клиентами, нишами и сегментами мы убедились: высокое качество требует комплексного подхода.
У каждого типа парсера есть свои преимущества и ограничения, а успешный мониторинг цен конкурентов основывается на:
правильном выборе типа парсера под вашу специфику,
грамотной комбинации разных подходов,
регулярной проверке качества данных,
оптимизации бюджета на их сбор.
В Pricer24 мы совмещаем глубокую экспертизу в e-commerce, гибкий подход к настройке сбора данных и высокие стандарты качества и обслуживания, чтобы каждый клиент получал именно те данные, которые ему нужны для принятия стратегических решений.
Нужна консультация?
Наша команда поможет подобрать оптимальную стратегию парсинга под вашу специфику. Мы работаем как с лидерами рынка, так и с небольшими реселлерами в разных нишах: электроника, фармацевтические товары, зоотовары, автотовары, строительные материалы, косметика и другие. В основе нашего подхода — гибкость, чтобы каждый клиент получал то, что нужно именно ему.
чтобы получить демонстрацию возможностей для вашего бизнеса
Політика конфіденційності
Ваша конфіденційність є дуже важливою для нас. Ми хочемо, щоб Ваша робота в Інтернет була максимально приємною і корисною, і Ви абсолютно спокійно використовували найширший спектр інформації, інструментів і можливостей, які пропонує Інтернет.
Особиста інформація Членів, зібраних під час реєстрації (або в будь-який інший час) переважно використовується для підготовки Продуктів або Послуг відповідно до Ваших потреб. Ваша інформація не буде передана або продана третім сторонам. Однак ми можемо частково розкривати особисту інформацію в особливих випадках, описаних у «Злагоді з розсилкою»
Які дані збираються на сайті
При добровільній реєстрації на отримання розсилки ви надсилаєте своє Ім’я та E-mail через форму реєстрації.
З якою метою збираються ці дані
Ім’я використовується для звернення особисто до вас, а ваш e-mail для надсилання вам листів розсилок, новин, корисних матеріалів, комерційних пропозицій.
Ваші ім’я та e-mail не передаються третім особам, за жодних умов крім випадків, пов’язаних з виконанням вимог законодавства.
Ви можете відмовитися від отримання листів розсилки та видалити з бази даних свої контактні дані у будь-який момент, клацнувши на посилання для відписки, присутнє в кожному листі.
Як ці дані використовуються
За допомогою цих даних збирається інформація про дії відвідувачів на сайті з метою покращення його змісту, покращення функціональних можливостей сайту та, як наслідок, створення якісного контенту та сервісів для відвідувачів.
В будь-який момент можна змінити налаштування свого браузера так, щоб браузер блокував усі файли або сповіщав про надсилання цих файлів. Зверніть увагу, що деякі функції та сервіси не зможуть працювати належним чином.
Як ці дані захищаються
Для захисту Вашої особистої інформації ми використовуємо різноманітні адміністративні, управлінські та технічні заходи безпеки. Наша Компанія дотримується різних міжнародних стандартів контролю, спрямованих на операції з особистою інформацією, які включають певні заходи контролю захисту інформації, зібраної в Інтернет.
Наших співробітників навчають розуміти та виконувати ці заходи контролю, вони ознайомлені з нашим повідомленням про конфіденційність, нормами та інструкціями.
Проте, незважаючи на те, що ми прагнемо убезпечити Вашу особисту інформацію, Ви також повинні вживати заходів, щоб захистити її.
Ми настійно рекомендуємо Вам вживати всіх можливих запобіжних заходів під час перебування в Інтернеті. Організовані нами послуги та веб-сайти передбачають заходи щодо захисту від витоку, несанкціонованого використання та зміни інформації, яку ми контролюємо. Незважаючи на те, що ми робимо все можливе, щоб забезпечити цілісність та безпеку своєї мережі та систем, ми не можемо гарантувати, що наші заходи безпеки запобіжать незаконному доступу до цієї інформації хакерів сторонніх організацій.
У разі зміни цієї політики конфіденційності ви зможете прочитати про ці зміни на цій сторінці або, в особливих випадках, отримати повідомлення на свій e-mail.