Официальный сервис-партнер Alibaba.com в России
Официальный сервис-партнер Alibaba.com в России

Парсинг сайтов, и с чем его едят

Поговорим о тренде последнего десятилетия, чрезвычайно важном в сфере электронной коммерции. Парсинг – это, не вдаваясь в детали программирования, сбор информации с того или иного сайта, причём сбор автоматический. Некий интернет-бот (программа-робот) «залазит» на коммерческий сайт или соцсеть, и начинает фильтровать оттуда статистику, цены, данные трафика, пользователей и т.п.

На Западе парсинг поначалу (до 2000 г.) не вызывал проблем, однако затем пошли суды. Крупные и коммерчески значимые компании (eBay, Intel, Facebook и др.) подавали иски против более мелких стартапов и ресурсов, пытавшихся слишком агрессивно использовать боты для парсинга информации. Появился даже термин «чрезмерный парсинг».

А что в России? Если совсем кратко, то вот рекомендации для тех, кто намерен парсить чужие сайты:

– собираемая информация не должна быть защищена авторским правом;
– парсинг не должен перегружать сайт;
– парсинг не должен нарушать условия использования сайта;
– нельзя парсить личные данные пользователей;
– извлекаемая информация должна отвечать стандартам правомерного использования (нельзя парсить засекреченные военные данные и т.п.).

А в остальном – пожалуйста, парсите на здоровье!