Можно ли парсить (crawling) голландские сайты с легальной точки зрения?

Тема в разделе "Hi Tech", создана пользователем Joseph, 10 мар 2017.

  1. Joseph

    Joseph Новичок

    Всем привет,

    Мне необходимо парсить голлансдкие сайты чтобы автоматически получать информацию по скидкам. Например: https://www.ah.nl/bonus/wijn

    Можно ли это делать с легальной точки зрения? Я эту информацию в voorwaarden не нашел. А то AH, например, может быть недоволен.

    Спасибо!
    Иосиф
     
  2. pyfun

    pyfun Старожил

    А на что гугл живёт ? АН будет доволен, что про его скидки узнает больше людей.
     
  3. rostyk

    rostyk Старожил

    Последнее редактирование: 10 мар 2017
    • Нравится Нравится x 1
  4. Adam_01

    Adam_01 Завсегдатай

    В плеймаркете есть отличное приложение от AH, как раз все скидки показывает :)
     
  5. TedBeer

    TedBeer Завсегдатай

    В первую очередь уважай robots.txt на сайте. Если кто-то не хочет, чтобы его сканировали или хочет ограничить частоту и определенные области, то именно этот документ описывает ограничения.
     
  6. pyfun

    pyfun Старожил

    вопрос же был про юридическую сторону. Если наплевать на robots.txt то это никаких юридических последствий не имеет.
     
  7. TedBeer

    TedBeer Завсегдатай

    Я думаю эти вещи связаны. Если robots.txt есть, а ты игнорируешь его и бомбишь своими запросами сайт, то думаю это повод обратить на себя внимание и с юридической стороны. А если ты следуешь правилам "fair use", то и претензий никаких или на них можно обоснованно возражать.
     
  8. TomKyte

    TomKyte Старожил

    Очень мало что можно предъявить именно с юридической стороны. Все ритейлеры сканят и мониторят друг друга на предмет актуальных цен на товары. И все дружно для этого пользуютя часто меняющимися аутсорсными VPS хостингами в разных датацентрах, которые юридически никак не связаны с тем или иным ритейлером. Ну бомбит сегодня твой сайт некто, приходящий с американского IP, которые является вдобавок VPN прокси. Кому ты предъявишь претензии? Даже если докопаешься до отправной точки, то выяснится, что хостинг зарегистрирован неделю назад на неведомое частное лицо, которое даже никак не связано с Голландией. Через неделю этот хост перестанет тебя бомбить, начнет бомбить другой хост, зареганый совсем на другое частное лицо и пользующийся совсем другим прокси.

    Поэтому разумнее защищаться от сканирования, распознавая спайдерский трафик и подсовывая ему либо заниженные, либо завышеные цифры на товары. Некоторые ритейлеры ставят невидимые на экране буквы в названии товара - так "вражеский" спайдер не сможет правильно сопоставить товар по имени. Вариантов кучи, людская фантазия неистощима, борьба меча и щита вечна.
     
    • Согласен Согласен x 1
  9. pyfun

    pyfun Старожил

    за что ? за HTTP request туда, куда и так все ходят ?
     
  10. TedBeer

    TedBeer Завсегдатай

    Сходите млн раз в сек на пейпал. И ждите, что вам за это ничего не будет, все ж и так туда ходят.
    Мы ж обсуждаем не технологии как стащить миллиард и чтоб ничего не было. А как легально взаимодействовать и получать информацию. Вот когда поставщик информации не хочет делиться, тогда уже можно выдумывать хитровы...е способы. А если всё можно сделать легально, тупо отправить запрос - "хочу получать информацию от вас, какие нужны телодвижения с моей стороны?", то зачем извращаться, ходить по грани и не спать ночами?
     
  11. pyfun

    pyfun Старожил

    какое отношение попытка уронить сайт (причинить умышленный вред) относится к изначальному вопросу ?
    Без злого умысла ходите куда хотите.
     
  12. TedBeer

    TedBeer Завсегдатай

    А как по вашему ходят роботы? Тупо ходят сколько раз сказали по указанному адресу. Если не ограничить, то и будут стучаться с ненормальной частотой и могут положить сайт. ТС не ручками же ходить будет на сайт.
     
  13. pyfun

    pyfun Старожил

    вопрос: можно ли ездить на велосипеде по дороге в городе ?
    ответ 1: да, можно
    ответ 2: если вы материтесь, стоите на багажнике, разговариваете по телефону, не уступаете дорогу полиции, то ждите проблем.
    Оба ответа сгодятся.
     
  14. Joseph

    Joseph Новичок

    Всем спасибо за ответы.

    Еще вопрос: будет ли Альберт Хайн (а также Jumbo, Лидл и т.д.) против если выгрузить картинки некоторых продуктов с его сайта и использовать в своем приложении?
     
  15. pyfun

    pyfun Старожил

    а ссылка на сам сайт останется ?
     
  16. ncux

    ncux Админ

    Иосиф, читаешь мысли - у меня запасы вина заканчиваются и как раз думал поискать аггрегатор :)
    Включай меня в список заинтересованных лиц!
     
    • Нравится Нравится x 1
  17. Joseph

    Joseph Новичок

    нет
     
  18. pyfun

    pyfun Старожил

    тогда это использование чужого интеллектульного труда для личного обогащения получается. Разные поставщики контента на это могут по-разному посмотреть.
     
  19. Alexey

    Alexey Аксакал

    • Нравится Нравится x 1
  20. Joseph

    Joseph Новичок

    там супермаркетов нет
    --- Сообщения объединены, 21 мар 2017 в 15:18, дата первого сообщения: 21 мар 2017 в 15:18 ---
    а если ссылку оставить, то тогда можно?
     

Поделиться этой страницей