Предотвращение сканирования и копирования данных сайта

Вопрос задан: 11 лет назад Последняя активность: 11 лет назад
up 17 down

Я смотрю на создание контента сайта, возможно, с тысячами различных записей, доступных по индексу и поиску.

Какие меры я могу предпринять, чтобы злоумышленники не могли украсть все данные с моего сайта? Я меньше беспокоюсь о SEO, хотя я не хотел бы блокировать законных сканеров все вместе.

Например, я думал о случайном изменении небольших фрагментов структуры HTML, используемой для отображения моих данных, но я думаю, что это не очень эффективно.

12 ответов

Возможно, для Вашего проекта будут необходимы бесплатные векторные карты. На нашем сайте представлены карты для всех стран.

Реклама

up 17 down accepted

Любой сайт, который он видит человеческими глазами, теоретически может быть взломан. Если вы даже пытаетесь быть доступными, то это, по определению, должно иметь место (как иначе говорящие браузеры смогут доставлять ваш контент, если он не читается машиной).

Лучше всего посмотреть на водяные знаки на вашем контенте, чтобы, по крайней мере, если он действительно был разорван, вы могли указать на водяные знаки и заявить о праве собственности.

up 12 down

Между этим:

Какие меры я могу предпринять, чтобы предотвратить взлом злоумышленников

и это:

Я не хотел бы блокировать законных сканеров все вместе.

ты много просишь. Дело в том, что если вы попытаетесь заблокировать вредоносные скребки, то и в конечном итоге заблокируете все «хорошие» сканеры.

Вы должны помнить, что если люди хотят очистить ваш контент, они приложат гораздо больше усилий, чем робот поисковой машины... Так что правильно расставьте приоритеты. У вас есть два варианта:

  1. Пусть крестьяне Интернета крадут ваш контент. Следите за этим (ищите в Google некоторые из ваших более уникальных фраз) и отправляйте запросы на разборку провайдерам. Этот выбор практически не влияет на вас, кроме времени.
  2. Используйте AJAX и непрерывное шифрование для запроса всего вашего контента с сервера. Вам нужно будет оставить метод изменяющимся или даже случайным, чтобы каждая загрузка страницы несла свою схему шифрования. Но даже это будет взломано, если кто-то захочет взломать его. Вы также бросите вызов поисковым системам и, следовательно, попадете в трафик реальных пользователей.
up 6 down

Хорошие сканеры будут следовать правилам, которые вы указали в robots.txt, а вредоносные - нет. Вы можете установить «ловушку» для плохих роботов, как это объясняется здесь: http://www.fleiner.com/bots/.
Но опять же, если вы разместите свой контент в Интернете, я думаю, что для всех будет лучше, если его найти как можно более безболезненно (на самом деле, вы публикуете здесь, а не на каком-то неубедительном форуме, где эксперты обмениваются мнениями)

up 6 down

На самом деле вы не можете остановить вредоносных сканеров - и любые меры, которые вы предпримете, чтобы предотвратить их, могут нанести вред вашим законным пользователям (за исключением, возможно, добавления записей в robots.txt, чтобы позволить обнаружение)

Поэтому вам нужно спланировать кражу контента - это, скорее всего, произойдет в той или иной форме - и понять, как вы будете бороться с несанкционированным копированием.

Профилактика невозможна, и попытка сделать это будет пустой тратой времени.

Единственный надежный способ убедиться, что содержимое веб-сайта не подвержено копированию, - это отключить сетевой кабель...

Чтобы обнаружить это используйте что-то вроде http://www.copyscape.com/ может помочь

up 5 down

Даже не пытайтесь устанавливать ограничения в Интернете!

Это действительно так просто.

Любая потенциальная мера, препятствующая копированию (кроме очень строгого robots.txt), будет вредить вашим пользователям. Капчи - скорее боль, чем выгода. Проверка пользовательского агента отключает неожиданные браузеры. То же самое относится и к «умным» трюкам с javascript.

Пожалуйста, держите Интернет открытым. Если вы не хотите, чтобы что-то было взято с вашего сайта, не публикуйте его там. Водяные знаки могут помочь вам претендовать на право собственности, но это помогает, только если вы хотите подать в суд после нанесения ущерба.

up 3 down

Единственный способ остановить сайт - это заставить пользователя доказать, что он человек.

Вы могли бы заставить пользователей выполнять задачу, которая легка для человека и трудна для машин, например: CAPTCHA. Когда пользователь впервые попадает на ваш сайт, представьте CAPTCHA и разрешите ему продолжить только после его завершения. Если пользователь начинает переходить со страницы на страницу слишком быстро, перепроверьте.

Это не на 100% эффективно, и хакеры всегда пытаются их взломать.

В качестве альтернативы вы можете сделать медленные ответы. Вам не нужно заставлять их ползти, но выбирайте разумную для человека скорость (для машины это будет очень медленно). Это просто заставляет их ломать ваш сайт, но не исключено.

ХОРОШО. Из идей.

up 2 down

Короче говоря: вы не можете предотвратить разрыв. Вредоносные боты обычно используют пользовательские агенты IE и в настоящее время достаточно умны. Если вы хотите, чтобы ваш сайт был доступен для максимального количества пользователей (например, для чтения с экрана и т.д.), Вы не можете использовать javascript или один из популярных плагинов (flash) просто потому, что они могут запретить доступ законного пользователя.

Возможно, у вас может быть задание cron, которое выбирает случайный фрагмент из вашей базы данных и находит его в поисках совпадений. Затем вы можете попытаться завладеть оскорбительным сайтом и потребовать, чтобы они удалили контент.

Вы также можете отслеживать количество запросов с данного IP-адреса и блокировать его, если он превышает пороговое значение, хотя вам, возможно, придется занести белый список в список допустимых ботов, и он не будет использоваться против ботнета (но если вы против ботнета, возможно, копирование не твоя самая большая проблема).

up 2 down

Если вы делаете публичный сайт, то это очень сложно. Существуют методы, которые включают сценарии на стороне сервера для генерации контента или использование нетекстовых (Flash и т.д.), Чтобы минимизировать вероятность копирования.

Но если честно, если вы считаете, что ваш контент настолько хорош, просто защитите его паролем и удалите его из публичной арены.

Мое мнение таково, что вся суть Интернета заключается в том, чтобы распространять полезный контент как можно большему количеству людей.

up 1 down

Если содержание является общедоступным и свободно доступным, даже с регулированием просмотра страниц или чем-либо еще, вы ничего не можете сделать. Если вам требуется регистрация и/или оплата для доступа к данным, вы можете немного их ограничить, и, по крайней мере, вы можете видеть, кто что читает, и идентифицировать пользователей, которые, похоже, очищают всю вашу базу данных.

Тем не менее, я думаю, что вы должны признать тот факт, что именно так работает сеть, и существует не так много способов помешать машине читать то, что может человек. Вывод всего вашего контента в виде изображений, конечно, обескуражил бы больше всего, но тогда сайт больше не доступен, не говоря уже о том факте, что даже пользователи, не являющиеся инвалидами, не смогут копировать и вставлять что-либо - что может быть действительно раздражающим.

В целом это звучит как DRM/системы защиты игр - бесит ваших законных пользователей только для предотвращения плохого поведения, которое вы все равно не можете предотвратить.

up 0 down

Вы можете попробовать использовать Flash/Silverlight/Java для отображения всего содержимого вашей страницы. Это, вероятно, остановит большинство сканеров на их пути.

up 0 down

Раньше у меня была система, которая блокировала или позволяла основываться на заголовке User-Agent. Он полагается на настройку сканера своего User-Agent, но, похоже, большинство из них.

Конечно, это не сработает, если они используют поддельный заголовок для эмуляции популярного браузера.

up -1 down

Используйте, где это возможно, человеческие валидаторы и попробуйте использовать какой-нибудь фреймворк (MVC). Программное обеспечение копирования сайта иногда не может скопировать такую ​​страницу. Также обнаружите пользовательский агент, по крайней мере это уменьшит количество возможных рипперов