Информационные операции в сети Интернет - [26]

Шрифт
Интервал

Заметать свои следы от профессиональных поисковых машин и приманивать поисковые машины на приманку-обманку — сегодня одни из самых простых приемов. Суть их в следующем:

1. Провести распознавание посетителя.

2. Если посетитель — поисковая машина, то подсунуть этой машине такой html, в котором просто бессмысленный набор популярных слов и выражений, используемых людьми для поиска в Интернет. В результате рейтинг сайта значительно вырастет.

3. Если посетитель — человек, предложить ему настоящее содержимое, порой не имеющее ничего общего с тем, которое прописали в себя поисковики.

Как видно, одной из главных задач для робота является получение ответа на вопрос: «Кто есть кто?»

Эта задача актуальна для людей, и она не менее актуальна для роботов.

Защита от роботов подразумевает защиту от специальных компьютерных программ, выполняющих автоматически и/или по заданному сценарию какие-либо действия через те же интерфейсы, что и обычный пользователь сети Интернет.

На сегодняшний день многие ресурсы в сети Интернет имеют защиту от роботов. Защита, как правило, построена на решении задачи из класса задач по распознаванию образов, которая легко решается человеком, но сложна для робота. На сегодняшний день используются следующие варианты:

• распознавание числа или слова, написанного различными шрифтами;

• распознавание числа или слова, написанного различными шрифтами на сложном фоне;

• распознавание изображения;

• решение математической задачи, типа: Сколько будет 2+3?

• ответ на вопрос, который хорошо известен любому человеку, например, «Который сейчас час?», «Который сегодня день недели?» и т. п.

В основе построения защиты ресурсов от компьютерных программ лежит использование captcha-фильтров.

CAPTCHA ( от англ. Completely Automated Public Turingtest-to-tell Computers and Humans Apart — полностью автоматизированный публичный тест Тьюринга для различия компьютеров и людей. Основная идея теста: предложить пользователю такую задачу, которую с легкостью может решить человек, но которую несоизмеримо сложнее решить компьютерной программе[41].

Примеры изображений, используемых в CAPTCHA см. ниже.

Могут также применяться другие, плохо алгоритмизируемые задачи, основанные на логике мышления человека, например: капчи, где необходимо выставить картинки в определенной последовательности, собрать пазл, выбрать один из предложенных вариантов решения задачи, добавить недостающий элемент в картинку, а также капчи, основанные на распознавании речи и движении мыши по определенному маршруту.

Преодоление подобного рода защиты строится на решении задачи распознавания образов и состоит из нескольких этапов:

1. В силу того, что сама защита — задача по распознаванию образов, расположена на сайте, она оформлена в соответствии с правилами оформления на языке разметки html. Поэтому первым действием необходимо считать содержимое сайта, выделить часть кода, ответственную за защиту, и проанализировать его, на предмет решения поставленной задачи, т. е. речь идет о применении классического парсинга[42] и создании для этого парсера[43].

Любой парсер состоит из трех частей, которые отвечают за три отдельных процесса парсинга:

• получение контента в исходном виде. Под получением контента чаще всего подразумевается скачивание кода веб-страницы, из которой необходимо извлечь данные или контент. Одним из самых развитых решений для получения кода требуемой страницы является библиотека cURL для языка PHP;

• извлечение и преобразование данных. В этой фазе происходит извлечение требуемых данных из полученного на первом этапе кода страницы. Чаще всего для извлечения используют регулярные выражения. Также на этом этапе происходит преобразование извлеченных данных к нужному формату, если это требуется. В случае преодоления капча-фильтра, после того как данные получены, осуществляется решение задачи распознавания образа;

• генерация результата. Завершающий этап парсинга. На нем происходит вывод или запись полученных на втором этапе данных в требуемый формат и передача результата.

2. В случае удачного решения, т. е. выявления скрытого изображения и нахождения ответа, необходимо выделить часть текста, ответственного за передачу результата на сервер, и полученный результат передать через форму непосредственно на сервер, где расположена база данных с ответами. В случае правильного ответа сервер сменит страницу сайта и пропустит программу-посетителя дальше. 

Распознавание каждого образа — это создание специального алгоритма распознавания, который базируется на выявленных слабостях конкретной капчи. Ниже приведем пример построения подобного рода алгоритма.

Например, (www.captcha.ru/breakings/phpbb/):

Довольно слабая CAPTHA: фиксированный шрифт, символы легко отделяются от фона из-за хорошего контраста. Для гарантированного получения только тех пикселей, которые принадлежат надписи, достаточно выбирать пиксели темнее некоторого порога.

увеличиваем контраст и определяем границы массивов черных точек — это и есть знакоместа.

Также слабой стороной является то, что высота расположения символа задана в шрифте, т. е. одинаковые символы будут на одной высоте (правда, при написании алгоритма распознавания это не учитывалось).


Еще от автора Сергей Павлович Расторгуев
Управление Вселенной. Женщина и Вселенная

Нет и не было никогда эволюции ни по Чарльзу Дарвину, ни по еще кому-нибудь. Было только целенаправленное многоконтурное управление. Вселенная постоянно сражается за право на существование, за право на вечность. И мир живых — это один из контуров управления Вселенной. Точно также обстоят дела и со всеми нашими мирами: витальным ли, социальным ли. Они управляемы, как всё на этом свете, но управляемы из нескольких особых точек. И ими управляют те, кто в данный момент находится в этих особых точках. Дорога в эти «выколотые» точки Вселенной иногда подобна пути Алладина к его магической лампе.


Рекомендуем почитать
Черный список

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Добавьте в корзину. Ключевые принципы повышения конверсии веб-сайтов

Работа сайта похожа на работу обычного магазина: если секции с разными товарами расположены логично, консультанты доступны в любой момент, а описания товаров информативны и понятны, есть шанс, что человек, зашедший в магазин, не уйдет с пустыми руками. Проанализируйте характеристики ваших потенциальных клиентов, поймите, что для них является ценностью, какие аргументы привлекут их внимание, соответственно этому продумайте структуру сайта, спроектируйте «маршрут» передвижения и составьте описания товаров – и ваши посетители будут гораздо чаще, чем сейчас, кликать на значок «корзины», а вы в разы повысите один из главных показателей работы сайта – конверсию.


Google. Прорыв в духе времени

Эта книга – захватывающая история самой успешной Интернет-компании в мире. В последнее время финансовый результат деятельности Google Inc. превосходит даже самые смелые ожидания инвестиционных аналитиков.Целеустремленность, научный талант, творческий поиск, смелость и любовь к эксперименту основателей компании – бывшего москвича Сергея Брина и выходца из штата Мичиган Ларри Пейджа – проложили путь к долгосрочному успеху компании. Под их руководством поисковый механизм Google стал популярнейшим ресурсом, который пользователи любят за удобство и уже испытывают к нему сильную эмоциональную привязанность.


Даркнет: Война Голливуда против цифровой революции

«Даркнет» – это рассказ о цифровой революции в мире медиа. В битве между технологическим прогрессом и медиа-магнатами решается будущее кино, музыки, телевидения, компьютерных игр и Интернета. В этой книге вы найдете истории людей, оказавшихся в эпицентре битвы. «Даркнет» увлечет вас в тайный мир киноподполья, где бутлегеры и пираты скрываются от закона и Голливуда. Но не только в подполье делается цифровая революция: множеству приверженцев цифрового образа жизни, творцам фан-фикшн, диджеев, кинематографистам-любителям, пионерам телевидения нового поколения и разработчикам игр приходится противостоять могущественным силам, стремящимся сохранить статус-кво.


Противодействие черному PR в Интернете

Черный PR сегодня активно перемещается в Интернет. В свое время кольт сделал людей равными. Сегодня Интернет уравнял финансово сильных и слабых в медиапространстве. Глобальная сеть позволяет рядовому человеку разорить могущественную корпорацию. Маленькая компания может эффективно противостоять транснациональному монстру, не располагая никакими финансами. Умение отражать информационные атаки стало на редкость насущной проблемой для любого бизнеса.В этой книге показаны все необходимые для отражения информационного нападения в Интернет инструменты и раскрыты секреты их применения.


Образование русскоязычного сегмента Фидонет в Западной Европе

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.