Интернет-разведка. Руководство к действию - [22]

Шрифт
Интервал

Некоторые ресурсы могут быть индексированы поисковыми машинами с технической точки зрения, главное – обнаружить содержимое страницы. Некоторые виды контента не индексируются информационными системами потому, что «пауки» сознательно настроены так, чтобы игнорировать те или иные адреса.

К каким-то ресурсам доступ ограничили сами владельцы страниц.

А некоторые страницы имеют такой формат, который пока еще не поддерживается поисковыми машинами.

Вот что говорят о невидимом Интернете и причинах его существования Крис Шерман и Гэри Прайс.

Парадокс невидимого Интернета в том, что легко понять, почему он существует, но трудно точно его определить в конкретных, специфических терминах.

Невидимый Интернет трудно точно определить и классифицировать по нескольким причинам.

1. Большинство страниц невидимого Интернета могут быть проиндексированы технически, но не индексируются, потому что поисковые системы решили их не индексировать. Это очень важный момент для невидимого Интернета – что поисковики просто решили исключить из индексации страницы определенного содержания. Мы не говорим о страницах со «взрослым» содержанием или спамерских сайтах, вовсе наоборот. Большинство «невидимых» сайтов имеют высококачественный контент. Просто эти ресурсы не могут быть найдены с помощью поисковых машин общего назначения, т. к. они были заблокированы.

Есть много причин, почему так происходит. Если поисковик изменит свою политику по отношению к страницам подобного рода, то эти страницы станут частью видимого Интернета.

2. Довольно легко классифицировать сайты как часть видимого или невидимого Интернета, если посмотреть на то, каким образом они работают. Некоторые сайты используют технологию баз данных, что действительно сложно сделать поисковой машине. Это действительно невидимый Интернет. Другие сайты, однако, используют сочетание файлов, которые содержат текст и которые содержат мультимедиа, а поэтому часть из них может быть проиндексирована, а часть – нет. Такие сайты нельзя отнести четко к видимой или к невидимой части Интернета.

Некоторые сайты могут быть проиндексированы поисковыми машинами, но это не делается потому, что поисковые машины считают это непрактичным – например, по причине стоимости или потому, что данные настолько короткоживущие, что индексировать их просто бессмысленно – например, прогноз погоды, точное время прибытия конкретного самолета, совершившего посадку в аэропорту и т. п.

Мы рассмотрим каждую из основных причин существования невидимого Интернета более подробно.

Ограничения возможностей поисковых машин

1. Физические ограничения скорости. Информационные системы имеют физические ограничения по скорости поиска новых страниц. Скажем так, скорость, с которой сегодня паук пытается найти новые страницы, оказывается ниже, чем скорость появления новых страниц. Ежесекундно идет негласное соревнование:

в Интернете появляются новые страницы, а поисковые машины наращивают свою мощь. Кроме добавления новых страниц, в Интернете происходят еще и исчезновение старых, а также внесение изменений в содержимое существующих, что также оттягивает на себя часть ресурсов поисковых машин. В этой постоянной гонке Интернет выигрывает у поисковых машин с большим перевесом.

2. Поиск информации – мероприятие довольно дорогостоящее. Содержание сер веров, обеспечение подключений пользователей, рассылка пауков по Интернету, индексация, исключение сдвоенной информации – все это требует немалых затрат.

Понимая, что проиндексировать все документы в Сети не реально, а расходы надо приводить в соответствие с доходами, владельцы поисковых машин вводят собственные ограничения в работе своих систем. Например, лимитируют глубину проникновения паука на сайте, общее количество страниц в индексе, пропускают старые ресурсы, на которые никто никогда не ходит, либо регламентируют частоту их повторных посещений пауком, в результате чего часть страниц устаревает.

В любом случае, когда принимается решение о вводе ограничений на работу поисковой машины, это автоматически означает, что существуют страницы, которые могли бы быть проиндексированы, чего, однако, сделано не было.

Такое положение вещей имеет необычный побочный эффект: большие сайты могут порой проигрывать небольшим по полноте охвата информационными системами.

3. Принцип попадания страниц в индекс при помощи пауков.

Паук попадает только на те страницы, на которые есть ссылки с других страниц, либо по которым делались запросы в поисковые системы с целью уточнения рейтинга страницы в поисковой системе, либо которые внесены в очередь на индексирование вручную – путем заполнения формы «Добавить страницу» («Add URL»). Соответственно, если на страницу никто не ссылался, и никто о ней не сообщал поисковой системе вручную, то такая страница не будет проиндексирована.

Кроме того, если даже паук регулярно посещает страницу, то он делает это с определенной периодичностью. Если в промежутке между двумя посещениями ресурс изменится, то это изменение некоторое время будет неизвестно поисковой системе и ее пользователям.

Таким образом, существуют две задержки по времени в индексировании страниц: когда сайт создан, но еще неизвестен поисковику, и когда паук проиндексировал страницу, но не посетил ее повторно.


Еще от автора Евгений Леонидович Ющук
Блог: создать и раскрутить

Эта книга о том, как создать в Интернете свой сетевой дневник или корпоративный блог, а затем сделать его популярным и узнаваемым. Вы сделаете известным свое имя, сможете рассказать о себе и своей фирме потенциальным клиентам, расширите горизонты своего бизнеса. Эффективность описанных в книге методов доказана автором на практике. Основное внимание в книге уделено наиболее популярным публичным сервисам. Наличие блога позволит вам реализовать несколько разных сценариев жизни, выбрать свой стиль поведения, побывать в самых разных сообществах, найти друзей.


Противодействие черному PR в Интернете

Черный PR сегодня активно перемещается в Интернет. В свое время кольт сделал людей равными. Сегодня Интернет уравнял финансово сильных и слабых в медиапространстве. Глобальная сеть позволяет рядовому человеку разорить могущественную корпорацию. Маленькая компания может эффективно противостоять транснациональному монстру, не располагая никакими финансами. Умение отражать информационные атаки стало на редкость насущной проблемой для любого бизнеса.В этой книге показаны все необходимые для отражения информационного нападения в Интернет инструменты и раскрыты секреты их применения.


Рекомендуем почитать
Продающие сайты от А до Я

По статистике у каждого второго пользователя сети Интернет есть свой сайт или страница в соцсетях. И все владельцы таких сайтов делятся на две категории – тех, кто зарабатывает с помощью своего сайта, и тех, кто не зарабатывает или даже теряет свои деньги. Вы можете создать прекрасный сайт, можете им гордиться, можете рассказывать, что ваша компания существует на рынке уже двадцать лет… Но парадокс в том, что вы должны создать сайт не для себя, а для своих клиентов, иначе не сможете убедить посетителя сайта купить товар или услугу именно у вас.Мы поможем вам создать продающий сайт – реального менеджера-продавца, круглосуточно продающего ваши товары и услуги, который привлечет бесплатных посетителей на ваш сайт и увеличит базу потенциальных клиентов, создаст продающий контент и автоматические воронки продаж, внедрит системы оплаты, приема и перевода платежей.


Ноутбук для ваших любимых родителей

Как включить ноутбук? Как его зарядить? С чего вообще начать? Зачем на клавиатуре столько кнопок? На какие нужно нажимать и в каком порядке, чтобы заработало/выключилось/включилось/открылось?..Эти и другие вопросы возникают у человека, никогда раньше не работавшего на ноутбуке. Но окружающим кажется, что включить ноутбук и начать с ним работать – это настолько элементарно, что и говорить не о чем. А многим людям терпеливое и толковое объяснение – нужно! Без четкого понимания, казалось бы, элементарных действий им сложно начать общение с ноутбуком.Эта книга все меняет! Потому что автор понимает тех, кто впервые начал общение с компьютерной техникой.


Черный список

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Продажи через интернет без воды

Эта книга-шпаргалка для всех рекламщиков и маркетологов на все времена. Основанная на многолетних исследованиях и практическом опыте. Данная книга помогла бесчисленному количеству людей увеличить продажи товаров и услуг, а также оптимизировать рекламный бюджет. В книге вы найдете более 1000 практических советов и рекламных инструментов. После прочтения этой книги: – вы окончательно разберетесь в типах сайтов, их преимуществах и недостатках; – будете иметь огромный список шаблонов продающих заголовков; получите рекомендации касательно написания текстов; – определитесь, какие рекламные инструменты стоит применять в каждой нише.


Социальные сети без страха для тех, кому за...

Чем полезен Интернет пожилому человеку? Прежде всего, неограниченными возможностями общения. Вы можете вести виртуальный дневник или общаться с друзьями в социальных сетях, делиться советами на форумах или переписываться с родственниками, живущими за рубежом, находить старых друзей и заводить новых.Книга поможет вам ориентироваться в мире социальных сетей и интерактивных сервисов, научит вас работать с ними и использовать все те возможности, которые они предоставляют. Материал книги изложен в доступной форме, что облегчает его восприятие, а различные способы выполнения тех или иных действий дадут вам возможность выбрать наиболее удобный способ именно для вас.


Дизайн-мышление: от разработки новых продуктов до проектирования бизнес-моделей

Методы и технологии, которые использует профессиональный дизайнер для создания предметов, могут быть очень успешно использованы для решения бизнес-задач, стоящих перед руководителями компаний. И это не только разработка нового продукта. Дизайн-мышление эффективно помогает переосмыслить суть бизнеса, лучше понять потребности клиентов, найти уникальную и прибыльную нишу для стартапа и даже реализовать благотворительный проект.Тим Браун, глава одной из самых успешных дизайн-компаний мира, делится своей концепцией дизайн-мышления и на многочисленных примерах доказывает ее эффективность.Все права защищены.Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав.Правовую поддержку издательства обеспечивает юридическая фирма «Вегас-Лекс»VEGAS LEX.