Компьютерра PDA 10.07.2010-16.07.2010 - [12]

Шрифт
Интервал

В основе этой системы - новый поисковый робот под названием Orange. Он отслеживает появление в интернете новых страниц и буквально за секунды включает их поисковую базу. Когда происходит поиск, их оттуда извлекает так называемый "Real-Time поиск". В блоге компании сообщаются некоторые подробности устройства нового поискового механизма. В частности, говорится о том, что в первую очередь он старается обращать внимание на новостные и прочие часто обновляемые сайты.

Сообщается также, что обе технологии были созданы в калифорнийской офисе компании в рамках инициативы Yandex.Labs. Федор Романенко, менеджер качества поиска, раскрыл для "Компьютерры" некоторые детали.

- Есть ли у быстрого робота какие-то особенности индексации? Или же это просто отдельная версия обычного поиска, ориентированная на часто обновляющиеся сайты?

Задача двух новых технологий Яндекса - робота "Orange Crawler" и "Real-Time поиска" - уменьшить до считанных секунд время появления новых важных страниц в поиске, которое раньше можно было сократить для части документов до 20 минут (но не устранить полностью), а также рассчитывать ссылочные факторы, которые используются для отбора самых интересных страниц и их ранжирования на поиске.

Для этого робот Orange должен уметь обрабатывать и индексировать документы (в частности, рассчитывать ссылочные факторы ранжирования) по одному, в отличие от большого робота, который сортирует страницы "пакетами" - какое-то время готовит версию индекса с новыми документами, обрабатывая сразу много страниц, потом выкладывает её на поиск. Обработка документов по одному позволяет сократить до секунд время выкладки конкретного документа, но более затратна с точки зрения нагрузки на сервера; к тому же она не позволяет вычислять факторы ранжирования, основанные на глобальной статистике по всем страницам, и факторы класса PageRank.

При этом Orange и "большой робот" работают вместе: новый робот подготавливает "быструю" часть поисковой базы, которая должна использоваться совместно с основной базой.

Другая новая технология Яндекса - "Real-Time поиск" - на ходу добавляет документы в поисковую часть по одному за секунды (обычный поиск работает на индексе, который обновляется целиком с некоторой периодичностью).

- Чтобы показывать наиболее актуальные результаты, найденные быстрым поиском, их нужно ставить выше в выдаче поисковика. Значит ли это, что сайт, обновляющийся чаще, получит преимущество при ранжировании?

Задача поисковика - выдавать релевантную информацию по любому запросу. Необходимо понять, обязательно ли релевантный ответ на конкретный запрос должен быть свежим. Если должен, и на некотором сайте есть релевантные свежие страницы, то они могут быть показаны в результатах поиска. Но сам факт свежести страницы не является достаточным, релевантность определяется с помощью сотен факторов ранжирования с применением технологии Матрикснет.

- Входят ли блоги и социальные сети в круг индексируемых быстрым поиском сайтов или ими отдельно занимается движок "Яндекс.Блогов"?

Да, Orange работает в связке с поиском по блогам "Яндекса" и получает от него информацию о новых постах. Но он индексирует её не на 100%, отбирая более ценные сообщения по разным критериям - в их числе, например, авторитетность блога. Это связано, в частности, с тем, что блогохостинги - очень крупные сайты, имеющие ограничения на количество скачиваний url в сутки.

- В пресс-релизе сказано, что быстрый поиск стремится находить в первую очередь новости. Используется ли для этого каким-нибудь образом алгоритм "Яндекс.Новостей"? Использует ли быстрый поиск каналы RSS, отдаваемые сайтами?

Мы используем много разных способов получения сигналов о появлении новой информации в интернете. Один из механизмов - из RSS-потоков партнеров "Яндекс.Новостей"; в то же время, Orange умеет и самостоятельно обнаруживать и прокачивать RSS-потоки в интернете, частота переохода которых зависит от авторитетности сайта. Общая рекомендация для вебмастеров - помимо создания RSS-потоков не забывать ставить на них ссылки из заголовков html страниц вида , это увеличивает шанс обнаружения RSS-потока и получения им большего веса

- Требует ли быстрый поиск какого-то особенно быстрого канала? Или те секунды, за которые он срабатывает - это и есть скорость скачивания страниц?

Средняя скорость скачивания страницы из интернета находится в пределах одной секунды. Orange не нужно скачивать больше страниц, чем "большому роботу", который вынужден регулярно освежать все когда-то скачанные страницы. Таким образом, никаких специальных требований к скорости канала для Orange нет.

- Быстрый поиск устроен как распределённая система - есть ли у "Яндекса" другие сервисы, построенные тем же образом?

Практически все сервисы "Яндекса" работают на кластерах, однако у каждого сервиса своя специфика, поэтому в "Яндексе" применяются разные ПО и библиотеки для распределенной обработки запросов.

Большинство наших крупных сервисов, кроме, например, "Яндекс.Почты" или "Яндекс.Директа", требуют моментального ответа на запрос, но не требуют моментальной обработки данных. Поэтому задача, которую нам пришлось решать для создания архитектуры "свежего" поиска, нетипична - в её рамках мы должны одновременно обрабатывать огромное количество страниц, но таким образом, чтобы задержка для каждой измерялась секундами. Робот Orange и "Real-Time поиск" - первые проекты на этой технологи; возможно, в будущем она будет применяться и для других сервисов "Яндекса".


Еще от автора Журнал «Компьютерра»
Компьютерра, 2008 № 01-02 (717-718)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2007 № 15 (683)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2008 № 10 (726)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2005 № 27-28 (599-600)

Документ создан на основе открытого контента, расположенного по адресуhttp://offline.computerra.ru/2005/599/Размер изображений не менялся, поэтому некоторые могут быть некорректно отображены на неVGA-моделях КПК (особенно скриншоты и таблицы).


Цифровой журнал «Компьютерра» 2013 № 18 (171)

ОглавлениеКолонкаПочему мы позволяем нас обманывать, или Грустные размышления об иррациональности политической жизни Автор: Дмитрий ШабановГолубятня: Samsung Galaxy S4 — цидули перебежчика (часть 1) Автор: Сергей ГолубицкийУроки любви к Родине: McAfee патентует технологию обнаружения и блокировки пиратского содержания Автор: Сергей ГолубицкийПодпадает ли астрономия под закон о митингах Автор: Дмитрий ВибеIT-рынокНасколько глупа шумиха вокруг «умных» часов? Автор: Андрей ПисьменныйПромзонаПосмотрите на свалку, которую китайцы превратили в парк Автор: Николай МаслухинЭтот сайт позволяет создать собственное световое шоу на точном макете Токио Автор: Николай МаслухинТехнологииДжипег, подвинься! Веппи как единственный необходимый графический формат Автор: Евгений ЗолотовИнновацииПочему менеджерам российских корпораций не нужны стартапы Автор: Елена КраузоваИнга Нахмансон (Fitting Reality): «Российскому e-commerce не до виртуальности» Автор: Елена КраузоваГидGoogle Now для iOS появился без лишнего шума и уже собирает сведения Автор: Андрей Васильков.


Цифровой журнал «Компьютерра» 2012 № 01 (101)

ОглавлениеСтатьиTertium datur: другие компьютеры Автор: Евгений Лебеденко, Mobi.ruИнтервьюПавел Фролов («ГНУ/Линуксцентр») о НПП Автор: Евгений КрестниковА. Самсонов о троичной логике и цифровой археологии Автор: Андрей ПисьменныйКолумнистыВасилий Щепетнёв: Месть индейских вождей Автор: Василий ЩепетневКивино гнездо: Беззаконие роботехники Автор: Киви БердКафедра Ваннаха: Подарки и конструкции Автор: Михаил ВаннахАлександр Амзин: Силой данного мне природой мозга Автор: Александр АмзинВасилий Щепетнёв: Гимн усталому караулу Автор: Василий ЩепетневКивино гнездо: Беззаконие роботехники (окончание) Автор: Киви БердДмитрий Шабанов: Марков и Эволюция человека Автор: Дмитрий ШабановКафедра Ваннаха: Пришельцы на Луне Автор: Михаил ВаннахГолубятня-ОнлайнГолубятня: Даже гоблин ходит в отпуск Автор: Сергей ГолубицкийГолубятня: Железный парад 2011 Автор: Сергей Голубицкий.


Рекомендуем почитать
Цифровой журнал «Компьютерра» 2012 № 48 (148)

ОглавлениеКолумнистыДмитрий Вибе: Заблудшая планета Автор: Дмитрий ВибеВасилий Щепетнёв: Укрепление тары Автор: Василий ЩепетневКафедра Ваннаха: Душа по Пенроузу Автор: Михаил ВаннахГолубятня-ОнлайнГолубятня: Аудиофилия второй волны Автор: Сергей Голубицкий.


Компьютерра PDA N136 (17.09.2011-23.09.2011)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Ужастик ЕвернотВаннах Михаил: Кафедра Ваннаха: Углерод и кремнийДенис Злобин: Пиратство: почему мы перестали ценить информациюСергей Голубицкий: Голубятня: Исход из 1PasswordВасилий Щепетнев: Василий Щепетнёв: Исчезновение столицыДмитрий Шабанов: Аргумент ХойлаАлла Аршинова: Александр Бондарь (ИЯФ СО РАН) о megascience-проектахВаннах Михаил: Кафедра Ваннаха: Удешевить странуЮрий Ильин: После шаттла: "Клипер" и "Русь"Киви Берд: Кивино гнездо: Дежавю, или Хождение по кругуСергей Голубицкий: Голубятня: News360 и ZiteВасилий Щепетнев: Василий Щепетнёв: Светлая сторона торгаАлександр Амзин: Возникнут модыАндрей Федив: Обзор Windows 8 Developer PreviewВаннах Михаил: Кафедра Ваннаха: Демократия хищных вещейДмитрий Вибе: Почтальон сойдёт с ума.


Компьютерра PDA N142 (22.10.2011-28.10.2011)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Хронотоп детстваВасилий Щепетнев: Василий Щепетнёв: Колхоз имени Тома СойераЕвгений Лебеденко, Mobi.ru: Микропроцессор Hobbit: на каком языке говорили полуросликиВаннах Михаил: Кафедра Ваннаха: Intel в зеркале финансов Киви Берд: Кивино гнездо: Стены и мосты Олег Нечай: Обзор NAS Buffalo Link Station Pro Duo 2 ТВВасилий Щепетнев: Василий Щепетнёв: Без параллелейЕвгений Крестников: Валентин Макаров (РУССОФТ) о тендере на создание НППВаннах Михаил: Кафедра Ваннаха: Выкидуха в боюДмитрий Шабанов: Аргумент ГоссеАлександр Амзин: На отвлечённую темуСергей Голубицкий: Голубятня: Будучи ТАМВасилий Щепетнев: Василий Щепетнёв: До двенадцатого знакаДмитрий Вибе: Немного холодной воды у солнцаАндрей Федив: Обзор телефона Apple iPhone 4S.


Компьютерра PDA N174 (19.05.2012-25.05.2012)

ОГЛАВЛЕНИЕДмитрий Вибе: Ударим Венерой по МарсуВасилий Щепетнев: Василий Щепетнёв: После точкиСергей Голубицкий: Голубятня: От ашрама-дхармы к президенту-вампируДмитрий Шабанов: Объемное слышаниеОлег Нечай: PocketBook A 10": планшет, притворяющийся ридеромДмитрий Вибе: Так будет не всегда.


Цифровой журнал «Компьютерра» 2012 № 28 (128)

ОглавлениеСтатьиОбратная сторона эпохи пост-ПК: 30-долларовый компьютер Raspberry Pi Автор: Андрей ПисьменныйТерралабКак производятся материнские платы Автор: Олег НечайКолумнистыКафедра Ваннаха: Европейский лидер Автор: Михаил ВаннахВасилий Щепетнёв: Честь пикейного жилета Автор: Василий ЩепетневДмитрий Шабанов: Судьба точек роста в системе декоративного образования Автор: Дмитрий ШабановДмитрий Вибе: Лунная астрономия Автор: Дмитрий ВибеГолубятня-ОнлайнГолубятня: Про одного битого зелёного слоника Автор: Сергей ГолубицкийГолубятня: 4 спичечных коробка Автор: Сергей Голубицкий.


Цифровой журнал «Компьютерра» 2012 № 08 (108)

ОглавлениеКолумнистыКафедра Ваннаха: Горячая цифровая война Автор: Михаил ВаннахДмитрий Шабанов: Парадокс ускорения эволюции Автор: Дмитрий ШабановКивино гнездо: Пароль для серой зоны Автор: Киви БердВасилий Щепетнёв: Предсказания и пророчества Автор: Василий ЩепетневДмитрий Вибе: Мы сверху Автор: Дмитрий ВибеГолубятня-ОнлайнГолубятня: Идеальный мобильный звук. Часть вторая Автор: Сергей Голубицкий.


Компьютерра PDA N79 (18.12.2010-24.12.2010)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Ваймучени из Пятого МираВаннах Михаил: Кафедра Ваннаха: Машины культурЕгор Емельянов: Всё, что нужно знать о четвёртом поколении Eee PCЕвгений Крестников: Российские IT-компании за рубежом: ISDEFВасилий Щепетнев: Василий Щепетнёв: Ответ векаАлександр Деревянко: Как Nvidia Optimus помогает экономить энергиюЕвгений Крестников: Российские IT-компании за рубежом: SpiritОлег Нечай: Платформа ПК: чего ждать в 2011 годуЕгор Емельянов: Софт: SIPPOINT - клиент для сети SIPNETОлег Нечай: Интегрированная графика в ноутбукахАлла Аршинова: Вадим Яковлев (ИК СО РАН) о перспективах биотопливаВасилий Щепетнев: Василий Щепетнёв: Двадцать восьмое желаниеЮрий Ильин: Кирилл Фаенов о суперкомпьютерах и MicrosoftСергей Голубицкий: Голубятня: Подстава (окончание)Олег Нечай: Оптические приводы DVD и Blu-ray в современных ноутбукахВаннах Михаил: Кафедра Ваннаха: Ирландия – виски и прочееПавел Скоков, Mobi.ru: Highscreen Hippo - коммуникатор в планшетеЕвгений Крестников: Российские IT-компании за рубежом: ЦРТАнатолий Вассерман: Твердотельные накопители.


Компьютерра PDA N65 (30.10.2010-05.11.2010)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Debtinator. Часть 2Фёдор Кустов: Чистое будущее с инновациями от Delta electronicsВасилий Щепетнев: Василий Щепетнёв: Идентификация И.Андрей Письменный: Чего стоит ждать от Windows 8Фёдор Кустов: Тест смартбука Toshiba AC100Юрий Ильин: Елена Чуракова ("Т-Платформы") о российских суперкомпьютерах и выходе на западный рынокВаннах Михаил: Кафедра Ваннаха: Угрозы и технологииЕвгений Крестников: Тест ноутбука DELL  Latitude E6410Андрей Письменный: ABBYY помогает программистам с переводомАнатолий Вассерман: Лицензии MicrosoftСофья Скрылина: Софт: Защищаем компьютер с помощью BitDiskВасилий Щепетнев: Василий Щепетнёв: Броня для "Я"Алла Аршинова: Владимир Каширцев (ИНГиГ СО РАН) о том, закончится ли нефтьНика Парамонова: Тест ноутбука ASUS U53JcСергей Голубицкий: Голубятня: Шершень-коматозЮрий Ильин: ARPAnet: начало и конец.


Компьютерра PDA N167 (07.04.2012-13.04.2012)

ОГЛАВЛЕНИЕВасилий Щепетнев: Василий Щепетнёв: ЭлектрозависимостьСергей Голубицкий: Голубятня: Вымывание традицииЮрий Ильин: Крис Каспрзак (Siemens PLM Software) о PLMМихаил Ваннах: Кафедра Ваннаха: Забыть Макнамару?Сергей Голубицкий: Голубятня: Дело русских "медведей": fiat lux!Олег Нечай: Отзывчивые экраны: гаптические технологии в дисплеяхДмитрий Вибе: Уси-пуси, Вселенная.


Компьютерра PDA N54 (04.09.2010-10.09.2010)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Оттачиваем дефиницииМихаил Карпов: Глава Twitter рассказал об информационной перегрузкеНиколай Маслухин: Промзона: Кроссовки из "Назад в будущее"Василий Щепетнев: Василий Щепетнёв: На пальмы!Юрий Ильин: Вокруг Apple сгущаются "облака"Михаил Карпов: Конкурс для любителей электронных книгИгорь Осколков: Клавиатура Thermaltake Challenger Pro для геймеровАндрей Письменный: IFA 2010: Раз планшет, два планшетВаннах Михаил: Кафедра Ваннаха: Мемристоры и приемные детиСергей Голубицкий: Голубятня: Почему умрёт AndroidНиколай Маслухин: Промзона: Стерилизатор кухонных досокМихаил Карпов: NASA разрабатывает "рой" спутников-"камикадзе"Олег Нечай: Память из оксида кремния: дефект не всегда дефектМихаил Карпов: Полиция совершила рейды на серверы "варезных" группЕвгений Крестников: Google Wave закроется не совсемМихаил Карпов: Семь самолётов помогут лучше понять ураганыНиколай Маслухин: Промзона: Браслет-смартфонМихаил Карпов: Google будет искать без запросовВасилий Щепетнев: Василий Щепетнёв: МетаинфляцияOtto Diggman: Readitorial: Сумма будущего.