Поисковику Yandex 10 лет
На момент открытия робот (сетевой паук) успел обойти 5 000 серверов (около 4 Гб текстов). Уже в первой версии системы при индексировании проверялись на уникальность документов - это значит, что, если документ существует в нескольких кодировках и/или на нескольких зеркалах, в списке найденного он будет указан один раз (и, соответственно, один раз учтен в статистике).
Алгоритмы морфологического разбора, основанные на грамматическом словаре, умели нормализовать слова, то есть находить их начальную форму. Для неизвестных Яndex'у слов строится гипотетическая словарная статья, позволяющая обрабатывать (анализировать и синтезировать) такие слова аналогично известным.
Язык запросов (как и в других продуктах Яndex), помимо стандартных логических операторов (И, ИЛИ), включает оператор исключения (И НЕ), а также позволяет осуществлять поиск внутри абзаца, внутри документа, в заголовках и других полях, а также с указанием расстояния между словами. В дополнение к обычной практике Яndex - нормализации слов при индексации и поиске, реализован также запрос по точной словоформе. Язык запросов более подробно описан на странице http://yandex.ru/ya_detail.html.
Презентация поисковой машины Яndex-Web состоялась в четверг, 25 сентября 1997 года в 16.00 на выставке Softool.
Автор - Freya. Размещено: 22 сентября 2007 21:26. Yandex 10