Хелпикс

Главная

Контакты

Случайная статья





Конспект урока Средства поиска информацииWWW



Конспект урока "Средства поиска информацииWWW"

 

На прошлых уроках мы узнали что интернет – это не только система компьютерных сетей, а так же и глобальная информационная система, которая предоставляет пользователям возможности доступа к информации, а так же общения между собой.

Возможности, которые предоставляет интернет, представлены его службами, которые можно разделить на информационные и коммуникационные. Информационные службы – предоставляют пользователям доступ к различной информации, а коммуникационные – дают возможность общения между собой.

Самой массовой службой интернета, является всемирная паутина. Она предоставляет пользователям доступ к информации в виде сайтов.

Вспомним, что любой компьютер, подключённый к интернету получает уникальный тридцатидвухбитный идентификатор, или IP-адрес.

Который для удобства восприятия пользователями делится на четыре октета, а затем значение каждого из них переводится в десятичную систему счисления. Полученные числа записываются по порядку и разделяются точками. Благодаря доменной системе имён или DNS некоторые узловые компьютеры так же получают уникальные символьные имена, которые называются доменными. Доменные имена имеют иерархическую структуру, доменное имя содержит название самого домена, а также всех доменов, в которые он входит. Они записываются от последнего уровня к первому, разделяясь точками.

Всемирная паутина так же является структурой данных. Она состоит из документов, которые связаны между собой гиперссылками. Текст, который содержит гиперссылки, называется гипертекстом.

Всемирная паутина работает по системе «клиент-сервер» согласно протоколу передачи гипертекста HTTP. Так компьютер-клиент, отправляет запрос на веб-сервер, который содержит веб-страницы, а веб-сервер отправляет клиенту указанную в запросе страницу или, если она недоступна – сообщение об ошибке. Для запроса нужной веб-страницы используется её универсальный указатель ресурса или URL», состоящий из названия сетевого протокола, доменного имени веб-сервера, а также расположения ресурса, на сервере.

Мы уже знаем, что для того, чтобы просмотреть веб-страницу, достаточно ввести её универсальный указатель ресурса в адресную строку браузера. Предположим нам нужно найти во всемирной паутине информацию об аквариумных рыбках, но мы не знаем ни одного сайта, который бы содержал нужную нам информацию. Здесь нам могут помочь средства поиска информации во всемирной паутине.

Сегодня мы поговорим о поисковых службах сети интернет, рассмотрим работу поисковых каталогов и указателей, узнаем об их сходствах и отличиях.

Всемирная паутина – это система документов, которые связаны между собой гиперссылками. Но связи на основе гиперссылок не постоянны. Например, указатель гиперссылки может быть изменён или же веб-страница, на которую он указывает, может быть удалена. Таким образом, единственный способ найти нужный нам документ – его универсальный указатель ресурса, но он никак не связан с содержанием документа.

Если же нам необходимо найти веб-страницу с содержимым по конкретной теме, необходимо воспользоваться одной из поисковых служб интернета. Услуги этой службы предоставляют специальные поисковые серверы, которые по принципу работы можно разделить на поисковые каталоги и поисковые указатели. Рассмотрим обе разновидности.

Начнём с поисковых каталогов. Как говорилось ранее, первый веб-сайт был размещён создателем всемирной паутины Тимом Бернерсом-Ли в тысяча девятьсот девяносто первом году. После его запуска, стали появляться и другие веб-сайты, но их было не много. Тогда на свой сайт Бернерс-Ли добавил раздел «What’s new» что в переводе означает «Что нового?», в котором стал публиковать список, появляющихся веб-сайтов с описанием. Этот список считается первым поисковым каталогом.

Рассмотрим общий принцип работы поисковых каталогов. Кто посещал библиотеки, тот знает, что книги в них распределены по специальным разделам, или каталогам на пример в алфавитном порядке. Так же они могут быть разделены на каталоги соответственно тематике. Такие каталоги могут образовывать иерархическую систему. Так в начале все книги могут быть разделены на учебную литературу, художественную и общественно-политическую. Далее, на пример художественную литературу можно разделить на стихи и прозу. Далее, каждый раздел можно разбить по жанрам, а их, в свою очередь, по авторам.

Так же и в поисковых каталогах веб-страницы, делятся на разделы, соответственно теме, которые образуют иерархическую структуру. Данные каталоги заполняются людьми вручную, то есть люди сами распределяют веб-сайты по темам.

Самые популярные поисковые каталоги в русскоязычном сегменте интернета, это каталоги «yandex» и «mail.ru».

Рассмотрим содержание поискового каталога на примере каталога «yandex». На главной странице каталога размещены гиперссылки на страницы каталогов по темам. Войдя в раздел дом, мы видим подразделы данной темы, а также список сайтов, содержащихся в данном разделе, расположенных по убыванию количества ссылок на них. Войдя в раздел кулинария, мы видим его подразделы, а также сайты, которые в нем содержатся и так далее. Исходя из того, что поисковые каталоги пополнятся людьми, следуют их достоинства и недостатки. Так как сейчас, небольшой группе людей не под силу просмотреть все веб-страницы всемирной паутины, содержание поисковых каталогов весьма ограничено. Так как человеку под силу определить тематику конкретного сайта количество случайных гиперссылок в них минимально.

Очевидно, что с ростом количества сайтов во всемирной паутине, сейчас их более одного миллиарда, возникла необходимость в других инструментах поиска, которые обеспечивали бы просмотр содержимого большого количества веб-страниц за короткое время. Таким инструментом стали поисковые указатели.

Поисковые указатели можно сравнить с предметными указателями в учебной или научной литературе. Они содержат список основных терминов, использованных в книге и номера страниц с их определениями.

Программное обеспечение поискового указателя можно разбить на четыре части. Это поисковый робот, их так же могут называть пауками или краулерами, программа индексатор, база данных, которая содержит информацию о веб-страницах, а также веб-интерфейс, с которым работает пользователь.

Рассмотрим, как работают поисковые указатели и как взаимодействует их программное обеспечение. Начнём с поисковых роботов. Это специальные программы, которые перемещаются по ссылкам, с одной веб-страницы, на другую и анализируют их, собирая данные. Например, определяют, какие слова на странице встречаются чаще всего, какие слова встречаются в её заголовках, как давно она существует и по скольким ссылкам к ней можно перейти.

Первые поисковые роботы, анализировали только содержание заголовков веб-страницы, так как на анализ всего содержимого уходило слишком много времени. Администратор поисковой системы может корректировать модель поведения поисковых роботов, запрещая им переход по некоторым гиперссылкам.

Поисковые роботы, передают собранную информацию о страницах индексатору, который её анализирует и присваивает веб-странице определённый числовой рейтинг, или индекс, соответственно различным словам, которые могут содержаться в запросе пользователя.

Алгоритмы работы индексаторов могут отличаться от одной поисковой системы к другой. Их содержание может патентоваться и держаться в секрете. Сильно повлиял на развитие программ-индексаторов алгоритм, «Page Rank», на русский язык его название можно перевести как рейтинг страницы. Данный алгоритм был впервые применён в поисковой системе «Гугл». Он был описан в статье «Анатомия системы крупномасштабного гипертекстового интернет-поиска» в тысяча девятьсот девяносто восьмом году. В данном алгоритме, впервые предлагалось, при подсчёте индекса учитывать количество гиперссылок на саму страницу, а также индексы страниц, на которых эти ссылки размещены. Это делалось, исходя из предположения о том, что чем больше существует ссылок на веб-страницу, тем она важнее.

В соответствии с индексами, определёнными индексатором, URL-указатели веб-страниц сохраняются в базе данных. Веб-интерфейс отвечает за то, чтобы принять запрос, который ввёл пользователь, взять из базы данных адреса и описания веб-страниц, связанных с запросом, а затем вывести их в окне браузера в соответствии с индексами.

Самыми популярными поисковыми указателями в русскоязычном сегменте интернета являются «Яндекс», «Рамблер» и «Google». В сравнении с поисковыми каталогами поисковыми указателями обрабатывается большее количество веб-страниц, но так как их анализ производится программами, поисковые указатели могут выводить большое количество случайных гиперссылок.

Сегодня мы рассмотрели средства поиска во всемирной паутине. Мы узнали, что для поиска информации по конкретной тематике во всемирной паутине можно использовать поисковые службы. Которые в зависимости от принципа работы можно разделить на поисковые каталоги и поисковые указатели. Поисковые каталоги имеют иерархическую структуру, пополняются людьми, содержат информацию о небольшом количестве веб-страниц, практически не содержат случайных ссылок. Поисковые указатели пополняются программами поисковыми роботами, веб-страницы в них получает рейтинг в соответствии с алгоритмами индексирования, список веб-страниц пользователь получает в соответствии с их рейтингом.

 



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.