Байка из жизни

После 7 лет учебы в моем красном дипломе появилась следующая запись: «Библиотекарь-библиограф высшей квалификации». Соответственно — после окончания института в 1990 году я попала на работу в районную библиотеку. И вот однажды в библиотеку приходит мальчик, лет десяти. И говорит:
— Меня мама послала за книжкой про аквариум. Сказала, что в библиотеке знают.
Я его веду к полке, где стоят книжки о разведении рыбок. Но мальчуган почему-то озадаченно таращится то на полку, то на меня…
Подходит другая библиотекарь, узнаёт мальчика (в районном центре почти все друг друга знают — а тем более постоянных читателей). И выдает юному читателю книгу Виктора Суворова «Аквариум». Эта книга о советской разведке в то время была «громкой» и за ней записывались в очередь. Так вот как раз подошла очередь этой читательницы — мамы мальчика…

Пертинентный? Нет, — релевантный

Некоторые с этими терминами уже встречались. А кто-то их слышит впервые. Должна сказать, что мы их зубрили по библиографии еще тогда, в 1980-х годах.
А означают они следующее:

Релевантность — смысловое соответствие между информационным запросом и полученным сообщением. Аквариум — разведение рыбок

Пертинентность — точное соответствие полученной информации информационной потребности пользователя. Аквариум — Виктора Суворова

Проще говоря, пертинентность — это круче, чем релевантность, потому что точнее.

Какой запрос — такой ответ

Так вот и получилось, что книжка о разведении аквариумных рыбок оказалось релевантной запросу мальчика, но не была пертинентной информационной потребности его мамы.

Так что, релевантность — это плохо?
Совсем нет.
Если информационный / поисковый запрос сформулирован точно, подробно, правильно, то релевантный ответ скорее всего явится и пертинентным (т.е. подходящим, точным).
Но, как мы увидели на примере с аквариумами, пользователи не всегда могут точно выразить собственные информационные потребности.

А при чем тут Яндекс?

Да при том, что Яндекс (точнее — любой поисковик!) тоже должен выдавать пользователю информацию и релевантную его запросу, и пертинентную его потребности.
То есть поисковик на основании запроса (иногда — неполного или искаженного) должен определить вашу информационную потребность.

Вот прямо сейчас можете озадачить Яндекс (и/или Гугл) терминами аквариум, а потом аквариум Суворова — и увидеть этот процесс наглядно.

 

Google ищет аквариум

Надеюсь, вы поняли, что в своей жизни я таки выполняла те задачи, которые сейчас, как правило, выполняют Яндекс, Гугл и прочая поисковая Ко. 😉

Надо отметить, что подобных историй каждый библиограф может рассказывать множество из своей жизни.

Согласно закону и древней традиции, Библиотека Невидимого Университета была открыта для всех желающих. <...>
Люди все равно частенько забредали сюда, в поиске ответов на вопросы, на которые предположительно могли ответить только библиотекари, например: «Это прачечная?», «Как пишется слово «конфиденциальный»?» и, чаще всего: «А нет ли у вас книжки, которую я как-то прочитал? Ну, такой, в красной обложке, и там еще оказалось, что они близнецы».
(Терри Пратчетт «Опочтарение»)

Миссия выполнима

А почему я вообще стала рассказывать библиографическую байку на блоге, посвященном сайтостроению?
Да вот тут на днях один вебмастер удивлялся: а как вообще Яндекс определяет тематику страниц?

И этот мой пост — ответ на этот недоуменный вопрос.

Господа вебмастера!
Да будет вам известно, что понятие «индексирование документов» родилось не при возникновении Яндекса или Гугла. И даже не при возникновении Интернета.

В качестве почетного помощника библиотекаря Ринсвинд продвинулся лишь немногим дальше основ индексирования книг.
(Терри Пратчетт «Посох и шляпа»)

Индексирование включает в себя:

— определение тематики документа;
— внесение документа в определенную классификацию, то есть присвоение индекса. Причем, только в библиотеках таких классификаций есть несколько: ББК — Библиотечно-Библиографическая Классификация, УДК — Универсальная Десятичная Классификация,…… — не буду больше грузить. А ведь есть еще архивные организации, где системы классификации совершенно другие… Кстати, в отличном фэнтези-романе Патрика Ротфусса «Имя ветра» есть выразительный эпизод, посвященный проблеме разных классификаций в библиотеке.
Конечно, в понятие «индексирование» входят еще несколько процессов. Но мы сейчас говорим именно об определении тематики — для последующей выдачи релевантных и пертинентных документов по запросам пользователей / читателей.

Итак, проблема индексирования, в частности, определения тематики документов разрабатывается не пару лет или десятилетий, а несколько столетий. И потому уже довольно сильно проработана. Алгоритмы для решения этого задания существуют давно.

Как Яндекс определяет тематику?

Ну, а введение той или иной системы индексации в машиночитаемую форму — то есть создание соответствующей компьютерной программы — это более простая задача, чем разработка классификации.
Конечно, алгоритмы сейчас часто обновляются и дополняются. Но определение тематики (как составная часть индексирования) — это достаточно обычное, типовое задание для информационного работника — будь то библиограф или Яндекс. 🙂

Кстати, не зря Яндекс взял себе название, которое информационному работнику (библиографу, в том числе) говорит очень и очень многое.

И прямо сейчас, на наших глазах, алгоритмы становятся всё совершеннее, и потому ответы поисковиков всё более пертинентны нашим информационным потребностям, а не только релевантны нашим запросам.

Кстати, вот история (почти анекдотическая) о том, как во времена Больших ЭВМ создавалась теория сегодняшнего яндексовского тИЦа. ну почти. 😉

Ну, а дело вебмастеров — помочь поисковикам быстрее и лучше проиндексировать материалы своего сайта, помочь точно определить тематику и ключевые слова.

Как это сделать? — ну, дык… Яндекс в помощь! 🙂 Главное — не забудьте составить правильный и точный поисковый запрос. 😉

Палю тему!

Лучше разделить их по темам. Ну, знаешь: история, мемуары, грамматика…
Патрик Ротфусс «Имя ветра»

регистрация доменов
домен RU - 99 руб
домен РФ - 99 руб
www.

Тут была реклама Google Adsense. Почему я её убрала?

Не забывайте подписываться на rss и/или твиттер блога. Нажимайте на лайки.  Сделала и веду больше 15 сайтов. Точная цифра - всё время меняется. Подробнее - читайте на странице "Мои проекты". DivaDii (ДиваДии)


.

8 комментариев: Как я работала Яндексом

  • webinspektorNo Gravatar (7 comments):

    Хм.. теперь я знаю как своей жене обьяснить что такое «релевантность» и «индексация» так чтоб она меня поняла))) Ато пару раз пытался и безрезультатно))

    • DivaDiiNo Gravatar (647 comments):

      По большому-большому секрету… Признаюсь только Вам, webinspektor. Хотя меня и в училище культуры, и потом в институте долго учили понятиям «релевантность и пертинентность», я их по-настоящему поняла только тогда, когда столкнулась на практике. Ну вот так, как описано в весёлой истории. 🙂

  • JustusNo Gravatar (12 comments):

    Еще один кирпичик новой информации для меня! Надежда, сочту за честь опубликовать ваш опус, в любое удобное для вас время! Мое рабочее мыло — …

    • DivaDiiNo Gravatar (647 comments):

      Justus, мне приятна Ваша оценка моих скромных трудов. 🙂
      С сотрудничеством, уверена, — всё получится.

  • DivaDiiNo Gravatar (647 comments):

    Спасибо за столь высокую оценку… мыслей. 🙂

  • Грамотно и четко все описано. Мне понравилось. Пошел читать дальше 🙂

  • ЕкатеринаNo Gravatar (8 comments):

    А я с вопросом не по теме (хотя про пертинентность — ново и интересно, буду знать)
    «Опочтарение» — я такого не помню у Пратчетта, это рассказ?

    • DivaDiiNo Gravatar (647 comments):

      Екатерина, «Опочтарение» — это роман о приключениях Мокриста фон Губвига (Липвига — в других переводах). В этот цикл ещё входят «Делай деньги», «Правда» и «Движущиеся картинки».

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Сколько будет? *



DivaDii, aka Надежда Лях на Google+  Вверх
Плюсани!

Интересная тема!

Герметизация межпанельных швов подробно.

Записи по месяцам:

Подпишись!


Читать Палю Тему в Твиттере




Введите Ваш email-адрес:



с помощью FeedBurner

Рассылки Subscribe.Ru
Лента "Палю тему"

Наш опрос:

Получили ли Вы полезную информацию в блоге "Палю тему"?

Результаты опроса

Загрузка ... Загрузка ...

Цифирь: