Главная :: Архив статей :: Гостевая :: Ссылки

Наши друзья

Архивное дело: частный архив, поиск документов в архивах стран СНГ и Европы, генеалогия, составление родословных, архивные справки

Помощь сайту

WEB-Money:
R935344738975

Наша кнопка

XArhive - архив научно-популярных и просто интересных статей

Партнеры

Главная страница > Архив новостей

Разработан новый поисковый алгоритм

Американские исследователи предложили способ поиска данных, определяющий важность документа без учета количества ссылок на него.

Поисковые машины определяют значимость найденной информации по ее соответствию набору ключевых слов. Наиболее известным способом ранжирования важности найденной информации является алгоритм ссылочного ранжирования, который каждому из найденных документов присваивает численное значение его<важности>, причем веб-страница считается тем<важнее>, чем больше на неё ссылается других страниц. Так работает поисковый алгоритм Google.

Ученые разработали более утонченный способ определения важности найденной информации в интернете и архивах. Он основан только на текстовом содержании документов и не нуждается в дополнительных, создаваемых человеком указателях ссылок и цитат. Это позволяет создать более совершенные поисковые, а также рекомендательные системы, которые автоматически собирают информацию по определенным тематикам.

Программное обеспечение, разработанное в Принстонском университете, обращается к архиву файлов и оценивает, как изменялся язык (например, частота употребления различных терминов) от документа к документу. В качестве примера можно рассмотреть архив научных статей или публикации определенных блогов. Программа анализирует доступные документы и с помощью статистических методов выявляет наиболее значимые слова и фразы в определенных категориях. Далее она выделяет часть более раннего текста, в которой содержится информация, определившая содержание последующих документов — такому тексту она присвоит высокий коэффициент значимости.

Исследователи протестировали созданную ими систему на трех архивах, содержащих тысячи статей. Статьи, которые система посчитала наиболее важными, оказались и наиболее цитируемыми. Однако в некоторых случаях их метод также выделил документы, которые цитировались мало. Исследователи определили, что в основном это были более ранние дискуссии на важные в данном контексте темы. Кроме того, иногда хорошо цитируемые документы системой были упущены. В этом случае статьи обладали определенной важностью, однако не содержали новой информации.

Исследование является частью большого проекта по разработке новых поисковых систем в крупных информационных базах. Значимым моментом является разработка инструментов, которые могут предоставлять грамотные рекомендации.<Этот метод учитывает различные способы влияния текстов друг на друга, — говорит руководитель проекта, Дэвид Бли, — он видит, в какой части документ помещает идеи или слова, заимствованные из других документов>.

Наиболее очевидным применением системы является персонализация. Программное обеспечение может определять, какого рода статьи читает пользователь и указывать ему сайты или статьи с важной для него информацией. Кроме того, ученые работают над измерением важности. Система отслеживает перемещение фраз в интернете и использует эту информацию для определения сайтов, содержащих наиболее важную информацию. Это позволило ученым написать алгоритм предсказания значимости новой публикации, основываясь на предмете обсуждения и месте появления публикации. Об этом сообщает Информнаука со ссылкой на MIT Technology review.

Главная :: Архив статей :: Гостевая :: Ссылки