Гитика — вариант поисковой системы созданной в рамках одноимённого проекта.

С поправкой на несопоставимые масштабы системы (количество серверов и, соответственно, число индексируемых сайтов), клиент получает функциональные возможности поиска сравнимые с предоставляемыми традиционными системами (Google, Yandex, Bing), но здесь привычный поиск по ключевым словам сочетается с концептуальным поиском.

В этом смысле, Гитика "не хуже" прочих поисковых систем, и лучше их настолько, насколько пользователю нужен концептуальный поиск.

Отличие концептуального поиска от традиционного можно проиллюстрировать следующими примерами:

  • если мы набираем в поисковом запросе "управления фнс россии", традиционная система выдаст документы, содержащие данный набор слов. Система концептуального поиска, покажет документы о всех региональных структурах фнс, районных и межрайонных инспекциях, руководстве уфнс и т.д.
  • документ, описывающий "столкновение автомобилей в Ливерпуле", с точки зрения концептуального поиска вполне релевантен запросу "ДТП в Великобритании", и не имеет никакого отношения к этому запросу при обычном поиске по ключевым словам.

Интерфейс системы имеет два поля для набора поискового запроса: "Словарный поиск" и "Концептуальный поиск". Первое поле служит для задания обычного текстового запроса, то есть для поиска документов с указанными словами. А второе поле — для поиска "по понятиям". Сначала система ищет в базе знаний понятия, соотвествующие такому запросу, а уже потом документы, которые найденные понятия содержат.

Так, например, если пользователь в поле "Концептуальный поиск" набрал "ЖКХ" и в поле "Словарный поиск" — "мусор", система выдаст документы, связанные с жилищно-коммунальным хозяйством и со словами: мусор, мусора, мусоре, мусором, мусору. Если пользователь не согласен с этой интерпретацией, он может снять соответствующий значок и получить все статьи, содержащие только слово "мусор".

В текущей версии Гитика различает около 600 тысяч понятий, которые диагностирует, используя более 3-х миллионов слов и словосочетаний. Исходную информацию об актуальных понятиях и их взаимосвязях система получает от экспертной системы , которая пополняется из множества источников. Наибольший вклад в пополнение базы знаний вносит экстракция данных из Википедии. Хотя данная версия системы ориентирована только на русскоязычные тексты, применяемый метод позволяет также работать с любыми языками, представленными в Википедии. В этом смысле можно говорить, что пополнением базы знаний системы занимаются несколько тысяч экспертов.

Данная версия ежечасно индексирует около 3000 источников интернета. Индекс включает материалы с начала 1994 года по настоящее время — более 200 млн.документов из более чем 7000 источников.

экспертная система гитика, база знаний, поисковая система гитика, концептульный поиск, системы концептуального поиска, тематический категоризатор, тематическая категоризация, автоматическая категоризация, автоматическая обработка текста, автоматическое определение тематики документа, определение тематики документа, анализ текстов на естественном языке, идентификация людей, идентификация организаций, идентификация географических объектов, элементы искусственного интеллекта, текстовая категоризация, текстовый категоризатор, категоризация текстов, категоризатор текстов, категоризация текстовой информации, категоризация текстовых данных, категоризатор, категоризация

Copyright © 2007-2019 ООО «RelTeam»