Справочник организаций. Принцип работы
Системы поиска предприятий — это особые системы информации сформированные из различных источников.
Контентная осведомленность (или «сбор содержимого») обычно представляет собой модель push или pull. В модели push исходная система интегрирована с поисковой системой таким образом, что она подключается к ней и подталкивает новый контент непосредственно к своим API. Эта модель используется, когда важно индексирование в реальном времени. В модели pull, программное обеспечение собирает контент из источников с помощью коннектора, такого как веб поиск или коннектор базы данных. Коннектор обычно обследует источник с определенными интервалами, чтобы искать новый, обновленный или удаленный контент. Пример такой системы: Поисковая система / справочник организаций Plan1 http://www.plan1.ru/
Обработка и анализ контента
Контент из разных источников может иметь много разных форматов или типов документов, таких как XML, HTML, форматы документов Office или обычный текст. Фаза обработки контента обрабатывает входящие документы в обычный текст с использованием фильтров документов. Также часто необходимо нормализовать контент различными способами, чтобы улучшить отзыв или точность. Они могут включать в себя стеблирование, лемматизацию, расширение синонима, извлечение сущности, часть речевых меток.
В рамках обработки и анализа применяется токенизация для разделения содержимого на токены, которые являются базовым согласующим модулем. Также обычно нормализовать токены в нижнем регистре, чтобы обеспечить поиск без учета регистра, а также нормализовать акценты, чтобы обеспечить лучший отзыв.
Индексирование
Полученный текст сохраняется в индексе, который оптимизирован для быстрого поиска без сохранения полного текста документа. Индекс может содержать словарь всех уникальных слов о компании, а также информацию о ранжировании и частоте.
Обработка запросов
Используя веб страницу, пользователь выдает запрос в систему. Запрос состоит из любых условий, которые вводит пользователь, а также навигационных действий.
Согласование
Обработанный запрос затем сравнивается с сохраненным индексом, и поисковая система возвращает результаты, ссылающиеся на исходные документы, которые ей соответствуют. Некоторые системы могут представить документ по мере его индексации.
Отличие различных алгоритмов
Помимо различий в индексах индексируемых материалов, поисковые системы по предприятиям также обычно включают функциональные возможности, которые не связаны с основными механизмами веб—поиска. К ним относятся:
Адаптеры для индексирования содержимого из различных репозиториев, таких как базы данных и системы управления контентом.
Федеративный поиск, который состоит из преобразования запроса и передача его в группу разрозненных баз данных или внешних источников контента с соответствующим синтаксисом, объединенные результаты, собранные из баз данных, представление их в сжатом и унифицированном формате с минимальным дублированием и предоставление средств, выполняемых на автомате или пользователем портала, для сортировки объединенного набора результатов.
Удаление объекта, которое стремится найти и классифицировать элементы в тексте в предопределенные категории, такие как имена лиц, организации, местоположения, выражения времени, количества, денежные значения, проценты и т.д.
Граничный поиск, метод доступа к коллекции информации, представленной с использованием фасетной классификации, позволяющей пользователям исследовать путем фильтрации доступной информации.