Справочник организаций. Принцип работы

Справочник организаций. Принцип работы

Системы поиска предприятий — это особые системы информации сформированные из различных источников.

Контентная осведомленность (или «сбор содержимого») обычно представляет собой модель push или pullВ модели push исходная система интегрирована с поисковой системой таким образомчто она подключается к ней и подталкивает новый контент непосредственно к своим APIЭта модель используетсякогда важно индексирование в реальном времениВ модели pullпрограммное обеспечение собирает контент из источников с помощью коннекторатакого как веб поиск или коннектор базы данныхКоннектор обычно обследует источник с определенными интерваламичтобы искать новыйобновленный или удаленный контент. Пример такой системы: Поисковая система / справочник организаций Plan1 http://www.plan1.ru/

Обработка и анализ контента
Контент из разных источников может иметь много разных форматов или типов документовтаких как XMLHTMLформаты документов Office или обычный текстФаза обработки контента обрабатывает входящие документы в обычный текст с использованием фильтров документовТакже часто необходимо нормализовать контент различными способамичтобы улучшить отзыв или точностьОни могут включать в себя стеблированиелемматизациюрасширение синонимаизвлечение сущностичасть речевых меток.

В рамках обработки и анализа применяется токенизация для разделения содержимого на токеныкоторые являются базовым согласующим модулемТакже обычно нормализовать токены в нижнем регистречтобы обеспечить поиск без учета регистраа также нормализовать акцентычтобы обеспечить лучший отзыв.

Индексирование
Полученный текст сохраняется в индексекоторый оптимизирован для быстрого поиска без сохранения полного текста документаИндекс может содержать словарь всех уникальных слов о компанииа также информацию о ранжировании и частоте.

Обработка запросов
Используя веб страницупользователь выдает запрос в системуЗапрос состоит из любых условийкоторые вводит пользовательа также навигационных действий.

Согласование
Обработанный запрос затем сравнивается с сохраненным индексоми поисковая система возвращает результатыссылающиеся на исходные документыкоторые ей соответствуютНекоторые системы могут представить документ по мере его индексации.

 

Отличие различных алгоритмов

Помимо различий в индексах индексируемых материаловпоисковые системы по предприятиям также обычно включают функциональные возможностикоторые не связаны с основными механизмами вебпоискаК ним относятся:

Адаптеры для индексирования содержимого из различных репозиториевтаких как базы данных и системы управления контентом.

Федеративный поисккоторый состоит из преобразования запроса и передача его в группу разрозненных баз данных или внешних источников контента с соответствующим синтаксисомобъединенные результатысобранные из баз данныхпредставление их в сжатом и унифицированном формате с минимальным дублированием и предоставление средстввыполняемых на автомате или пользователем порталадля сортировки объединенного набора результатов.

Удаление объектакоторое стремится найти и классифицировать элементы в тексте в предопределенные категориитакие как имена лицорганизацииместоположениявыражения времениколичестваденежные значенияпроценты и т.д.

Граничный поискметод доступа к коллекции информациипредставленной с использованием фасетной классификациипозволяющей пользователям исследовать путем фильтрации доступной информации.

Предыдущая запись
Бесплатная бухгалтерская программа
Следующая запись
Автоматизация ресторана. 8 основных фишек

Результатов не найдено.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Заполните поле
Заполните поле
Пожалуйста, введите корректный адрес email.

*

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Меню