О портале
О проекте
Статьи

Документальная поисковая машина MBD SE Doc Server 2017


Назначение

  • Невозможно представить Интернет без поиска по полным текстам сайтов. Это уже было бы не свободное информационное пространство, а склад источников, доступных только по известному адресу
  • Сейчас, для книг, справочников, журналов, газет, техдокументации, Интернет это просто склад, с возможностью скачивания файлов. Размещение документов с доступом по содержанию возможно только в отдельных специализированных системах
  • Цель нашего проекта, создать Интернет платформу для массового доступного хостинга любых документальных материалов, вывода их в информационное пространство, доступное для такого же, как для сайтов поиска и навигации.
  • Кроме платформы общего доступа мы предлагаем создание самостоятельных документальных Интернет порталов для частных и государственных заказчиков.

  • Области применения

  • Электронные библиотеки любого уровня и назначения в Интернете
  • Индивидуальные и коллективные ЭБС для ВУЗов
  • Документальные порталы для текущих материалов и архивов книжных и журнальных издательств, онлайн издания
  • Информационные системы - интеграторы технической и служебной документации в масштабе отрасли или крупной корпорации
  • Документальные базы данных в Интернете для физических и юридическихих лиц
  • Тематические сообщества в Интернете
  • Как основа для глобального документального Интернет проекта

  • Российская атрибутивно-полнотекстовая поисковая машина MBD SE Doc Server 2017

    Существующие аналоги

  • Аналог, на характеристики которого мы ориентировались при создании своего продукта – поисковая машина американского проекта books.google, считающаяся лучшей в это области. По основным характеристикам, таким как производительность, представление результатов поиска, навигация по базе данных, и другим, наша программа не уступает американскому.
  • Отличие нашего проекта в самой концепции. Если books.google это прежде всего проект одной компании, созданный "под себя", то целью нашего проекта является создание готового решения для различных пользователей, в том числе интернет платформы общего пользования для документального хостинга и документального поиска.

  • Страна происхождения проекта и компании-разработчика

  • ООО "МБД СОФТ", Россия, Москва. Основана в 2006г.
  • Основатели: Валерий Захарченко (к.т.н., МФТИ), Алексей Захарченко (к.ф-м.н., МГУ)
  • Программная платформа "MBD SE Doc Server" является полностью отечественной разработкой, не имеющей аналогов на российском рынке.
  • Поисковая машина "MBD SE Doc Server" разработана с нуля, без использования заимствованных программ и технологий
  • Языки программирования: MASM, Microsoft Visual C++, PHP.

  • Новые решения, реализованные в программе:

  • Абсолютное большинство документальных систем осуществляют медленный двухэтапный поиск информации, сначала ищут документ, а затем отвечающую запросу информацию в самом документе. Наша программа сразу ищет и выводит только точные копии нужных страниц документов, в обычном браузере, без установки специальных программ.
  • Модуль полнотекстового поиска использует разработанные нами алгоритмы, позволяющие производить поиск документов со скоростью и эффективностью, не уступающей поиску обычных сайтов лучшими поисковым машинами Интернета.

  • База данных

  • Общий объём БД до 10 миллионов документов (на 1 сервер)
  • Возможно создание серверного кластера на неограниченное число документов
  • Содержит преобразованные страницы исходных документов
  • Содержит поисковый индекс для полнотекстового поиска
  • Основной формат загружаемых документов - pdf с текстовым слоем и djvu
  • Основной формат хранимых документов - комбинированный (флеш, html5, txt)
  • Неограниченное количество страниц в каждом исходном документе
  • Любые виды документов: служебные документы, книги, журналы, газеты, техническая документация

  • Полнотекстовая поисковая машина

  • Простота и удобство интерфейса на уровне поисковиков Интернета
  • Полнотекстовый поиск по всей БД до 1 сек
  • Поиск с морфологическим словарем
  • Неограниченное число слов в запросе
  • Мгновенный вывод всех страниц с найденной информацией
  • Неограниченное число пользователей
  • Расширенный логический поиск
  • Расширенный поиск по реквизитам документов
  • Регулировка допустимого расстояния между словами при поиске

  • Морфологический словарь

  • Словарь состоит из отдельных групп близких по значению слов
  • В группу входят не только различные формы одного слова и синонимы, но и ассоциативно близкие слова и ссылки
  • Каждая группа слов имеет свой код
  • При индексировании документа каждое слово заменяется кодом близкой ему группы
  • При обработке запроса каждое слово также заменяется кодом его группы
  • При поиске коды групп запроса сравниваются на совпадение или близость с кодами групп документа
  • Словарь представляет собой самостоятельный блок системы, заменяемый, в зависимости от задачи, как магазин с патронами.
  • Для мультиязычного поиска могут использоваться различные словари или один объединенный
  • Предусмотрена сервисная программа для пополнения словаря профессиональной лексикой (в заказных системах)
  • В базовой версии системы используется словарь, включающий 1,5 млн словоформ русского языка и 50 тыс английского
  • Слова, не вошедшие в словарь, ищутся в текстах на полное соответствие с добавлением некоторых словоформ

  • Алгоритмы поиска

  • Основной поиск сочетает поиск по реквизитам описания документа (если оно есть) и поиск по текстам документа
  • Реквизиты документа при поиске задаются через меню рубрик и типов документа или расширенный поиск
  • Если атрибуты документа при поиске не заданы, то поиск производится только по текстам, включая описания
  • При текстовом поиске коды морфологических групп запроса сравниваются с кодами морфологических групп страниц документов
  • В базовой версии сравнение кодов запроса и кодов содержания страницы использует логические операторы.
  • По умолчанию используется логический оператор "И". Для оператора "ИЛИ" используются скобки в запросе
  • Соответствующие запросу коды на странице документа оцениваются по расположению на странице
  • Найденные коды должны быть близко расположены, чтобы составлять компактную смысловую группу
  • Дистанция между кодами оценивается по числу промежуточных кодов
  • Страницв считается соответствующей запросу если дистанция между этими кодами не превышает установленное значение
  • Ограничение дистанции осуществляется пользователем при поиске с помощью графического движка от 0 до 100
  • Уменьшение дистанции ограничивает выдачу документов. Дистанция 0 соответствует полному совпадению фразы
  • В заказных системах возможно использование более сложного поиска с пороговой логикой
  • Поисковое ядро системы позволяет реализовать и другие виды поиска, как в целом по документу, так и по страницам

  • Заполнение базы данных

  • Создание администратором формы ввода документов с набором реквизитов и рубрикаторов
  • Дополнение описания документа набором реквизитов и аннотацией
  • Установка уровня доступа и групп доступа при вводе документа
  • Автоматическая обработка пересылаемого документа «на лету»

  • Вывод информации

  • Точное воспроизведение вида страниц исходных документов
  • Не требует установки дополнительных программ для просмотра
  • Работает на мобильных устройствах со стандартными браузерами
  • Представление отобранных документов в виде миниатюр титульного листа
  • Возможность создания иерархических рубрикаторов в меню
  • выделение в текстах и реквизитах слов, соответствующих поисковым запросам

  • Безопасность

  • Online доступ как основной вид доступа
  • Доступ только к преобразованным страницам, а не к исходному документу
  • Установка ограничений доступа для каждого документа при загрузке
  • Установка ограничений доступа для каждой группы зарегистрированных пользователей
  • Доступ только при совпадении уровней доступа пользователя и документа

  • Web интерфейс

  • Web-интерфейс пользователя (максимально приближен к интерфейсу поисковиков Интернета)
  • Web-интерфейс администратора (настройка меню, рубрикатора, безопасности, форм ввода-вывода)
  • Web-интерфейс разработчика (с интерфейсом программирования приложений - API)
  • Статистика

  • Статистика по каждому документу с выводом в всплывающем окне
  • Статистика по посетителям, поискам, страницам и документам
  • Вывод статистики в виде посуточных и месячных графиков
  • Журнал событий

  • Варианты поставки и цены

  • Программный комплекс "MBD SE Doc Server 2017" на два сервера заказчика (сервер базы данных и сервер полнотекстового поиска). До 10 млн документов. Стоимость с установкой, настройкой и сопровождением 2 500 000 руб.
  • Программный комплекс "MBD SE Doc Server 2017" на один совмещенный сервер заказчика (сервер базы данных и сервер полнотекстового поиска). Стоимость с установкой, настройкой и сопровождением 1 300 000 руб.
  • Разработка информационной системы на платформе "MBD SE Doc Server" по договору с Заказчиком. Цена договорная.

  • Обоснование стоимости

  • Анализ стоимости программных комплексов аналогичного назачения на российском рынке показал, что цена, предлагаемая заказчиками, начинается от 5 млн. руб. Для примера приводим два открытых тендера за 4-й квартал 2016г.
  • Тендер от 21.10.2016 «Передача неисключительных прав использования полнотекстовой поисковой машины (программы для ЭВМ)» Заказчик ФБУ НЦПИ ПРИ МИНЮСТЕ РОССИИ. Программный комплекс на связку из двух серверов с объемом БД до 10 млн. документов. Время поиска 5сек, время вывода страницы 5 сек. Стоимость комплекса 5.1млн.руб.
  • Два связанных тендера от РЖД в декабре 2016г.
    « Создание модуля интеграции полнотекстовых электронных изданий в банк данных для хранения оцифрованных изданий библиотечных фондов» Стоимость 4 366 000 рублей
    «Разработка модуля атрибутивного и полнотекстового поиска Портала ОЭБ» Стоимость 3 540 000 рублей
    Обшая стоимость комплекса 7 906 000руб.
  • Информационная система на платформе "MBD SE Doc Server". ПО для связки из двух серверов. БД до 10 млн. документов. Время поиска - 1сек. Вывод страниц по резуьтатам поиска - 0,1 сек. Стоимость - от 2,5млн. руб.

  • Сайт программы. Контакты

  • http://itizdat.ru Работающий уже несколько лет документальный портал на нашем демонстрационном сервере. Включает несколько тематических баз данных общим объёмом около полумиллиона страниц документов, выложенных в открытом доступе.
  • mail@mbdsoft.ru

  • Документация на программу

  • MBD SE Doc Server. Руководство пользователя
  • MBD SE Doc Server. Руководство администратора
  • MBD SE Doc Server. Руководство разработчика приложений