Валерий Захарченко

ITizdat – наш ответ Google Books и Scribd


Интернет, точнее его базовые составляющие, такие как информационный поиск и хостинг, стоят перед новым этапом своего развития. Несмотря на несколько сотен миллионов сайтов, размещенных в сети, основная масса интеллектуальных ценностей, созданных человечеством, содержится в текстах книг и документов. Большинство этих документов хранится в электронном виде на различных серверах, но в отличие от сайтов, пока недоступны для массового пользователя. Современный уровень развития вычислительной техники и программного обеспечения уже позволяет приступить к задаче включения этого огромного документального массива в Интернет пространство. Интернет проекты, предназначенные для работы в документальном информационном пространстве, можно разделить на три основных направления.

Первое, это полнотекстовый поиск в книгах, журналах и т.п. Создание глобального документального поисковика достаточно сложная задача, технология решения которой сильно отличается от используемой при поиске по сайтам. Лидером в этой области является американский проект Google Book Search, сейчас переименованный в Google Books. Отработанные технологии полнотекстового постраничного поиска, дали основание этой компании претендовать на глобальную монополию в создании и коммерческой эксплуатации документальной базы данных, содержащей все изданные в мире книги. Количество таких книг оценивается в 130 миллионов. Сейчас обработано 15 миллионов. Подход Google отличается тем, что они самостоятельно оцифровывают доступные книги, и загружают их в закрытую базу данных. При этом широко используется приобретение прав на книги путем заключения договоров с издательствами и библиотеками.

Другое направление – создание открытых документальных баз данных, наполняемых непосредственно самими авторами и издателями. Для этого пользователям предоставляется соответствующий интерфейс и ряд сервисов. Как правило, такие системы работают на основе онлайн доступа без возможности скачивания защищенных изданий. Полнотекстовый поиск в этих системах в основном отсутствует. Самым известным проектом на сегодняшний день, является американский Scribd.com. В рамках проекта действует сервис Scribd Store, позволяющий авторам размещать свои тексты для продажи и оставлять себе 80 % прибыли. В процессе внедрения другая коммерческая модель – открытый доступ ко всем источникам по подписке, всего за 9 долларов в месяц. Сейчас в базе данных проекта несколько миллионов книг и документов и он быстро развивается. Также появляются и другие, конкурирующие проекты, в этой области, в основном американские.

Третья, классическая разновидность документальных систем, это электронные библиотечные системы. Они являются наследниками многовековых библиотечных традиций , для которых неотъемлемой частью любой книги или служебного документа является её библиографическое описание. Описание содержит имя автора, год издания, тематическую рубрику, аннотацию и прочие реквизиты, востребованные в любой библиотечной системе. Реального полнотекстового поиска в таких системах пока нет и они как правило закрыты для пополнения баз данных извне, самими пользователями.

В нашем российском документальном проекте Itizdat мы используем все три технологии, работающие в перечисленных системах: полнотекстовый поиск, открытую базу данных, формальное описание документов. Все функции системы очень удачно сочетаются с возможностями полнотекстового поиска программной платформы MBD Search Engine Doc Server, на основе которой создан проект. Itizdat использует модель открытой базы данных, с комплексом сервисов, как в Scribd. В то же время используется интерфейс с несколькими рубрикаторами по различным формальным признакам. В результате интерфейс выглядит гораздо информативнее и дружелюбнее чем пустая строка поискового запроса многих интернет поисковиков.

Проект Itizdat разрабатывается компанией «МБД СОФТ» несколько лет на основе многолетнего опыта в разработке документальных поисковых систем. Аббревиатура МБД входит в название предприятия и всех наших продуктов и первоначально происходит от термина “Машина Баз Данных”. Опытная эксплуатация программной платформы и портала Itizdat, показывают, что этот проект может быть развернут до любых масштабов и может стать реальным конкурентом американским Google Books и Scribd. И не только в борьбе за деньги клиентов. Поисковые системы считаются самым эффективным оружием в информационной войне, своего рода тяжелой артиллерией. Эффективность документальных глобальных поисковиков, может быть на порядок выше, потому что содержание их баз данных – книги, статьи, пресса, имеют существенно больший калибр, чем сайты, блоги и твиты существующего интернета.

Чтобы стать реальным игроком в этой глобальной IT нише, самой престижной и высокодоходной из всех существующих, естественно нужны финансовые вложения, хоть как-то сопоставимые с американскими. Для примера, только разработка программной платформы Scribd обошлась в 22 миллиона долларов. Разработка социальной сети Google стоила свыше 500 миллионов. В России с этим легче. Народ способный и дорого не берет. Но даже при готовой платформе, нужно создавать дата центры, с сотнями серверов, команду для обслуживания, модерации, продвижения, работы с издателями. Всё это планируется создавать по мере продвижения проекта.


С уважением, Валерий Захарченко

Генеральный директор ООО «МБД СОФТ»