Три носителя
Электронный документ имеет три ипостаси - документ, подготовленный к печати, набранный в текстовом редакторе и распространяемый по сети. Хотя многие текстовые редакторы и имеют широкие возможности по форматированию и разметке документа, но до специализированных программ верстки им еще далеко. Языку же описания документов, который используется для публикаций в Web, присущи более ограниченные функции по форматированию документов.
Сейчас для каждого из перечисленных носителей существует самый распространенный формат. Для печатных документов это PostScript - интерпретируемый алгоритмический язык прорисовки страницы. Этот язык разработан компанией Adobe, он имеет реализации практически на всех платформах и современных принтерах. Он наиболее точно описывает печатную страницу, однако PostScript-файлы имеют очень большой объем. Особенно это относится к русскоязычным текстам, поскольку они, как правило, содержат описание русских шрифтов.
Самый распространенный текстовых редактор - это, безусловно, Word. Его формат документов настолько распространен в России, что его часто используют для обмена документами между организациями. Однако Word имеет меньше возможностей для отображения документов, чем PostScript, и его трудно прочитать другим текстовым редактором. Эти факторы ограничивают применение Word в гетерогенной сети.
Для публикаций в Web используется гипертекстовый язык разметки HTML, который описывает не только внешний вид документов, но и связи между ними и программным обеспечением. Вместе с HTML появился и гипертекстовый транспортный протокол - HTTP, позволяющий передавать HTML-документы по Сети, запускать на сервере программы и поддерживать диалог с пользователем. Благодаря гипертекстовой технологии стало возможным создавать действительно распределенные системы с универсальным пользовательским интерфейсом. Кроме того, по размеру HTML-документ получался не очень большим, что важно для Сети. Однако с развитием Web обнаружились серьезные ограничения HTML в области представления документов и диалогов с пользователем.
Поскольку перечисленные языки ориентированы на разные носители, их практически невозможно "собрать" в единый и универсальный язык. При этом часто возникает задача подготовки одинаковых документов для разных носителей, а преобразовать текст из одного формата в другой не всегда возможно. Хотя документ, подготовленный в текстовом редакторе типа Word, можно преобразовать в любой из перечисленных форматов, однако такие форматы, как правило, трудно переносимы на другой текстовый редактор или платформу. Поэтому использовать его в качестве универсального средства подготовки документов в большой организации невозможно. Таким образом, предъявляются следующие требования к корпоративному средству подготовки документов:
Всем этим требованиям удовлетворяет обобщенный язык разметки SGML (Standard Generalized Markup Language). Документы, подготовленные в этом формате, можно преобразовать во все перечисленные форматы, для него есть программное обеспечение на самых распространенных платформах, и даже бесплатное. SGML позволяет определить новые форматы документов, работать со сложными документами и даже управлять хранилищами информации. Этот язык представляет собой международный стандарт ISO 8879, что гарантирует переносимость документов с одной платформы на другую. Таким образом, SGML - первейший кандидат для корпоративного использования.