А. С. Гусаренко

Список книг автора А. С. Гусаренко



    Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода

    А. С. Гусаренко

    В статье рассмотрены вопросы применения ситуационно-ориентированного подхода для программной обработки word-документов. Рассматриваемые документы подготавливаются пользователем в среде текстового процессора Microsoft Word или его аналогов и используются в дальнейшем как источники данных. Открытость форматов Office Open XML и Open Document Format позволила применить концепцию виртуальных документов, отображаемых на ZIP-архивы, для программного доступа к XML-компонентам word-документов в ситуационно-ориентированной среде. Обоснована важность выработки предварительных соглашений относительно размещения информации в документе для последующего поиска и извлечения, например, с помощью заранее подготовленных шаблонов-заготовок. Для форматов DOCX и ODT рассмотрено использование ключевых фраз, закладок, элементов управления контентом, пользовательских XML-компонентов для организации извлечения введенных данных. Для каждого варианта построены древовидные модели доступа к извлекаемым данным, а также соответствующие XPath-выражения. Отмечено, что использование того или иного варианта зависит от функциональных возможностей и ограничений текстового процессора и характеризуется различной сложностью разработки шаблона-заготовки, внесения данных пользователем и программирования извлечения данных. Рассмотрен практический пример обработки метаданных научной статьи, подготовленной в среде Microsoft Word для публикации в научном журнале. Примененное решение основано на занесении метаданных в статью с помощью размещенных в шаблоне-заготовке элементов управления контентом, привязанных к элементам пользовательского XML-компонента. Разработанная иерархическая ситуационная модель HSM обеспечивает извлечение XML-компонента, загрузку его в DOM-объект и XSLT-преобразования для получения результирующих данных: отчета об ошибках и JavaScript-кода для последующего использования извлеченных метаданных.

    Встраивание отображений виртуальных мультидокументов на реальные источники данных в ситуационно-ориентированных базах

    А. С. Гусаренко

    В рамках подхода Polyglot Persistence в статье рассматриваются ситуационно-ориентированные базы данных – информационный процессор в составе веб-приложения, обрабатывающий XML/JSON-документы на основе иерархической ситуационной модели HSM. Обсуждается гибкое задание в HSM отображений виртуальных документов на реальные данные из различных физических хранилищ. Предлагается подход к встраиванию отображений, предусматривающий для каждого нового типа хранилища разработку трех модулей: манипулирования, загрузки и сохранения, реализуемых в виде функций обратного вызова. Подход иллюстрируется на примере отображения на таблицу реляционной базы данных SQLite. Рассматриваются преимущества подхода и практическая реализация на платформе PHP.

    Модели создания документов в формате Office Open XML на основе ситуационно-ориентированной базы данных

    А. С. Гусаренко

    В статье предлагается динамическая модель СОБД, предусматривающей спецификации и новые элементы для создания готовых электронных документов на основе заготовок Office Open XML, подготовленных средствами текстовых процессоров. Статья показывает графические и эквивалентные текстовые средства, введенные в динамическую модель и интерпретируемые с помощью интерпретатора встроенных динамических моделей для решения задачи генерации документов. Интерпретатор встроенных динамических моделей работает с документами Office Open XML, используя технологию динамических DOM-объектов, при этом результирующие документы имеют варианты представления docx и vdx.