М. И. Дли. Скачать книги. Mreadz. MREADZ.COM

Рубрицирование текстовой информации на основе голосования интеллектуальных классификаторов

Одним из приоритетов государственной политики России выступает практическая реализация концепции электронного правительства. Важным элементом этой концепции является организация эффективного взаимодействия органов власти и граждан, которая, помимо оказания государственных услуг, должна включать в себя обработку электронных обращений (заявлений, жалоб, предложений и т.п.). Исследования показывали, что скорость и оперативность обработки обращений в значительной степени зависит от качества определения тематических рубрик, т.е. решения задачи рубрицирования. Проведенный анализ обращений граждан, поступающих на электронную почту и официальные сайты различных органов власти, выявил ряд специфических особенностей (небольшой размер, наличие ошибок в тексте, свободный стиль изложения, рассмотрение нескольких проблем), которые не позволяют успешно применять традиционные подходы к их рубрицированию. Для решения указанной проблемы было предложено использовать различные методы интеллектуального анализа неструктурированных текстовых данных (в частности, нечетко-логические алгоритмы, нечеткие деревья решений, нечеткие пирамидальные сети, нейро-нечеткие классификаторы, сверточные и рекуррентные нейронные сети). В статье описаны условия применимости шести интеллектуальных классификаторов, предложенных для рубрицирования электронных обращений граждан. В их основе лежат такие факторы, как размер документа, степень пересечения тематических рубрик, динамичность их тезаурусов и объемом накопленной статистической информации. Для ситуации, когда конкретная модель не может произвести однозначный выбор тематической рубрики, предложено использовать метод голосования классификаторов, который позволяет существенно снизить вероятность ошибок рубрицирования на основе взвешенного агрегирования решений, полученных несколькими моделями, отобранными с помощью нечетко-логического вывода.

Rubrication of text documents based on fuzzy difference relations

М. И. Дли

Одним из ключевых направлений информатизации деятельности органов государственной власти является разработка и внедрение систем автоматизированной обработки электронных обращений (заявлений, жалоб, предложений) физических и юридических лиц, поступающих на официальные веб-сайты и порталы органов власти федеральных округов, администраций областей и других территориальных образований. Важную роль при решении данной задачи играет рубрицирование, которое заключается в распределении обращений по тематическим рубрикам, определяющих направления деятельности департаментов, осуществляющих их обработку и подготовку соответствующего ответа. Результаты анализа специфических особенности таких текстовых сообщений (небольшой размер, отсутствие разметки, наличие ошибок, нестационарность тезауруса и т. п.) подтвердили невозможность применения традиционных подходов к рубрицированию и обосновали целесообразность применения методов интеллектуального анализа данных. В статье предложен новый подход к анализу и рубрицированию электронных неструктурированных текстовых документов, поступающих на официальные веб-сайты и порталы органов государственной власти. Он предполагает формирование древовидной структуры рубричного поля, основанной на нечетких отношениях различия между синтаксическими характеристиками документов. Анализ основывается на определении нечеткого соответствия этих документов по синтаксическим характеристикам со значениями центров кластеров, проводимого последовательно от корня к листьям построенного нечеткого дерева решений. Предлагаемый метод рубрицирования программно реализован и апробирован при автоматизированной обработке и анализе обращений (заявлений, жалоб и предложений) граждан, поступающих в Администрацию Смоленской области. Это позволило обеспечить оперативную и качественную актуализацию рубрик и анализ документов в условиях нестационарности состава тезауруса и значимости слов рубрик.

Анализ влияния архитектуры входных слоев свертки и подвыборки глубокой нейронной сети на качество распознавания изображений

М. И. Дли

Представлены результаты исследования влияния характеристик входных слоёв свертки и подвыборки глубокой свёрточной нейронной сети на качество распознавания изображений. Для слоя свёртки изменяемым параметром являлся размер ядра свёртки, варьируемым параметром архитектуры субдискретизирующего слоя являлся размер рецептивного поля. Все перечисленные параметры, определяющие архитектуру входных слоёв свёртки и подвыборки, разработчикам нейронных сетей приходится подбирать на основе своего опыта. В данной работе излагается способ, позволяющий частично автоматизировать это процесс в результате предварительного анализа характеристик изображения – гистограмм и дисперсий интенсивности цветов пикселей. На основе этих сравнений выработаны рекомендации для выбора размеров ядра свёртки. Приведены итоги апробации указанного способа с помощью программы, написанной на языке Python с использованием библиотек Keras и Tensorflow.

Применение нечетких деревьев решений для рубрицирования неструктурированных текстовых документов небольшого размера

М. И. Дли

Ежедневно на Интернет-порталы органов государственной власти поступает большое количество электронных обращений (заявлений, предложений или жалоб), представленных в неструктурированном текстовом виде. Качество и скорость автоматической обработки указанных сообщений напрямую зависит от правильности их классификации (отнесения к конкретной предметной области), в основе которой лежат их отличительные особенности. Однако специфика таких сообщений (небольшой размер, наличие ошибок, отсутствие четкой структуры и т.д.) не позволяет использовать известные методы рубрицирования текстовых документов. Авторами разработана модель рубрицирования электронных неструктурированных текстовых документов с учетом синтаксических связей и ролей слов в предложениях на основе нечеткого дерева решений. Построение дерева решений основано на анализе степени пересечений словарей рубрик, а также расстояний между рубриками в n-мерном пространстве признаков. Данная модель позволяет более точно рубрицировать электронные неструктурированные текстовые документы в условиях взаимосвязанных рубрик, а также повысить оперативность обработки поступивших документов.

Алгоритмы формирования изображений состояний объектов для их анализа глубокими нейронными сетями

М. И. Дли

Представлены алгоритмы визуализации числовых данных, характеризующих состояние объектов и систем различной природы с целью нахождения в них скрытых закономерностей с помощью сверточных нейронных сетей. В алгоритмах применены методы получения изображений из числовых данных на основе дискретного преобразования Фурье фрагментов временного ряда, а также на основе применении визуализации с помощью диаграмм трехкомпонентных систем, если такое трехкомпонентное представление системы возможно. Программная реализация предложенных алгоритмов выполнена в среде Linux на языке Python 3 с применением открытой нейросетевой библиотеки Keras, являющейся надстройкой над фреймворком машинного обучения TensorFlow. Для процесса обучения нейронной сети был задействован графический процессор фирмы Nvidia, поддерживающий технологию программно-аппаратной архитектуры параллельных вычислений CUDA, что позволило значительно сократить время обучения. Также представлена программа, осуществляющая генерацию наборов изображений для реализации процесса обучения и тестирования сверточныйх нейронных сетей с целью их предварительной настройки и оценки качества предлагаемых алгоритмов.

Developing the economic information system for automated analysis of unstructured text documents

М. И. Дли

The study of tasks and methods of automated text rubrication was conducted and their prospects for the analysis of unstructured electronic text documents were evaluated taking into account the peculiarities of appeals received from citizens to the authorities. The architecture of the information system of automated analysis of such documents is developed. It implements the proposed multi-model approach to the rubrication based on the integrated use of intelligent and probabilistic-statistical methods. The procedure of processing citizens’appeals received by the authorities using the document management system and the developed information system is given. Проведено исследование задач и методов автоматизированного рубрицирования текстов и оценены их перспективы для анализа неструктурированных электронных текстовых документов с учетом особенностей обращений граждан, поступающих в органы власти. Разработана архитектура информационной системы автоматизированного анализа таких документов, реализующая предложенный мультимодельный подход к рубрицированию, основанный на комплексном использовании интеллектуальных и вероятностно-статистических методов. Приведена процедура обработки обращений, поступающих в органы власти, с использованием системы документооборота и разработанной информационной системы.

Формирование структуры интеллектуальной системы анализа и рубрицирования неструктурированной текстовой информации в различных ситуациях

М. И. Дли

Анализ электронных текстовых документов, написанных на естественном языке, является одной из важнейших задач, реализуемых в системах автоматизированного анализа лингвистической информации. Известно, что такие документы могут характеризоваться различными параметрами: размер, наличие структуры, частота упоминания ключевых слов и т. п. Проведенный анализ показал невозможность построения единой модели для рубрицирования неструктурированных текстовых документов в различных ситуациях. Для решения указанной проблемы предложен мультимодельный подход к рубрицированию, отличающийся комбинированным использованием интеллектуальных и вероятностно-статистических методов анализа текстовых документов. Конкретная модель выбирается с использованием нечетко-логических алгоритмов на основе предложенных характеристик. Его применение позволит повысить точность отнесения электронных текстовых документов к конкретным рубрикам с учетом их специфики и различных целей практического применения в организации.

Управление жизненным циклом экономической информационной системы с применением теории децентрализованных приложений

М. И. Дли

В статье предлагается подход к управлению жизненным циклом экономических информационных систем, который, в отличие от известных, основывается на теории децентрализованных приложений. Этот подход за счет автоматизации и децентрализации процессов, а также использования криптографических методов позволяет в определенной степени снизить транзакционные издержки проектов по разработке и модификации программного обеспечения экономических информационных систем.

Способы интеграции информационных систем субъектов экономической деятельности при использовании аутсорсинга

М. И. Дли

Функционирование субъектов экономической деятельности неразрывно связано с потребностью совместного использования информационных ресурсов. Интеграция информационных систем связана с применением ИТ-аутсорсинга, при этом важную роль играют выбор архитектурных шаблонов интеграции и управление проектом по разработке информационной системы. В статье предложена релевантная современным условиям композиция архитектурных шаблонов, модель взаимосвязи жизненного цикла информационной системы и проекта по ее разработке, архитектура системы поддержки принятия решений для минимизации информационных рисков.

Трёхуровневая нечеткая когнитивная модель для анализа процессов инновационного развития региона

М. И. Дли

Авторами доказана необходимость применения когнитивных карт для моделирования процессов инновационного развития региона. Определены основные особенности моделирования инновационной деятельности с использованием нечетких когнитивных карт. Разработан новый вид нечетких когнитивных карт, позволяющих учитывать неопределенность и изменчивость системных характеристик.