![]()
|
|||||
Этап 6. Установление центроида кластера ⇐ ПредыдущаяСтр 3 из 3 Этап 6. Установление центроида кластера | |||||
6.1 | Выделение наименований понятий из документов кластера | ||||
6.2 | Нормализация наименований понятий, выделенных из предложения | ||||
6.3 | Исключение незначимых слов и словосочетаний по словарю стоп-слов | ||||
6.4 | Построение списка формализованных наименований понятий документа с указанием частот их встречаемости | ||||
6.5 | Формирование понятийного состава КСК | ||||
6.6 | Назначение значений коэффициентов смысловой значимости наименованиям понятий словаря КСК | ||||
6.7 | Корректировка значений весов понятий словаря КСК по ТКС | ||||
6.8 | Генерация машинного представления КСК | ||||
6.9 | Формирования ПОД кластера по словарю КСК | ||||
6.10 | Определение веса ПОД кластера | ||||
6.11 | Определение центроида кластера | ||||
Этап 7. Генерация обобщенного содержания кластера в виде дайджеста рефератов | |||||
7.1 | Определение местоположения наименований понятий в предложениях документов кластера | ||||
7.2 | Вычисление суммарных весов предложений документа | ||||
7.3 | Установление заданных N-предложений с максимальным весом | ||||
7.4 | Построение краткого реферата каждого документа, состоящего из заголовка и N-заданных предложений с максимальным весом | ||||
7.5 | Формирование дайджеста обобщенных рефератов документов кластера |
На основе предложенных теоретических решений и разработанного обобщенного технологического порядка процесса кластеризации разработано экспериментальное программное обеспечение, реализующее указанный в таблице 2 процесс кластеризации.
Эксперименты, проведенные с упомянутым программным обеспечением, показали работоспособность предложенного метода автоматической кластеризации отобранных документов и возможность его использования.
5. Заключение
В настоящей статье предлагается решение проблемы кластеризации отобранных документов на основе анализа их смыслового содержания в полностью автоматическом режиме, что позволяет использовать эту технологию в закрытых контурах обработки текстовой информации.
Идея представления содержания документа в виде его краткого понятийного смыслоразличающего образа, а также использование в процессе кластеризации «черного» и «белого» списков отобранных документов позволила значительно сократить временные затраты на сопоставлении содержания документов и существенно уменьшить число таких сопоставлений документов коллекции.
Новизна предлагаемого решения состоит в том, что в основу предложенного метода положена модель фразеологического концептуального анализа текстов, уникальные алгоритмы машинной грамматики, семантико-синтаксического
и концептуального анализа текстов, а проведенные эксперименты на массиве документов, размещенных средств массовой информации, показали работоспособность
и эффективность предлагаемого решения.
Литература
1. Богатырев М. Ю. Извлечение фактов из текстов естественного языка
с применением концептуальных графовых моделей // Известия ТулГУ. Технические науки. – 2016. – № 7. - Ч. 1.
2. Виноградов А.Н., Власова Н.А., Куршев Е.П., Подобряев А.В. Современные технологии обработки естественного языка в задачах стратегического управления // Технологическая перспектива в рамках евразийского пространства: новые рынки и точки экономического роста. – СПб.: Центр научно-информационных технологий "Астерион", 2018.
3. Ермаков А.Е. Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей [Электронный ресурс] // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции «Диалог’2007». – М.: Наука, 2007.
4. Хорошилов Ал-др. А., Никитин Ю.В., Хорошилов Ал-ей. А., Будско В.И. Автоматическое создание формализованного представления смыслового содержания неструктурированных текстовых сообщений СМИ и социальных сетей // Системы высокой доступности, №3, том.10, 2014.
5. Helbig Н. Knowledge representation and the semantics of natural language. – Berlin: Springer, 2006.
6. Белоногов Г.Г., Гиляревский Р.С., Хорошилов А.А. Проблемы автоматической смысловой обработки текстовой информации // Научно-техническая информация. Сер. 2. Информационные процессы и системы / Всероссийский институт научной и технической информации РАН. – 2012, №11. – С. 24–28.
7. Аблов И.В., Козичев В.Н., Ширманов А.В., Хорошилов Ал-др А., Хорошилов Ал-ей А. Средства машинной грамматики русского языка (по Г.Г. Белоногову) // Научно-техническая информация, Сер. 2, № 6, 2018.
Калинин Ю.П., Хорошилов Ал-др. А., Хорошилов Ал-ей. А. Современные технологии автоматизированной обработки текстовой информации // Системы высокой доступности, № 2, том.11, 2015.
[1] Проф. Г.Г. Белоногов определяет термин «понятие» как «социально значимый мыслительный образ,
за которым в языке закреплено его наименование в виде отдельного слова или, значительно чаще, в виде устойчивого фразеологического словосочетания…»[6].
[2] Под семантической характеристикой ПОД понимается совокупность трех параметров:
а) число элементов Под, б) число высокозначимых понятий, в) вес ПОД.
|
© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.
|
|