Хелпикс

Главная

Контакты

Случайная статья





Этап 6. Установление центроида кластера



Этап 6. Установление центроида кластера

6.1 Выделение наименований понятий из документов кластера
6.2 Нормализация наименований понятий, выделенных из предложения
6.3 Исключение незначимых слов и словосочетаний по словарю стоп-слов
6.4 Построение списка формализованных наименований понятий документа с указанием частот их встречаемости
6.5 Формирование понятийного состава КСК
6.6 Назначение значений коэффициентов смысловой значимости наименованиям понятий словаря КСК
6.7 Корректировка значений весов понятий словаря КСК по ТКС
6.8 Генерация машинного представления КСК
6.9 Формирования ПОД кластера по словарю КСК
6.10 Определение веса ПОД кластера
6.11 Определение центроида кластера

Этап 7. Генерация обобщенного содержания кластера в виде дайджеста рефератов

7.1 Определение местоположения наименований понятий в предложениях документов кластера
7.2 Вычисление суммарных весов предложений документа
7.3 Установление заданных N-предложений с максимальным весом
7.4 Построение краткого реферата каждого документа, состоящего из заголовка и N-заданных предложений с максимальным весом
7.5 Формирование дайджеста обобщенных рефератов документов кластера

 

На основе предложенных теоретических решений и разработанного обобщенного технологического порядка процесса кластеризации разработано экспериментальное программное обеспечение, реализующее указанный в таблице 2 процесс кластеризации.

Эксперименты, проведенные с упомянутым программным обеспечением, показали работоспособность предложенного метода автоматической кластеризации отобранных документов и возможность его использования.

5. Заключение

В настоящей статье предлагается решение проблемы кластеризации отобранных документов на основе анализа их смыслового содержания в полностью автоматическом режиме, что позволяет использовать эту технологию в закрытых контурах обработки текстовой информации.

Идея представления содержания документа в виде его краткого понятийного смыслоразличающего образа, а также использование в процессе кластеризации «черного» и «белого» списков отобранных документов позволила значительно сократить временные затраты на сопоставлении содержания документов и существенно уменьшить число таких сопоставлений документов коллекции.

Новизна предлагаемого решения состоит в том, что в основу предложенного метода положена модель фразеологического концептуального анализа текстов, уникальные алгоритмы машинной грамматики, семантико-синтаксического
и концептуального анализа текстов, а проведенные эксперименты на массиве документов, размещенных средств массовой информации, показали работоспособность
и эффективность предлагаемого решения.

Литература

1. Богатырев М. Ю. Извлечение фактов из текстов естественного языка
с применением концептуальных графовых моделей // Известия ТулГУ. Технические науки. – 2016. – № 7. - Ч. 1.

2. Виноградов А.Н., Власова Н.А., Куршев Е.П., Подобряев А.В. Современные технологии обработки естественного языка в задачах стратегического управления // Технологическая перспектива в рамках евразийского пространства: новые рынки и точки экономического роста. – СПб.: Центр научно-информационных технологий "Астерион", 2018.

3. Ермаков А.Е. Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей [Электронный ресурс] // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции «Диалог’2007». – М.: Наука, 2007.

4. Хорошилов Ал-др. А., Никитин Ю.В., Хорошилов Ал-ей. А., Будско В.И. Автоматическое создание формализованного представления смыслового содержания неструктурированных текстовых сообщений СМИ и социальных сетей // Системы высокой доступности, №3, том.10, 2014.

5. Helbig Н. Knowledge representation and the semantics of natural language. – Berlin: Springer, 2006.

6. Белоногов Г.Г., Гиляревский Р.С., Хорошилов А.А. Проблемы автоматической смысловой обработки текстовой информации // Научно-техническая информация. Сер. 2. Информационные процессы и системы / Всероссийский институт научной и технической информации РАН. – 2012, №11. – С. 24–28.

7. Аблов И.В., Козичев В.Н., Ширманов А.В., Хорошилов Ал-др А., Хорошилов Ал-ей А. Средства машинной грамматики русского языка (по Г.Г. Белоногову) // Научно-техническая информация, Сер. 2, № 6, 2018.

Калинин Ю.П., Хорошилов Ал-др. А., Хорошилов Ал-ей. А. Современные технологии автоматизированной обработки текстовой информации // Системы высокой доступности, № 2, том.11, 2015.


[1] Проф. Г.Г. Белоногов определяет термин «понятие» как «социально значимый мыслительный образ,
за которым в языке закреплено его наименование в виде отдельного слова или, значительно чаще, в виде устойчивого фразеологического словосочетания…»[6].

 

[2] Под семантической характеристикой ПОД понимается совокупность трех параметров:
а) число элементов Под, б) число высокозначимых понятий, в) вес ПОД.



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.