|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Этап 1. Конвертирование и формально-логический контроль каждого из отобранных документовСтр 1 из 3Следующая ⇒
МЕТОД КластеризациИ документов на основе анализа
В статье описывается решение проблемы автоматической кластеризации документов на основе анализа их смыслового содержания на примере материалов, размещенных в средствах массовой информации. Предлагаемое решение базируется Ключевые слова: автоматическая кластеризация документов, машинная грамматика, семантико-синтаксический анализ текстов, концептуальный анализ текстов, тематический концептуальный словарь, актуальный концептуальный словарь.
1. Введение В настоящее время в технологических процессах обработки текстовой информации реализовано значительное число методов кластеризации текстов. Обычно под кластеризацией понимается процесс разделения множества документов на подмножества (кластеры), число которых и их параметры заранее неизвестны. Рассмотрим некоторые Метод LSA/ LSI давно известен в различных областях науки, как метод выявления латентной структуры изучаемых явлений и объектов. В рамках этого метода определяется пространство терминов, как пространство элементарных признаков, в котором изначально располагаются документы. Предполагается, что термины должны семантически быть связаны между собой, тогда документы, содержащие семантически близкие термины, сгущаются в определенных местах пространства терминов. Метод STC кластеризует тексты в виде суффиксного дерева. Суффиксное дерево – это дерево, содержащее все суффиксы данной строки. Они состоят из вершин, ветвей Методы Single Link, Complete Link, Group Average относятся к иерархическим методам, которые делятся на агломеративные и дивизимные методы. Первые объединяют объекты в множества, а вторые наоборот разделяют единое множество объектов МетодSelf-Organizing Maps (метод самоорганизующихся карт Кохонена) выполняет кластеризацию документов на основе нейросети Кохонена. В результате работы этого метода получается образ документа, представляющий собой карту распределения векторов из обучающей выборки. Эта сеть обучается без учителя на основе принципа самоорганизации. В основе метода K-means (К-средних) лежит итеративный процесс стабилизации центроидов (центра масс) кластеров, которые первоначально выбираются случайным образом для каждого из k-кластеров. Каждый документ присваивается к тому кластеру, расстояние до центра масс которого от него меньше заданного. Далее, на каждой итерации, вычисляются центры масс кластеров и документы переприсваиваются Метод на основе так называемого «мешка слов» (bag-of-words) относится Анализ приведенных методов кластеризации документов показывает, что значительная часть этих методов опирается на формальные признаки представления текстовой информации, которые в незначительной степени связанны со смысловым содержанием текстов и только очень незначительное число методов основываются 2. Теоретическое обоснование метода кластеризации Предлагаемое решение задачи кластеризации базируется на концепции фразеологического концептуального анализа текстов [7,8]. В соответствии с этой концепцией смысловое содержание текстов определяется системой текстовых понятий[1] При кластеризации нужно установить как смысловую схожесть документов, так Автоматическое создание упомянутого словаря понятий достаточно подробно изложено в работах [6,8]. Отметим только то, что в основу концептуального анализа текста положены синтаксические, семантические и статистические методы анализа текстов. Синтаксические методы позволяют выявить в текстах документов наименования понятий, представленные отдельными словами и словосочетаниями [6]. Семантических методы дают возможность установить значимые в предметной области понятия путем Таким образом, общее решение задачи кластеризации документов может быть сведено к следующим этапам: 1. Определение объектов признакового пространства, под которым следует понимать множество ключевых слов и словосочетаний, определяющих смысловое сходство отобранных документов. 2. Вычисление меры смысловой значимости понятий документов. 3. Установление значений меры сходства между документами. 4. Автоматическое формирование кластеров отобранных документов. 5. Проверка истинности результатов кластерного решения. 3. Описание решения задачи кластеризации документов Решение задачи кластеризации можно условно разделить на несколько этапов, На первом этапе нужно определить множество слов и словосочетаний признакового пространства, по которым будет производиться установление смысловой схожести содержания отобранных документов. Для этого необходимо установить, В качестве меры смысловой значимости слов и словосочетаний используется статистическая мера TF-IDF (TF – частота слова, IDF – инверсия частоты). TF – частота слова рассчитывается как отношение числа вхождений наименования понятия к общему числу наименований понятий в конкретном документе. Оценка важности наименования понятия в пределах отдельного документа вычисляется , (1) где – число вхождений наименования понятия t в документ; – общее число наименований понятий в данном документе. IDF – инверсия частоты, с которой некоторое наименование понятия встречается , (2) где – число отобранных документов; – число отобранных документов D, в которых встречается Мера TF-IDF является произведением двух сомножителей: (3) Большой вес в TF-IDF получат наименования понятий Но данная статистическая мера в явном виде не отражает смысловую составляющую наименований понятий. С этой целью была разработана система коррелирующих семантических весовых коэффициентов наименований понятий, восполняющих этот пробел. Обобщенная мера смысловой значимости наименований понятий с учетом этих коэффициентов вычисляются по формуле: (4) где – коэффициент, учитывающий распознающую способность слов – коэффициент, учитывающий вхождение в заголовки слов или словосочетаний; – коэффициент, учитывающий вхождение в тезаурус слов или словосочетаний; – коэффициент, учитывающий количество слов в словосочетании; – коэффициент, учитывающий синтаксическую роль слова или словосочетания в предложении; – коэффициент, учитывающий принадлежность понятия к фамильно-именной группе, бренду и др. Для реализации процесса установления меры смысловой значимости наименований понятий в отобранных документах было проведено исследование по созданию актуального семантического словаря (далее – АСС) для кластеризации текстов методами приближенного концептуального анализа текстов [6]. В рамках данного исследования составлен частный частотный словарь наименований понятий и установлена взаимосвязь между покрытия текстов понятиями, содержащимися в отобранных документах, и рангами значений их частот. Характеристики частного частотного словаря наименований понятий, сформированные в результате обработки 2 013 документов (размещенных в средствах массовой информации текстов), представлены в таблице 1. Таблица 1. Характеристики частного частотного словаря наименований понятий
Из анализа содержания таблицы следует, что количество рангов частот наименований понятий используемых в исследовании документов составляет 836, а общее число наименований понятий в таких документах включает 1 817 449, из которых число разных понятий – всего 68 572. При этом наименования понятий в таких документах распределены неравномерно. Так, упоминание слова «проверка» имеет максимальную частоту 55 255, в то же время более 32 тысяч слов и словосочетаний имеют частоту 1. Для создания АСС предлагается использовать полученный в результате исследования частный частотный словарь наименований понятий, исключив из его состава высокочастотную и малочастотную части. В процессе исследований было эмпирически установлено, что пороговым критерием для исключения выcокочастотной лексики является значение частоты равное: , (5) где – высокочастотное пороговое значение; – число документов в коллекции. Этому значению частоты в наибольшей степени соответствует ранг частоты При формировании низкочастотного порогового значения ранга частоты, определяющего число исключенных из состава частотного словаря малочастотных понятий, необходимо исходить из значения минимального объема кластера. Если принять, что минимальными объемом кластера может быть кластер , (6) где – верхнее пороговое значение; – минимальное число документов в кластере (этому критерию в данном случае будет соответствовать количество разных понятий равное 7 643 с покрытием понятий отобранных документов рангом частот более 10 на 93,3%). В этом случае объем АСС будет равен: . (7) Покрытие отобранных документов понятиями АСС будет равно 30% (93,3 %.- Такое значение покрытия АСС соответствует эмпирически установленному оптимальному значению покрытия для автоматически создаваемых АСС, предназначенных для различных текстов. Всем элементам словаря назначались весовые коэффициенты по формулам (3 и 4). Проведенные эксперименты показали недостаточную смыслоразличающую способность АСС, обусловленную тем фактом, что семантически значимые для заданной тематики однословные понятия и аббревиатуры имеют неприемлемо низкий весовой коэффициент. Поэтому было решено увеличить вес смысловой значимости тех однословным понятиям, которые входят в состав разработанного в процессе данного исследования тематического концептуального словаря (далее – ТКС) и переназначить , (8) где – частота; – число слов в словосочетании; – в словаре ТКС определено как аббревиатура; – в словаре ТКС определено как значимое понятие предметной области. Эксперименты, проведенные с модифицированным АСС с повышенными весовыми коэффициентами значимых понятий, показали его эффективность путем существенного повышения роли тех понятий, которые в наибольшей степени определяют основное смысловое содержание документов. На втором этапе по текстам каждого из отобранных документов был автоматически сформирован понятийный образ документа (ПОД). Формирование ПОД осуществлялось путем выявления и идентификации в документе понятий, являющихся элементами АСС. При этом процесс идентификации понятий производился на уровне словоизменительной нормализации слов, входящих в состав понятий. Для каждого ПОД вычислялась его семантическая характеристика[2], которая использовалась при формировании первоначального списка кластерообразующих отобранных документов. В список кластерообразующих документов включались документы, семантическая характеристика которых превышала пороговое значение. На третьем этапе выполнялся процесс автоматического формирования кластеров отобранных документов. Формирование каждого кластера производилось путем сопоставления элементов ПОД кластерообразующего документа с ПОД всех отобранных документов. В процессе такого сопоставления ПОД вычислялось как отношение суммы весов совпавших элементов ПОД с весом ПОД кластерообразующего документа. При этом в зависимости от заданного порогового значения этого отношения принималось решение о включение документа в кластер данного кластерообразующего документа. Для существенного уменьшения числа сравнений ПОД отобранных документов В рамках этих допущений было решено организовать два списка документов, изменяющихся в процессе кластеризации. Первый список («черный») должен включать документы, которые будут использовать в качестве кластерообразующих. Первоначально он сформирован на основе использования семантических характеристик ПОД. Одновременно для контроля процесса кластеризации был создан постоянно пополняемый список («белый» список) документов, входящих хотя бы в один Завершающим этапом процесса кластеризации являются операции нахождение центроида для каждого кластера, формирования названия кластера, а также проверка истинности процесса кластеризации. В процессе такой проверки должно быть установлено, что в каждом из отобранных документов содержится обобщенное содержание кластера. Эту проверка осуществляется путем формирования дайджеста кратких рефератов документов кластера. Все эти операции базируются на использовании автоматически создаваемого концептуального словаря кластера (далее – КСК). Этот словарь строится для каждого кластера на основе анализа содержания документов, входящих в данный кластер. Поиск центроида осуществляется путем «взвешивания» вновь построенных ПОД по КСК и должен удовлетворять двум условиям: а) ПОД должен иметь максимальный вес; б) источник документа должен быть включен в список верифицированных источников. 4. Реализация процесса технологического процесса кластеризации На основе предложенных решений разработан обобщенный технологический порядок процесса кластеризации, приведенная в таблице 2. Таблица 2 Обобщенный технологический порядок процесса кластеризации
Этап 1. Конвертирование и формально-логический контроль каждого из отобранных документов | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1.1 | Конвертирование исходных текстов во внутрисистемный формат | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1.2 | Выполнение формально-логического контроля текста | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|