Хелпикс

Главная

Контакты

Случайная статья





Этап 2. Семантический анализ текста каждого из отобранных документов



Этап 2. Семантический анализ текста каждого из отобранных документов

2.1 Графематический анализ текста
2.2 Морфологический анализ слов текста
2.3 Выделение наименований понятий текста
2.4 Нормализация наименований понятий, выделенных из предложения
2.5 Исключение незначимых слов и словосочетаний по словарю стоп-слов
2.6 Построение списка формализованных наименований понятий документа с указанием частот их встречаемости

Этап 3. Построение актуального концептуального словаря (далее – АКС) для кластеризации отобранных документов

3.1 Создание массива всех формализованных наименований понятий с указанием частот их встречаемости в отобранных документах
3.2 Построение частотного словаря формализованных наименований понятий отобранных документов
3.3 Построение характеристической таблицы частотного словаря документов
3.4 Определение верхнего и нижнего порогового значения частот словаря
3.5 Формирование понятийного состава АКС
3.6 Назначение весовое значение смысловой значимости наименованиям понятий АКС
3.7 Корректировка значений весов понятий АКС по ТКС
3.8 Генерация машинного представления АКС

Этап 4. Построение ПОД

4.1 Выявление в тексте наименований понятий по словарю АКС
4.2 Формирования ПОД
4.3 Назначение каждому элементу ПОД весовых характеристик

Этап 5. Кластеризация отобранных документов

5.1 Получение информации о семантических характеристиках ПОД
5.2 Формирование первоначального «черного» списка документов
5.3 Последовательное сопоставление ПОД «черного» списка документов со список отобранных документов
5.4 Ведение «черного» и «белого» списков отобранных документов в процессе кластеризации
5.5 Формирование кластеров на основе анализа результатов сопоставление ПОД


  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.