Хелпикс

Главная

Контакты

Случайная статья





Комплексный анализ геоданных при отсутствии эталонных объектов (классификация наблюдений на однородные области)



№10. Комплексный анализ геоданных при отсутствии эталонных объектов (классификация наблюдений на однородные области)

Отсутствие эталонных объектов, на которых проводится оценка ста­тистических характеристик и информативности изучаемых признаков, приводит к необходимости разработки алгоритмов обработки данных комплекса на принципах самообучения. Распознавание образов без обуче­ния на эталонных объектах называется самообучением. При этом число классов и статистические характеристики (распределение) признаков по каждому классу должны быть получены в процессе обработки исход­ных данных. При распознавании образов без обучения термин "класси­фикация" больше отвечает сущности задачи, поскольку в конечном итоге площадь исследования разделяется на конкретное число однородных по комплексу признаков классов. Геологическая природа таких классов ос­тается неизвестной из-за отсутствия возможности их сравнения с неко­торыми эталонами, для ее установления требуется проведение горнобу­ровых работ. Однако необходимость разбуривания по сети здесь отпадает, так как достаточно бурения одной скважины для каждого класса. Классификация геологических объектов без обучения приобретает осо­бое значение при обработке данных рудной геологии и геофизики в слож­но построенных в геологическом отношении районах, когда сложный и непостоянный характер геофизических полей обычно исключает воз­можность использования эталонных объектов. Среди существующих алгоритмов классификации выделяются: эври­стические, использующие различные приемы суммирования (или произведе­ния) признаков; корреляционные, базирующиеся на аппарате компонент­ного и факторного анализа; статистические, основанные на проверке статистических гипотез.

· Эвристические алгоритмы (использующие различные приемы суммирования (или произведения) признаков). Строятся в предположении о независимости признаков и их одинаковой информативности.В одном из алгоритмов сум­мирования диапазон значений каждого признака разбивается на задан­ное и одинаковое по каждому признаку число градаций, например че­тыре. Результатом суммирования является число



          В тех же предположениях о признаках проводится суммирование пол­ных нормированных градиентов, предварительно рассчитанных по ме­тодике Березкина для каждого признака в отдельности. Помимо равно­весного суммирования признаков, когда равновесность, т. е. равная ин­формативность, обеспечивается делением признаков на одно и то же число разрядов, используются алгоритмы неравновесного суммирова­ния типа

Где Xи σl2  – соответственно средне значение и дисперсия l-го признака. Для определения порога принятия решения при этом можно использо­вать критерий χ2. При решении частных задач оказываются эффективными алгоритмы типа Yi=X1i*X2i/X3i, для которых не существует математического обосно­вания и соответственно невозможно оценить величину порога принятия решения.

· Метод главных компонент Корреляционный алгоритм классифи­кации (метод главных компонент) позволяет провести классификацию геологических объектов по зависимым друг от друга признакам и оценивается значимость вклада (весового коэффициента) каждого признака. Чтобы свести задачу обработки дан­ных комплекса признаков для случая разделения объектов на два класса к задаче компонентного анализа, сформулируем принцип классифика­ции следующим образом. Пусть i-й объект относится к классу H1 если выполняется условие (4.17) где yi – комплексный параметр, равный сумме взвешенных значений каждого признака для i-го объекта; h1 – весовой коэффициент l-го признака; yпор – порог принятия решения. Если в рассматриваемом множестве объектов существуют два класса и веса h1 выбраны так, что обеспечивают различные значения yi для этих классов, то вычисление h1 можно свести к процедуре нахождения соб­ственного вектора корреляционной матрицы R исходных признаков, соответствующего ее максимальному собственному числу λmax. Порог для принятия решения о наличии объекта искомого класса определяется на основе центральной предельной теоремы, согласно ко­торой сумма случайных величин распределена нормально. Поэтому ве­личина комплексного параметра yi распределена нормально и порог упор определяется заданием вероятности γ:

 где

Последовательное вовлечение в обработку новых признаков дает воз­можность по скорости возрастания комплексного параметра уi судить об их информативности. Выражение (4.17) представляет собой первую главную компоненту, поэтому сам алгоритм реализует вычисление по методу главных компо­нент. В дальнейшем применение метода главных компо­нент может идти: путем последовательного нахождения первой главной компоненты раздельно для объектов со значениями у1 < упор и уi, > упор и т. д.; путем нахождения нескольких (двух-трех) главных компонент, определяющих основную часть дисперсии в пространстве признаков, и их геологического истолкования. Первая главная дампонента выделяет объекты, характеризующиеся наибольшей энергией (дисперсией) в про­странстве всех признаков. С целью геологического истолкования нередко оказывается полезной процедура получения нового набора главных ком­понент (факторов), т.е. вращения факторов.

· Метод К-средних. Пусть множество объектов п следует разбить на заданное число классов М<<n, однородных в смысле заданной мет­рики классов. Каждый i-й объект описан вектором изучаемых призна­ков Xli (l= 1,..., n). На первом этапе случайно выбирается к объектов из общей совокупности n объектов (точек наблюдений или ячеек) и в дальнейшем ведется последовательное уточнение этих выбранных, полагаемых эталонными, объектов  c cоответству­ющим пересчетом приписывае­мых им весов , где v-номер итерации, v=0,1,2… Первые случайно расположенные k-объекты являются нулевым приближением , т.е. , i=1,…,k. Затем извлекается объект (точка) Xk+1 и выясняется, к какому из эталонов ei(0) он оказался ближе всего. Этот эта­лон заменяется новым, опреде­ляемым как "центр тяжести" ста­рого эталона и присоединенного к нему объекта Xk+1 с увеличе­нием на единицу соответствую­щего ему веса. Пересчет эталонов и соответствующих им весов на v-м шаге проводится согласно формулам

при условии, что среднеквадратическое расстояние между Xk+v и eiv-1 минимально, т.е. p(Xk+v, eiv-1) = min p(Xk+v,ejv-1), j=1,…,k и по формулам ei(v) = hiev-1, hi(v)=hi(v-1) если это условие не выполняется.

          После уточнения эталонной совокупности проводится окончатель­ная классификация множества объектов п по комплексу признаков с целью выделения М классов в соответствии с правилом минимального дистанционного разбиения относительно "центров тяжести" (эталон­ных объектов) классов, т. е.   j≠0. Это разбиение – наилучшее в смысле функционала качества

Который является взвешенной суммой внутриклассовых дисперсий.




  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.