Хелпикс

Главная

Контакты

Случайная статья





Негізгі бөлім. Бірінші бөлімде



Негізгі бөлім

 ХХІ ғaсыр aқпaрaт ғaсыры. Ұшқан құстай дамыған Қaзіргі зaмaндaғы Интернет жүйесінің қaрқынды дaмуы әлемнің кез-келген нүктесінен, кез-келген aқпaрaтты тaбуғa мүмкіндік береді. Әлеуметтің көптеген aқaулы мәселелері, білім беру сaлaсы, медицинa, транспорт және бизнес т.б орындар интернет жүйесінің айрылмас бөлігіне айналды. Осыған сәйкес елімізде ақпараттық технологияға суранысыда жылдан жылға артуда.

Зерттеу тақырыбының өзектілігі.Әл-фараби атындағы қазақ ұлттық университетінің архив бөлімінің жұмысын эектронды партал құрып архивтерді автоматты түрде анықтау, сұрыптауды жасау және қолданушы үшін қолайлық туғызу .

Бірінші бөлімде

Электрондық почтаның жұмысын автоматты түрде анықтау және сұрыптауды жасау үшін келіп түскен құжаттар компьютер арқылы өңделуі мүмкін кез келген фактілер, файлдар, сандар, немесе мәтін болып табылады. Электрондық почтадан келіп түскен мәліметтерді өңдеу мен сақтау технологияларының дамуына байланысты, әр-түрлі салаларда жиналған ақпараттардың аса мол қорына тап болды. Кез келген кәсіпорынның (коммерциялық, өндірістік, медициналық, ғылыми және транспорт т.б.) қызметі енді өз қызметінің барлығын тіркеумен және сақтау қоса жүретін болды, әрі мәліметтерді белгілі бір мезгілде өңдеу керек болады. Мәліметтерді өңдеудің қазіргі заманға сай талаптары келесідей:

 

– мәліметтердің шектеусіз көлемі бар болуы;

– мәліметтердің әртекті (сандық, сапалық, мәтіндік) болып табылуы ;

– нәтижелер нақтылы және түсінікті болулары тиіс;

– шикі мәліметтерді өңдеуге арналған аспаптар пайдалануда қарапайым болуы керек.

 

Ұзақ уақыт бойы мәліметтер талдауының негізгі құалы рөлін атқарып келген дәстүрлі математикалық статистика, кейінгі кезде пайда болған мәселелерді шеше алмады. Басты себеп – анықталмаған шамалармен операцияларда фунционалды қабілетінің болмауы. Data Mining (discovery-driven data mining) қазіргі технологияларына, мәліметтердің көп аспектілі өзара қатынастарының үзінділерін (фрагменттерін) көрсететін шаблондар негіз етіп алынған. Бұл шаблондар адамға түсінікті түрде тұтас білдірілетін, мәліметтердің іріктеулеріне тән заңдылықтар болып саналады. Шаблондарды іздеу, іріктеу құрылымы – талданатын көрсеткіштер мәндерін үлестіру туралы априорлық болжамдар шеңберінде шектелмеген әдістермен өндіріледі.

      Data Mining–нің негізгі артықшылығы, іздестірілген шаблондардың, стандартты еместігі мен айқын еместігі, яғни табылған шаблондар жасырын білімдерді (hidden knowledge) құрайтын айқын емес және кездейсоқ (unexpected) мәліметтер болуын көрсетеді.

Әдетте Data Mining әдісімен айқындадатын заңдылықтарыдың 5 түрлі стандарты белгілінген:

– ассоцация (қауымдастық). Жоғары ықтималдықты, бір бірімен байланысқан оқиғалар;

– реттілік. Жоғары ықтималдықты, тізбектеле байланысқан, нақтылы мерзімдік оқиғалар ;

– классификация. Белгілері бар, топтарда сипатталатын оқиға немесе объект;

– кластеризация. Мәліметтерді өңдеу процесінде, автоматты түрде анықталатын өздерінің топтары берілмеген, классификациямен ұқсас және одан айырмашылығы бар заңдылық;

– уақытша заңдылық. Болжам жасау үшін қолданылатын, динамикалық мәліметтердің болуы.


 

иерархиялық кластерлеу мәні үлкен кластерлер немесе кішірек кластерлерді ірі дивизионда аз жүйелі бірлестік болып табылады.
Иерархиялық агломерациялық әдістері (агломерациялық беттеу, AGNES)
Бұл топ бастапқы элементтер мен кластерлерді санының тиісті төмендеуін үйлестіре отырып дәйекті әдістері сипатталады.
алгоритм объектілерін басында жекелеген кластерлер. алғашқы қадам кластерде бірге ең ұқсас нысандар болып табылады. Кейінгі қадамдар кәсіподақ ұзақ барлық нысандар бір кластері болуы мүмкін емес, себебі созылады.

алгоритм объектілерін басында жекелеген кластерлер. алғашқы қадам кластерде бірге ең ұқсас нысандар болып табылады. Кейінгі қадамдар кәсіподақ ұзақ барлық нысандар бір кластері болуы мүмкін емес, себебі созылады.

Иерархиялық divizimnye (бөлінетін) әдістері (келіспеушіліктер талдау, DIANA)
Бұл әдістер агломерациялық әдістерін логикалық қарама-қарсы болып табылады. барлық нысандар келесі қадамдары туралы сол кластердің тиесілі алгоритм басында аз кластерлерді бөлінеді, нәтижесінде бөлшектемей топтардың дәйектілігі.

Иерархиялық кластерлік талдау әдістері деректер жиынтығының аз мөлшерде пайдаланылады.
иерархиялық кластерлеу әдістерін артықшылығы олардың көріну болып табылады.
иерархиялық кластерлік талдау нәтижесі болып табылады, - ( «ағаш» грек Dendron дейін) филогенетикалық ағаштар құрылысына байланысты иерархиялық алгоритмдері.
Дендрограмме бір-біріне жеке нүктелері және кластерлерді жақындығын сипаттайды, бірлестіктің графикалық тізбегі кластерлерді (бөлу) болып табылады.
Дендрограмме (дендрограмме) - шоғырландыру кластерлерді дәйекті процесі қадамдардың біріне сәйкес әрқайсысы N деңгейін қамтитын ағаш диаграмма.
Сондай-ақ, ағаш дендрограмме кластерлер иерархиялық ағаш құрылымын үйлестіре ағаш сызбаны деп аталады.
дендрограмме иерархиясының түрлі деңгейлерде өзгеріп отырады заттарды топтау кірістірілген отыр.


 



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.