data mining - iaunresearch.iaun.ac.ir/pd/nadimiold/pdfs/homework_7208.pdf · data mining ˘ˇˆ˙...

61
داده ﻛﺎويData mining دﻛﺘﺮ ﻣﺤﻤﺪ ﺣﺴﻴﻦ ﻧﺪﻳﻤﻲ داﻧﺸﻜﺪه ﻣﻬﻨﺪﺳﻲ ﻛﺎﻣﭙﻴﻮﺗﺮ داﻧﺸﮕﺎه آزاد اﺳﻼﻣﻲ واﺣﺪ ﻧﺠﻒ آﺑﺎدData Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University OLAP ، اﻧــــﺒﺎره ﻫﺎ و ﻣـــﻜﻌﺐ ﻫﺎي دادهOLAP ، اﻧــــﺒﺎره ﻫﺎ و ﻣـــﻜﻌﺐ ﻫﺎي داده

Upload: others

Post on 06-Sep-2019

13 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

داده كاويData mining

دكتر محمد حسين نديميدانشكده مهندسي كامپيوتر

دانشگاه آزاد اسالمي واحد نجف آباد

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

OLAP انــــباره ها و ،مـــكعب هاي داده

OLAP انــــباره ها و ،مـــكعب هاي داده

Page 2: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

منابع Data Mining: Concepts and Techniques,

Third or Second Edition (The Morgan

Kaufmann Series in Data Management Systems)

by Jiawei Han, Micheline Kamber and Jian Pei

Data Mining: Practical Machine Learning

Tools and Techniques, Third or second Edition

(The Morgan Kaufmann Series in Data

Management Systems) by Ian H. Witten, Eibe

Frank and Mark A. Hall (Jan 20, 2011)

Introduction to Data Mining by Pang-Ning

Tan (Mar 2013)

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University 2

Page 3: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

: آموزيم مي فصل اين در

. داده هاي انباره از استفاده ضرورت و تعريف

OLAP بعدي چند اي داده هاي مدل ، داده مكعبهاي

OLAP عمليات

.داده هاي انباره معماري

داده هاي انباره سازي پياده

آنالين تحليلي استخراج

داده مكعبهاي

3Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 4: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

Data( داده انباره تعريف Warehouse(

ها داده پردازش پيش در مهمي گام�بعدي چند فضاي يك در ها داده تثبيت و )generalize( تعميم داده�

كه بدانيد

Data(ها داده انباركردن فرايند warehousing( و OLAP فرآيند در ضروري گام يك است دانش كشف

4Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 5: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

داده هاي انباره متعدد تعاريف

: داده انباره از ساده تعريف�

و نگهداري سازمان عملياتي داده هاي پايگاه هاي از مجزا كه دارد داده اي پايگاه به اشاره داده انباره. سازد مي فراهم را تحليل براي تاريخي تلفيقي داده هاي و مختلف هاي سيستم يكپارچگي امكان

: داده انباره جامع تعريف�

William آقاي گفته ي طبق H.Inmon، متغير ، يكپارچه گرا، موضوع جمع آوري داده انباره يك مي فراهم را مديران تصميم گيري فرآيند از حمايت امكان كه است ها داده از پايدار و زمان براساس

.كند: تعريف اصلي شاخصهاي

•subject oriented

•Integrate

•Time variant

•Nonvolatile

5Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 6: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

داده هاي انباره تعريف اصلي شاخصهاي

subject) گرا موضوع• oriented): آناليز و سازي مدل بر سازمان، يك هاي تراكنش پردازش ي روزمره عمليات بر تمركز جاي به داده انباره

مي شود متمركز ، سازمان تصميم گيرندگان ي استفاده منظور به داده ها(Integrated) يكپارچه•

ركوردهاي و سطحي يك فايل هاي رابطه اي، داده هاي پايگاه مانند ناهمگن، منبع چند سازي يكپارچه.دارد قرار داده هاي انباره كار دستور در آنالين تراكنش

Time) زمان براساس متغير• variant)

)گذشته سال 10 تا 5 يعني( تاريخي ديدگاه يك براساس اطالعات سازي فراهمnon) :پايدار• volatile):

همزماني كنترل هاي مكانيسم و بازيابي ها، تراكنش پردازش از نياز بي ، فيزيكي مجزاي انبار

6Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 7: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

Data( ها داده انباركردن warehousing(

. است داده هاي انباره كاربرد و ساخت فرآيند ، داده كردن انبار ، كلي طور به: شامل داده كردن انبار بنابراينداده انباره ساخت فرآيند -1 داده هاي انباره كاربرد مديريت -2

: توجه

Data warehousing برابر درwarehouse DBMS

7Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 8: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

؟مي كنند استفاده داده هاي انباره اطالعات از چگونه سازمان ها

، خود تجاري تصميم گيري فعاليت هاي از حمايت براي داده هاي انباره در موجود اطالعات از سازمان ها•: رويكرد با مي كنند استفاده

مشتري خريد الگوهاي آناليز شامل مشتري بر تمركز افزايش١) محصوالت ارزش مديريت و محصوالت اطالعات از اي داده مخازن استقرار٢).سود منابع جستجوي و عمليات تحليل٣)تجاري دارايي هاي هزينه مديريت و محيطي اصالحات ايجاد مشتري، روابط مديريت�) ناهمگن داده هاي پايگاه يكپارچه سازي�)

: بنابراين ناهمگن داده هاي پايگاه يكپارچه سازي سنتي رويكرد براي جايگزين و جالب راه يك داده انباركردن

8Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 9: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

OLTP برابر در OLAP

On-Line Transaction Processing

: آنالين تراكنش پردازش سيستم هاي

آنالين هاي تراكنش اجراي و جو و پرس پردازش ثبت ، دستمزد و حقوق بانكداري، توليد، موجودي، گزارش ، خريد مانند سازمان يك ي روزانه عمليات اكثر

... و حسابداري و

On-Line Analytical Processing

:سيستم هاي پردازش تحليلي آنالين

مي كنندبه كاربران دانش به منظور تحليل داده ها و تصميم گيري سرويس دهي نيازهاي متنوع كاربران مختلف تامين شودمي شوند تا فرمت هاي متنوع سازمان دهي و ارائه در داده ها

9Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 10: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

سيستم جهت گيري و كاربران١)گرا بازار سيستم برابر در گر مشتري سيستم

داده محتويات٢) تاريخي ي داده حجيمي مقادير برابر در جاري ي داده

داده پايگاه طراحي٣) پايگاه طراحي و star يا snowflake هاي مدل برابر در گرا كاربرد داده پايگاه طراحي و رابطه-موجوديت اي داده مدلگرا موضوع داده

(�view

از گرفته نشات اطالعات و داده پايگاه شماي از نسخه چندين برابر در تجاري بخش يك يا دپارتمان يك جاري ي دادهمختلف سازمانهاي

دسترسي الگوهاي�) خواندني فقط عمليات برابر در بازيابي و همزماني كنترل مكانيسم هاي

10

داده هاي انباره با عملياتي داده پايگاه هاي سيستم تفاوتهاي

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 11: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

OLTP و OLAP مقايسه

11

OLTPOLAPويژگي

پردازش اطالعاتيپردازش عملياتيمشخصات

آناليزتراكنشگرايش

كارمند ، مدير پايگاه داده ، كارشناس پايگاه دادهكاربرمدير ، مجري ، : مانند (كارگر دانش

)تحليلگر

عمليات روز به روزكاركردنيازمنديهاي اطالعاتي دراز مديريت ،

پشتيباني تصميم

طرح پايگاه

داده، موضوع گرا star/snowflake، كاربردگرا ERمبنتي بر

تاريخي ، نگهداري دقيق در طول زمانداده هاي جاري ، توليد شده به صورت به روزداده

چكيده ، تثبيت شدهاوليه ، با جزئيات زيادخالصه سازي

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 12: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

OLTP و OLAP مقايسه

12

OLTPOLAPويژگي

چكيده ، چند بعديبا جزئيات ، نمايش مسطحنمايش

پرس و جوهاي پيچيدهكوچك ، تراكنشهاي سادهواحد كاري

اكثرا خواندننوشتن/ خوانددسترسي

اطالعات خروجيداده هاي وروديتمركز

اسكن به تعداد زياددر هم سازي براساس كليد اصلي/ شاخصعمليات

تعداد ركودهاي قابل

دسترسيميليون هاده ها

صدهاهزارانتعداد كاربران

تا 100MBاندازه پايگاه داده 1GB100MB 1تاGB

كارايي و دسترسي پذيري باالالويتانعطاف پذيري باالو استقالل كاربر

نهايي

خروجي پرس و جوها ، زمان پاسخخروجي تراكنشمعيارData Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 13: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

مجزا؟ صورت به داده انباره داشتن چرا

براي اضافه منابع و وقت صرف جاي به مستقيم طور به آنالين تحليلي پردازش چرا؟نمي شود اجرا ها داده پايگاه اين روي مجزا ي داده انباره يك ساخت)OLTP و OLAP( سيستم دو هر كارآيي ارتقاء به كمك�)OLAP در ها داده پيچيده قالب(متفاوت دهي سازمان� در همزماني وكنترل بازيابي مكانيسم هاي كاربرد ضرورت( داده ها كاربري متفاوت ساختارهاي�

OLTP ()OLAP در تاريخي هاي داده( شده ذخيره هاي داده متفاوت ساختار�)OLAP هاي داده تصميم از پشتيباني در كاربرد( ها داده كاربرد متفاوت اهداف�

نهايت در سيستم دو متفاوت كامالً كاركردهاي

13Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 14: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

بـــعدي چــند اي داده مـــدلـهاي

، داده مدل اين .كنند مي عمل ،بعدي چند داده اي مدل يك بر مبتني داده انبارهاي و OLAP ابزارهاي .شود مي داده نمايش داده مكعب شكل به

.كند مي فراهم بعد چندين در را داده مدلسازي و نمايش امكان داده مكعب

: داده مكعب اجزاي

dimensions يا ابعاد�

بعد هر.مي شوند نگهداري ركورد عنوان به سازمان يك خواسته هاي به توجه با كه هستند موجوديت هايي يا ديدگاه هاdimension)بعد جدول نام به خود به مربوط جدول يك است ممكن table) بيشتر را بعد اين كه باشد داشته

.مي كند توصيف

facts يا حقايق�

.شوند مي بكارگرفته ابعاد بين روابط تحليل منظور به كه هستند عددي معيارهاي حقايقFact(حقيقت جدول يك با و table( مي شوند داده نشان .

14Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 15: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

: مثالAll شركت Electronics ابعاد به توجه با ، فروش ركوردهاي نگهداري براي ، فروش داده انباره يك آن ها در كه محل هايي و شعب ، كاال ماهانه فروش مانند مواردي پيگيري براي مكان و شعبه كاال، زمان،

.كند ايجاد است شده فروخته كااليي

15

Vancouver: مكان

نوع كاال

زمانلوازم خانگيكامپيوترتلفنتجهيزات ايمني

4014825605Q1

5131952680Q2

50301023812Q3

58381038927Q4

براساس ابعاد زمان و كاال از شعب شهر All Electronicesنمايش دوبعدي داده ها فروشبه هزار دالر dollars_soldونكور براساس

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 16: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

16

Chicago: ���ن New York: ���ن Toronto: ���ن Vancouver: ���ن

ــــــــــــــــــ��

�ات ���

ای���كامپيوترتلفن

لوازم

خانگي

تجهيزات

ايمنيكامپيوترتلفن

لوازم

خانگي

تجهيزات

ايمنيكامپيوترتلفن

لوازم

خانگي

تجهيزات

ايمنيكامپيوترتلفن

لوازم

خانگيزمان

100148256055914374981878238968108762389882854Q1

5123192568068252969894925411024113069864890943Q2

5013010237287285879594010024510481034789599241023Q3

5803810389277845986498798454109111428708709921129Q4

به هزار دالر dollars soldنمايش سه بعدي ازابعاد زمان ، كاال و مكان براساس

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 17: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

17

بعدي 3مكعب داده

بعدي 4مكعب داده

Cuboidمكعب يا

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 18: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

18

بعدي زمان ، كاال ، مكان و توليد كننده بطوريكه هر مكعب يك درجه 4شبكه ي از مكلعبها براي مكعب .متفاوت از چكيده سازي را نشان مي دهد

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 19: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

:بعدي چند هاي داده پايگاه شماهاي

.كند تسهيل آنالين صورت به را داده آناليز كه دارد نياز مختصر و گرا موضوع شماي يك به داده انباره: داده هاي انباره در چندي ها داده شماهاي انواع

Starيا اي ستاره شماي •

Snowflake يا برفي دانه شماي •

Fact يا واقعي فلكي صورت شماي • Constellation

19Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 20: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

Star schema: مدلسازي روش ترين معمول�:است زير جدول نوع دو شامل�

Fact table : هاست داده از افزونگي بدون ي مجموعه شامل كه بزرگ مركزي جدول يك Dimension tables : بعد هر ازاي به كوچكتر جداول مجموعه يك.

: مثال

20Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 21: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

: اي ستاره شماي ويژگي

است صفت مجموعه يك شامل جدول هر و شود مي داده نشان جدول يك با تنها بعد هر.است زير صفت مجموعه شامل location بعد جدول مثال براي

}location_key ،street city ،state_or_province ،country{:كه نمونه هايي از آن به صورت زير است

)conada ،British Columbia ،Vancouver و (... )conada ،British Columbia ،Victoria و(...

.اجتناب ناپذير است وجود افزونگي بنابراين با ساختار شماي ستاره

21Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 22: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

Snowflake schema :

. هستند شده نرمال بعد، جداول كه طوري به است star شماي مدل از نوعي snowflake مدل بعد جداول كه است اين snowflake و star شماي مدل هاي بين اصلي تفاوت.شوند مي نگهداري شده نرمال شكل به افزونگي ها حذف براي) !!؟ چرا (. شود مي كارآيي طور همين و افزونگي كاهش باعث روش اين

: مثال

22Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 23: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

Fact constellation schema :. است شده تشكيل star شماهاي از اي مجموعه از

.دارند نياز بعد جداول گذاري اشتراك به براي حقيقت جدول چندين به تر پيچيده كاربردي هاي برنامه : مثال

Fact شماي يك constellationعد جداول از حقيقت جداول اشتراكي استفاده امكانمي ميسر را ب سازد

23Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 24: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

Data warehouse برابر در Data mart

مانند دهد مي پوشش را سازمان كل كه شود مي جمع آوري اطالعاتي موضوعاتي مورد در داده انباره يك پرسنل و دارايي ها كاالها، مشتريان،

Fact constellationبراي مدلسازي انباره هاي داده معموال از شماي

Data(اختصاصي داده انباره مقابل در mart( موضوعات بر تنها كه است داده انباره از مجموعه زير يك .است سازمان از بخشي ي گستره به تنها آن حوزه اينرو از و دارد تمركز شده انتخاب

استفاده snowflakeيا starبراي مدلسازي انباره هاي داده اختصاصي از شماهاي مي شوند

24Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 25: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

كرد؟ تعريف داده ها براي بعدي چند شماي يك مي توان چگونه

مي استفاده DMQL كاوي داده جوي و پرس زبان ، از كاوي داده جوهاي و پرس سازي پياده براي: است SQL بر مبتني كه شود

DMQL : Data Ming Query Language

: است زير شكل به داده مكعب تعريف دستور كلي فرم

Define cube <cube_name> [<dimension_list>]: <measure list>

: كند مي پيروي زير كلي فرم از بعد تعريف دستور

Define dimension <dimension name> as (<attribute or dimension

list>)

25Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 26: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

: مثال

: star شماي تعريف

Define cube sales_star [Time, item, branch, location]:

Dollors_sol= sum (sales_in_dollars) units_sold=count (*)

Define dimension time as (time_key , day, day_ of_week, month, quarter , year)

Define dimension item as (item_key, item_ name , brand, type, supplier – type

Define dimension branch as (branch – key, branch – name, branch – type)

Define dimension location as (location – key, street , city , province_ or_ state_ country)

26Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 27: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

: مثال

: snowflakeتعريف شماي •

Define cube sales_snow flake [time, item, branch, location]:

Dollars_sold=sum (sales_in_dollars), units_sold=count (*)

Define dimension time as (time_key, day, day_of_week, month, quarter, year)

Define dimension item as (item_key, item_name, bround, type, supplier

(suppluier_key, supplier_ type))

Define dimension branch as (branch – key, brand – name, branch_type)

Define dimension location as (location_key, street, city (city_ key,

city,province_or_state, country)

27Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 28: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

: مثالFact constellationتعريف شماي

Define cube sales [time, item, branch, location]

Dollars_sold=sum (sales_in_dollars), units_sold= count (*)

Define dimension time as (time, key, day, day_of –week, month, quarter, year)

Define dimension Item as (item_key, item_name, brand, type, supplier, type)

Define dimension branch as (branch_key, branch_name, branch_type)

Define dimension location as (location_key, street, city, province_or_state, country)

Define cube shipping [time, item, shipper, from_location, to_location]:

Dollars_cost= sum (sales_in_dollars), units_sold= count (*)

Define dimension time as time in cube sales.

Define dimension item as item in cube sales.

Define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)

Define dimension from_location as location in cube sales.

Define dimension to_location as location in cube sales.

28Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 29: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

محاسبه و طبقه بندي : معيارها

: بعدي چند فضاي در نقاط تعريف�)مقدار، بعد(

معيار مكعب داده يك تابع عددي است كه مي تواند در هر نقطه در فضاي مكعب داده : تعريف معيار �. ارزيابي شود

مقدار يك معيار براي نقطه مورد نظر، با تجميع داده هاي مربوط به جفت هاي :شيوه محاسبه معيار �مقدار مربوطه محاسبه مي شود -بعد:انواع معيارها �

()Minو ()Count() ،Maxمانند : Distributeتوزيعي يا •

()Avgمانند : Algebraicجبري يا •

() medianو () rank () ،modelمانند : Holisticجامع يا •

29Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 30: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

:مفهومي مراتب سلسله

مفاهيم به پائين سطح مفاهيم از مجموعه يك از متوالي نگاشت يك تعريف مفهومي مراتب سلسله يك .است باالتر سطح و تر عمومي

: مثال Location بعد به مربوط مفهومي مراتب سلسله

street < city < province or state < country

:نكته

براي سهولت كار، ممكن است سلسله مراتب هاي مفهومي پركاربرد، از پيش،) مانند سلسله مراتب مفهومي زمان(در سيستم داده كاوي تعريف شوند

30Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 31: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

:بعدي چند ي داده مدل در OLAP عملگرهاي

ترسيم را متفاوت ديدگاههاي توان مي آنها كمك به كه دارد وجود OLAP داده مكعب عملگر تعدادي�. داد انجام را موجود داده هاي تحليل و تعاملي جوهاي و پرس و كرد: از عبارتند عملگرها اين

•Roll up : بعد كاهش با تجميع•Drill Down : بعد افزايش با تجميع•Slice and dice : selectionعد رويب •Pivot : سازي تجسم عملگر ... و drill-across ، drill-through : عملگرها ساير•

31Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 32: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

در مقابل ِ پايگاه داده هاي آماري OLAPسيستم هاي

statistical( آماري داده پايگاه database( ياSDB : .مي شود طراحي آماري كاربردهاي از حمايت براي كه است اي داده پايگاه سيستم

: دارند باهم روشني تفاوت هاي ،OLAPو SDB هاي سيستم هاي سيستم حاليكه در هستند متمركز واقتصادي اجتماعي كاربردهاي بر ها SDB هاي سيستم -1

OLAPشوند مي هدف گيري تجاري كاربردهاي براي بيشتر. پايگاه هاي سيستم در مهم موضوع يك مفهومي مراتب هاي سلسله در محرمانگي به مربوط مسائل -2

.است آماري ي داده هاي داده كارآمد مديريت براي OLAP هاي سيستم ، آماري ي داده پايگاه سيستمهاي خالف بر -3

.شود مي طراحي حجيم

32Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 33: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

بعدي چند هاي داده پايگاه در اجرا براي Starnet جوي و پرس مدل

. شود انجام starnet مدل اساس بر مي تواند بعدي چند هاي هاي داده پايگاه در جو و پرس: starnet مدل تعريف

خط هر بطوريكه شود، مي تشكيل مي شوند شروع مركزي نقطه يك از كه شعاعي خطوط تعدادي از. است بعد يك براي مفهومي مراتب سلسله يك گوياي

: مثال

33Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 34: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

:داده انــباره مــعماري

: از عبارتند كه دارد وجود داده انباره يك طراحي مورد در متفاوت ديدگاه چهارTop-down يا پايين به باال ديدگاه� view

data يا منبع ي داده ديدگاه� source view

dataيا داده ي انباره ديدگاه� warehouse view

business يا تجاري جوي و پرس ديدگاه� query view

: كه بدانيد و فناوري تجاري، مهارت هاي نيازمند و است زمانبر و پيچيده كاري داده انباره يك كاربرد و ساخت

.است برنامه مديريت

34Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 35: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

: فرآيند طراحي انباره داده. شود ساخته تركيبي يا پايين به باال ، باال به پايين روش به مي تواند داده انباره يك�: است زير مراحل شامل داده هاي انباره ساخت و طراحي افزار نرم مهندسي ديدگاه از�

ريزي برنامه•نيازمنديها مطالعه•مشكل تحليل• داده انباره طراحي•داده يكپارچگي و تست•داده انباره توسعه نهايت در•

.كنند مي پيدا توسعه متدولوژي دو كاربرد با بزرگ افزاري نرم هاي سيستم�Waterfall يا آبشاري روش ١)

خصوص به داده انباره هاي سيستم توسعه براي مناسب : spiral يا حلزوني روش٢) اختصاصي هاي انباره براي

35Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 36: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

:داده انباره طراحي فرآيند

: است زير مراحل شامل داده هاي انباره طراحي فرايند كل در مدلسازي براي تجاري فرايند يك انتخاب١) تجاري فرايند بندي دانه انتخاب٢)شد خواهد اعمال حقيقت جدول از ركورد هر روي كه ابعادي انتخاب٣)كند مي پر را حقيقت جدول در را ركورد هر كه معيارهايي انتخاب�)

: دارد وجود داده هاي انباره طراحي براي ابزار متنوعي انواعداده انباره توسعه ابزارهاي � ريزي برنامه و تحليل ابزارهاي � ها رساني بروز ابزارهاي� ... و

36Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 37: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

: داده انباره سطحي سه معماري

روند مي بكار اليه سه معماري بايك اغلب داده هاي انباره هميشه تقريبا كه است داده انباره ي دهنده سرويس ، داده هاي انباره معماري در اليه ترين پايين١)

. است اي رابطه داده پايگاه سيستم يك: كند مي كار زير مدل دو كاربرد با معموال كه است OLAP ي، دهنده سرويس يك مياني اليه٢)

.ROLAP يا اي رابطه OLAP مدل :اول .MOLAP يا بعدي چند OLAP مدل :دوم

. است نهايي كاربر با ارتباط در كه اي اليه معماري اين اليه باالترين٣)

: از عبارتند كه دارد وجود داده انباره مدل سه معماري نظر نقطه ازEnterprise يا تجاري داده انباره� warehouse

Data يا اختصاصي داده انباره� Mart

Virtual يامجازي داده انباره� warehouse

37Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 38: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

معماري سه اليه اي انباركردن داده ها38Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 39: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

؟ ال با به پايين يا پايين به باال ساخت روش

گير وقت و هزينه پر اما يكپارچگي مشكالت حداقل با سيستماتيك حل راه يك : پايين به باال روش� يكپارچه سازي مان ز دشواردر اما سريع بازده و كم هزينه مناسب، انعطاف پذيري : باال به پائين روش�

اختصاصي ي داده هاي انبارهافزايشي و تكاملي اي شيوه يك : تركيبي روش� : زير پيشنهادي راهكار با

39Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 40: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

داده انباره سيستمهاي امكانات و Back-End ابزارهاي

هاي داده رساني بروز و دستكاري براي back-end ابزار و كمكي برنامه هاي از داده انباره سيستم هاي. مي كنند استفاده خود

:هستند زير كاركردهاي شامل كمكي برنامه هاي و ابزار اين داده استخراج � داده كردن تميز� داده تبديل� داده كردن بار� داده رساني روز به�

40Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 41: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

ها ابرداده مخازن

همان ها داده ابر داده، انباره يك با كار هنگام .هستند ها داده مورد در داده هايي واقع در ها ابرداده. مي كنند تعريف را انباره اشياء كه هستند داده هايي

: است زير موارد شامل ابرداده مخزن يك داده انباره ساختار توصيف� عملياتي هاي ابرداده� خالصه سازي در استفاده مورد الگوريتم هاي� داده انباره به عملياتي محيط از نگاشت� سيستم كارآيي با مرتبط هاي داده � تجاري هاي ابرداده�

41Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 42: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

:OLAP هاي دهنده سرويس انواع

: است زير موارد شامل OLAP پردازش براي داده انباره دهنده سرويس يك پياده سازيRelational(اي رابطه OLAP هاي دهنده سرويس� OLAP servers( يا ROLAP

Multidimensional( بعدي چند OLAP سرورهاي� OLAP servers(يا MOLAP

Hybrid(تركيبي OLAP هاي دهنده سرويس� OLAP servers( يا HOLAP

اختصاصي هاي دهنده سرويس�

بدانيد است جالب Microsoft SQL server .كند مي پشتيباني HOLAP از2000

42Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 43: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

:داده انباره پياده سازي

اين خواهان نيز OLAP سرورها طرفي از اند شده تشكيل داده بااليي حجم از معموال داده هاي انباره .دهند پاسخ ثانيه به را تصميم از پشتيباني جوهاي و پرس كه هستند

و دسترسي متدهاي داده، هاي مكعب كارآمد ي محاسبه تكنيك هاي از استفاده سيستمها اين در بنابراين .دارد بسزايي اهميت جو و پرس پردازش تكنيك هاي

: كه بدانيد .دارد قرار ابعاد مجموعه تمام در تجميع كارآمد محاسبه بعدي، چند هاي داده تحليل دستورات هسته ي در با مي تواند group-byهر و شوند مي شناخته group-by عنوان به تجميع ها اين ،SQLدستورات در

.شود داده نشان داده مكعب يك

43Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 44: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

مكعب ي محاسبه عملگر

44Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 45: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

45

مكعب ي محاسبه عملگر

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 46: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

مكعبها محاسبه در گرايي بعد معضل

46Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 47: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

جزئي كردن مدل

: دارد وجود مشخص ي پايه مكعب يك با اي داده مكعب كردن مدل براي روش سه�No materialize: شود نمي محاسبه پيش اي پايه غير مكعب هيچ .�Full materialize: هاي مكعب از حاصل شبكه به .شوند مي محاسبه پيش ها مكعب تمام

.گويند مي كامل مكعب ، شده محاسبه�Partial materialize: مي انتخاب محاسبه پيش جهت ها مكعب كل از مناسب مجموعه زير يك

. شوند

: گيرد قرار نظر مد بايد مورد سه مكعبها زير يا مكعبها جزئي درمدلسازيمدلسازي براي ها مكعب زير يا ها مكعب از مجموعه زير شناسايي جو و پرس پردازش فرايند خالل در شده مدلسازي ها مكعب زير يا مكعب استخراج

ها داده رساني بروز و بارگذاري فرايند خالل در شده مدلسازي ها مكعب زير يا مكعب رساني بروز

47Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 48: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

OLAP داده هاي گذاري شاخص

: OLAPگذاري شاخص روشهايBitmap روش -1

Bv )distinct ، مجزا بيتي بردار يك صفت هر براي– bit vector(شود مي گرفته نظر در ، است صفت دامنه در v مقدار هر كه

و ورودي تجهيزات و حافظه از بهينه استفاده در گيري چشم تاثيرbitmap گذاري شاخص– است سازگار فشرده سازي تكنيك هاي با روش اين نيز باال كاردينالتي در زيرا ، دارد خروجي

bitmap روش -2

. شوند مي ثبت رابطه اي داده ي پايگاه يك در رابطه دو پيوند قابل سطرهاي– پيوند هزينه پر عمليات اجراي بدون را پيوند قابل تاپل هاي مي توانند پيوند، شاخص ركوردهاي–

كليدهاي و خارجي كليد هاي بين روابط حفظ براي بويژه پيوند، گذاري شاخص .كنند شناسايي .است مفيد پيوند قابل روابط در آنها معادل اصلي

Join روش -3 bitmap

48Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 49: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

OLAP جو هاي و پرس كارآمد پردازش

پردازش در كارآيي افزايش ، OLAP شاخص ساختارهاي از استفاده و ها مكعب مدلسازي اصلي هدف .است هاي جو و پرس: شود انجام زير بصورت بايد ها جو و پرس پردازش ، نمايش هاي مدل گرفتن نظر در با كلي بطور

: موجود اي داده هاي مكعب روي اجرا قابل عملگرهاي تعيين -1 مشخص ، drill-down و Selection ، Projection ، roll-up ، تبديالت شامل عملگرها اين. استSQL يا و OLAP عملگرها با مرتبط هاي جو و پرس در شده

: شود اجرا بايد آن روي نياز مورد عملگرهاي كه مكعبي تعيين -2 مي استفاده جوها و پرس به پاسخ براي بالقوه بطور كه است شده مدل هاي مكعب تمام شناسايي شامل

.شوند مي پااليش روابط بين غالب دانش كاربرد با و شوند

49Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 50: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

كاوي داده تا داده انباره از

تكامل از تري مقبول سطح در باشند شده گرفته بكار تري طوالني زمان مدت داده هاي انباره چه هر�. دارند قرار

ابزارهاي كاربرد با را استراتژيك گيري هاي تصميم و دانش كشف امكان نهايت در داده هاي انباره� .كند مي فراهم كاوي داده

: كنيم مي تقسيم دسته چهار به را داده كردن انبار ابزارهايaccess يا بازياب و دستيابي ابزارهاي١) and retrieval tools .database يا ها داده پايگاه از گزارش گيري ابزاراهاي٢) reporting tools.data يا داده آناليز ابزارهاي٣) analysis tools .data يا داده استخراج ابزارهاي�) mining tools.

50Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 51: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

كاوي داده تا داده انباره از

: دارد وجود داده هاي انباره براي كاربردي ي برنامه نوع سه و نمودارها جداول، كمك به گزارش ارائه و پايه آماري هاي تحليل ، جوها و پرس از : اطالعات پردازش �

Crosstab مي كند حمايت ها.

dice،slice ، pivoting، drill مانندOLAP پايه اي عمليات از : تحليلي پردازش� down و roll

up كند مي حمايت مي كند عمل شده خالصه هم و مفصل شكل به هم تاريخي هاي داده روي بر معموالً كه

و داده ها طبقه بندي انجام ، تحليلي مدل هاي ساخت با و موجود روابط و پنهان الگوهاي يافتن با : كاوي داده�مي كند حمايت دانش كشف از ، مجسم سازي ابزارهاي كمك به استخراج نتايج نمايش و بيني پيش

51Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 52: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

كاوي داده تا داده انباره از

�OLAP درحاليكه .مي كند كمك ها داده تحليل تسهيل به كه است تجميع /سازي خالصه ابزار يك . پردازد مي داده ها انبوه حجم در پنهان جالبِ دانش و ضمني الگوهاي خودكار كشف به كاوي داده

.مي كند حركت داده ها تعاملي تحليل از حمايت و عمليات سازي ساده سمت به OLAPابزار� دهند انجام خودكار ممكن حد تا را كاوي داده فرآيند كه است آن كاوي داده ابزارهاي هدف درحاليكه

، منظر اين از بنابراين .باشند داشته خود هدايت را فرآيند تا مي كند كمك كاربران به حال عين در و .مي رود جلوتر گام يك سنتي آنالين تحليلي پردازش از كاوي داده

كه زيرا ، گيرد مي بر در را OLAP ي ساده عمليات از گسترده طيفي كاوي داده ، گفت توان مي� خوشه ، انجمني روابط بلكه ، نيست آنها سازي خالصه و داده ي مقايسه شامل تنها كاوي داده فرايند بر در نيز را داده آناليز كاركردهاي ساير و زماني هاي سري آناليز ، بيني پيش و بندي طبقه ، بندي

.گيرد مي را گسترده تري طيف ، كاوي داده در داده ها مديريت پيچيدگي هاي و ها قابليت به توجه با كاوي داده�

.مي دهد پوششOLAP به نسبت ها تحليل و ها داده

52Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 53: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

: آنالين تحليلي استخراج تا آنالين تحليلي پردازش از

:آنالين تحليلي استخراج

Online Analytical Mining

را با داده كاوي و استخراج دانش از پايگاه هاي داده هاي چند بعدي ) OLAP(پردازش تحليلي آنالين .يكپارچه سازي مي كند

بنابر داليل زير حائز اهميت OLAPاز بين الگوهاي متفاوت و معماريهاي متنوع سيستم هاي داده كاوي، : است

OLAP بر مبتني اكتشافي داده ي تحليل�

داده هاي انباره با ارتباط در اطالعات پردازش موجود هاي ساخت زير� داده هاي انباره در داده باالي كيفيت�كاوي داده توابع آنالين انتخاب�

53Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 54: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

:معماري استخراج تحليلي آنالين

OLAPData Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad Universityو OLAMيكچارچه سازي مدل 54

Page 55: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

: داده هاي مكعب

. كنند مي تر آسان را چندبعدي داده چند آنالين تحليلي پردازش داده هاي مكعب: ها مكعب انواع

: از عبارتند اي داده هاي مكعب انواع تعاريف به توجه با�Full Cube

تجميع و پايه هاي سلول

نوه و جد هاي سلول

�Iceberg Cube

�closed cube

55Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 56: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

داده هاي مكعب ي محاسبه براي عمومي استراتژي هاي

: داده هاي مكعب ساخت سازي بهينه هاي تكنيك

كردن گروه بندي و hashing كردن، مرتب - 1 سازي بهينه تكنيك

مياني نتايج Cache و همزمان تجمع - 2 سازي بهينه تكنيكهاي

فرزند كوچكترين با تجميع آغاز ، دارد وجود فرزند مكعب چندين كه زماني- 3 بهينه سازي تكنيك

iceberg هاي مكعب محاسبه ي براي Apriori كردن هرس متد - 4 سازي بهينه تكنيك

56Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 57: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

داده هاي مكعب ي محاسبه براي عمومي استراتژي هاي

سازي بهينه تكنيك چند يا يك كه را ها مكعب كارآمد ي محاسبه براي معروف روش چندين ادامه، در : از عبارتند ها تكنيك اين ، كنيم مي معرفي خالصه طور به گيرند مي بكار همزمان را باال

كــامل هاي مكعب محاسبه براي سطحي چند هاي آرايه روش�

Iceberg هاي مكعب ي محاسبه براي BUC روش�

اي ستاره سازي مكعب روش� پيچيده شرايط با مكعب محاسبه�

57Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 58: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

: داده هاي مكعب محور كشف شناسايي

از معيارهاي براساس ، روش اين .است اكتشافي روش يك داده، هاي مكعب محورِ كشف شناسايي� هدايت براي استثناها اين از و كند مي كار پردازد، مي ستثناء هايا شناسايي به كه شده محاسبه پيش.كند مي استفاده تجميع سطوح تمامي در و داده تحليل و تجزيه فرايند در كاربر

معيارها اين .رود مي بكار داده در ناهنجاري شناسايي براي استثنا هاي شاخص تعيين براي معيار سه� تعريف زير صورت به و است استفاده قابل و محاسبه تجيمع سطوح ي همه در و ها سلول همه براي: شود مي

•Self Exp: در ديگر سلول هاي به نسبت سلول مقدار بودن انگيز شگفت درجه ي به شاخص اين .مي كند اشاره تجميع از سطح همان

•In Exp: صورت در شاخص اين drill down هاي سلول شگفتي ي درجه به ، ها سلول كردن .كند مي اشاره ي زير

• Path Exp: مسير شگفتي ي درجه به شاخص اين drill down مي كند اشاره سلول از.

58Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 59: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

:داده مكعب يك از discovery-Driven اكتشاف 16.3 مثال

59

تغييرات در فروش براساس زمان

زمان- تغييرات فروش براي تركيبات كاالData Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 60: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

60

در هر منطقه IBMتغييرات در فروش براي كاالي كامپيوتر شخصي

:داده مكعب يك از discovery-Driven اكتشاف 16.3 مثال

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University

Page 61: Data mining - IAUNresearch.iaun.ac.ir/pd/nadimiold/pdfs/HomeWork_7208.pdf · Data mining ˘ˇˆ˙ ˝˛ ˚˜ ˙ ! ˙ ˙"˛ ˘ #ˆ˙ Data Mining lectures, Dr. Mohammad Hossein Nadimi,

61

پرسش و پاسخ

Data Mining lectures, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University