data mining using learning automata
DESCRIPTION
به نام خدا. Data Mining Using Learning Automata. داده کاوی با استفاده از اتوماتای یادگیر. A year spent in artificial intelligence is enough to make one believe in God. “Alan perlis ”. برگفته از مقالات. - PowerPoint PPT PresentationTRANSCRIPT
54از وپول مرجع دانشگاه ومدرسهWWW.pupuol.COM
مصطفی نعمتی- نوید بذرکار – بهمن 90
Data Mining Using Learning Automata
داده کاوی با استفاده از اتوماتای یادگیر
به نام خدا
وپول مرجع دانشگاه ومدرسهWWW.pupuol.COM
54از
A year spent in artificial intelligence is enough to make one believe in God.“Alan perlis”
54از
برگفته از مقاالت
Data Mining Using Learning Automata, M. R. Aghaebrahimi, S. H.
Zahiri, and M. Amiri
Learning automata based classifier, Seyed-Hamid Zahiri.
Classification Rule Discovery Using Learning Automata- Seyed-Hamid
Zahiri
54از
فهرست
چکیده مقالهداده کاوی
اتوماتای یادگیرداده کاوی با استفاده از اتوماتای
یادگیرنتایج آزمایشات
Fخذ منابع و ما
54از
چکیده مقاله
بر پایه ( data miner)در این مقاله یک کاوش کننده داده
نام LA-minerاتوماتای یادگیر پیشنهاد شده است که
گذاری شده است.
LA-miner( قواعد طبقه بندی را از مجموعه داده ها data
set.به طور خودکار استخراج می کند )
54از
چکیده مقاله
الگوریتم پیشنهادی بر پایه بهینه سازی که از اتوماتای
یادگیر استفاده می کند بنا نهاده شده است.
پیشXنهاد LA-minerنتXایج عملی نشXان می دهXد کXه عملکXرد
Ant-minerشXده قابXل مقایسXه و در بعضXی مواقXع بهXتر از
سXازی بهینXه الگXوریتم مبنXای بXر کننXده کXاوش )الگXوریتم
و هXا( کXاوی CNZکلXونی مورچXه داده )الگXوریتم معXروف
برای طبقه بندی( است.
54از
Data Miningداده کاوی
چرا داده کاوی؟
تعریف داده کاوی
کاربردهای داده کاوی
54از
چرا داده کاوی؟
دالیل پیدایش داده کاوی:
توسعه تکنولوژيهای ذخيره و بازيابی اطالعات.
افزايش روزافزون حجم اطالعات ذخيره شده.
آرشيوهای اطالعاتی، به دليل حجم بسيار زياد، غالبا به
مقبره های اطالعات تبديل می شوند.
عليرغم هزينه های سنگين در بخش تکنولوژی اطالعات،
بسياری از تصميمها همچنان در فقر اطالعاتی اتخاذ می
گردند و از قابليتهای بالقوه اطالعات ذخيره شده استفاده
نمی شود.
54از
چرا داده کاوی؟
Europe's Very Long Baseline Interferometry (VLBI) 16دارای
1تلسکوپ است که هر کدام از آن ها بالغ بر
Gigabit/second روزه 25 داده های نجومی در هر دوره
تولید می کنند.
o.آنالیز این داده ها یک مشکل بزرگ است
54از
چرا داده کاوی؟
حجم عظیم داده ها در وب
بیلیون صفحه شامل صدها ترابایت 4 در Googleجستجوی
می باشد.
)حجم هایی پایگاه داده های امروزی بسیار حجیم هستند.
(terabytes و Gigabytesنظیر
entities/records/rows 1,000,000بیش از
54از
چرا داده کاوی؟
% داده هایشان را 7سازمان هایی موفقند که بتوانند حداقل
تحلیل کنند .
تحقیقات انجام یافته نشان داده است که سازمانها کمتر از
یک درصد داده هایشان را برای تحلیل استفاده می کنند . به
عبارت دیگر در حالی که غرق در داده ها هستند تشنه
.دانش می باشند
بنابراین به دانش کشف از
داده ها نیاز است.
54از
تعریف داده کاوی
داده کاوی به دانش استخراج از داده ها اشاره دارد و هسته
اصلی آن در فصل مشترک یادگیری ماشین، آمار و پایگاه
داده است.
54از
فرایند داده کاوی
54از
وظایف اساسی در داده کاوی
: تخمین کالس یک قلم Classificationطبقه بندی
: یافتن خوشه ها در دادهClusteringخوشه بندی
رخ می A & B & C : مثال غالبا Associationsاستخراج روابط انجمنی
دهند
: برای تسهیل کشف انسانVisualizationبصری سازی
: توصیف یک گروهSummarizationخالصه سازی
:یافتن تغییراتDeviation Detectionکشف انحراف
: پیش بینی یک مقدار پیوستهEstimationتخمین
:یافتن ارتباطاتLink Analysisتحلیل پیوند
…
54از
طبقه بندی
یادگیری روشی برای تخمین کالس نمونه از روی نمونه های
)طبقه بندی شده( پیش برچسب خورده.
روشهای متنوع :آمار
درختهای تصمیم گیریشبکه های عصبی
اتوماتای یادگیر ...
54از
Illustrating Classification Task
54از
طبقه بندی
از دريافت تعدادی نمونه آموزشی، يادگيرنده بايد دسته نمونه پس
های جديد را مشخص نمايد.
مثال:
مشتری يک کاتالوگ با هزينه سنگين 100000يک شرکت با بيش از
چاپ و توزيع می کند.
)لزوم ارسال انتخابی کاتالوگ )نه برای همه
:با توجه به سوابق ارسال کاتالوگها و پاسخ مشتريان، چه دسته بندی
افرادی احتماال در گروه ”عالقه مند به محصول معرفی شده“ قرار می
گيرند؟
کاهش هزينه ها
54از
کاربردهای داده کاوی
حوزه های اصلی شامل کاربردهای علمی، تجاری و امنيتی می باشد.
در تمام حوزه ها با حجم بسيار زياد اطالعات و خصايص متعدد مواجهيم.
کاهش شديد هزينه ها، افزايش درآمدها و نجات زندگی انسانها از
دستاوردهای داده کاوی در هريک از حوزه های کاربردی آن است.
کاربردهای تجاری: تشخيص صحت ادعای خسارت در بيمه، تشخيص
سوء استفاده از کارتهای اعتباری، تحليل اطالعات مشتريان يک
سازمان،...
کاربردهای علمی: حوزه های پزشکی، جغرافيائی و اقليمی، فضا و
سفرهای فضائی
کاربردهای امنيتی: مبارزه با تروريسم، مقابله با نفوذگران به شبکه های
کامپيوتری
54از
Learningاتوماتای یادگیر
Automata
( ( Abstract Objectيک اتوماتاي يادگير را مي توان بصورت يک شئ مجرد
که داراي تعداد متناهي عمل است، در نظر گرفت.
�عمال اتوماتاي يادگير با انتخاب يک عمل از مجموعه عمل هاي خود و ا
آن بر محيط، عمل مي کند.
عمل مذکور توسط يک محيط تصادفي ارزيابي مي شود و اتوماتا از
پاسخ محيط براي انتخاب عمل بعدي خود استفاده مي کند.
را انتخاب نمايد. عمل بهينه در طي اين فرايند اتوماتا ياد مي گيرد که
54از
اتوماتای یادگیر
رابطه بین اتوماتای یادگیر و محیط
54از
اتوماتای یادگیر
یکی از مزایای اتوماتای یادگیر این است که به دانش مهمی از محیطی
که در آن عمل می کند، و یا به هر دانش تحلیلی از تابعی که باید بهینه
شود نیاز ندارد.
A,Q, R, L> به طور کلی به ترتیب به وسیله محیطو اتوماتای یادگیر یک
< تعریف می شود که: A, R,D< و >
A= { α1, α2,…, αr } : .مجوعه همه عمل اتوماتا است
r تعداد کل عمل ها است.در حقیقت A و مجموعه خروجی های اتوماتا
است.مجموعه ورودی های محیط همچنین
54از
اتوماتای یادگیر
R .دامنه پاسخ های محیط است
{D = {d1, d2 ,…, dr مجوعه پاداش احتماالت است )مجوعه احتمال های
جریمه(
که .
پاداش احتماالت برای اتوماتا ناشناخته است.
Q حالت های اتوماتا است که به طور
تعریف می شود.
بردار احتمال عمل نامیده می
شود.
بردار تخمین پاداش احتمال برای
است.kنمونه
54از
اتوماتای یادگیر
T الگوریتم یادگیری یا شمای تقویت است که به وسیله اتوماتا به
منظور به روز کردن حاالت خود استفاده می شود.در حقیقت :
54از
اتوماتای یادگیر
α)، اتوماتا یک عمل kدر هر نمونه k) را از مجموعه اعمال A انتخاب
دارد.عمل انتخاب P(k)می کند.این انتخاب بستگی به بردار عمل جاری
α)شده k) ورودی محیط شده و محیط یک پاسخ تصادفی (β k) می
دهد،که به عنوان ورودی اتوماتا محسوب می شود که مقدار مورد
است. di(k)انتظار اتوماتا
α) اگر k)= αi سپس اتوماتاQ(k+1) را با استفاده از شمای پاداش L
محاسبه می کند.این رویه تا زمانی که عمل بهینه بر محیط پیدا شود
ادامه می یابد.
54از
داده کاوی با اتوماتای یادگیر
بر پایه اتوماتای ( ( data miner در این مقاله یک کاوش کننده داده
نام گذاری شده است.LA-minerیادگیر پیشنهاد شده است که
LA-miner قواعد طبقه بندی را از مجموعه داده ها data set به طور ) )
خودکار استخراج می کند.
الگوریتم پیشنهادی بر پایه بهینه سازی که از اتوماتای یادگیر استفاده
می کند بنا نهاده شده است.
54از
داده کاوی با اتوماتای یادگیر
پیشنهاد شده قابل LA-minerنتایج عملی نشان می دهد که عملکرد
)الگوریتم کاوش کننده Ant-minerمقایسه و در بعضی مواقع بهتر از
)الگوریتم CNZبر مبنای الگوریتم بهینه سازی کلونی مورچه ها( و
معروف داده کاوی برای طبقه بندی( است.
54از
طبقه بندی کننده
طبقه بندی کننده بر مبنای اتوماتای یادگیر بر دو قسمت اصلی بنا نهاده شده است که شامل:
.1hyperplane( تصمیم گیری Decision hyperplanes)
Functionتابع بهینه سازی که از اتوماتای یادگیر استفاده می کند.)2.optimization)
54از
Hyperplane تصمیم گیری
به صورت زیر است:hyperplaneفرم کلی یک
که در آن:
augmented بردار ویژگی افزوده )feature)
ضرایب تعیین کننده ابر صفحه در فضای nبعدی ویژگی ها
وجود دارد که فضای ویژگی hyperplane در حالت کلی یک تعداد از
(feature space را به ناحیه های مختلفی، که هر ناحیه باید با یک کالس )
مجزا شناسایی شود جدا می شود.
54از
Hyperplane تصمیم گیری
یک مثال ساده:
خط تصمیم کد گذاری شده اند.3 کالس، که به وسیله 6شامل
54از
تابع بهینه سازی با استفاده از اتوماتای یادگیر
که هر r، hyper-cubeدر این الگوریتم ابتدا فضای جواب ناآگاهانه به
کدام مطابق با یک عمل اتوماتای یادگیر است، تقسیم می شود.
( Pursuit algorithm )پیگردسپس با استفاده پیوسته از الگوریتم
احتماالت عمل ها و تخمین پاداش احتماالت در هر دوره با محاسبه
مقدار تابع از یک نمونه انتخابی تصادفی مطابق با حالت جاری عمل
بروز می شوند.
54از
تابع بهینه سازی با استفاده از اتوماتای یادگیر
اگر تخمین یک پاداش احتمال از یک آستانه از قبل تعریف
متناظر آنگاه hyper-cube( کوچکتر باشد، predefined thresholdشده)
بر طبق نمونه های مقدار آن تابع محاسبه می شود.
اگر هر دو مقدار میانگین و واریانس مقادیر این تابع به اندازه کافی
پایدار و بالاستفاده در نظرگرفته می hyper-cubeکوچک باشند این
،r-1 خارج می شود و بهینه سازی با hyper-cubeشود.سپس این
hyper-cube .باقی مانده ادامه می یابد
54از
تابع بهینه سازی با استفاده از اتوماتای یادگیر
به عنوان ناپایدار درنظر گرفته می hyper-cubeدر غیر این صورت این
شود و افزایش و کاهش )قله و دره( این تابع در این از نمونه های داخل
آن تخمین زده می شود.
که هرکدام فقط hyper-cube به تعدادی زیر hyper-cubeسپس این
-hyperشامل نمونه های صعودی یا نزولی هستند تقسیم می شوند و
cube اصلی به وسیله بهترین پاداش زیر hyper-cube جایگزین می
های دیگر بالاستفاده در نظر گرفته شده و خارج hyper-cubeشود و
می شود.
54از
تابع بهینه سازی با استفاده از اتوماتای یادگیر
این رویه تا زمانی که یک شرط دقیق از قبل تعریف شده ارضا شود
اصلی خارج می شود و یا به چندین hyper-cubeتکرا می شود.سپس
مقدار که شامل شبه بهینه سراسری است همگرا می شود.
مانند دیگر الگوریتم های بهینه سازی غیرقطعی، هدف این روش پیدا
کردن یک توافق)سازش( بین کاوش و استخراج است.به عنوان مثال
همگرا شدن به نزدیک ترین بهینه محلی و کشف رفتار تابع به منظور
کشف ناحیه سراسری است.
برنامه زمانبندی تابع بهینه سازی برپایه اتوماتای یادگیر دراسالید بعد
داده شده است.
54از
54از
الگوریتم
54از
الگوریتم
54از
الگوریتم
54از
الگوریتم
54از
الگوریتم
54از
الگوریتم
54از
الگوریتم
54از
الگوریتم
54از
داده کاوی با اتوماتای یادگیر
if-then در قالب قاعده های LA-minerدانش کشف شده توسط
نمایش داده می شود.
Antecedent � رول ها شامل مجموعه ای از شرایط است که معموال
( ( به هم متصل شده اند.هر ANDتوسط توسط عملگر اتصال منطقی
� به یک ترم )گزاره( اشاره می کند. شرط معموال
Consequent قسمت( رول Then کالس های پیش بینی شده برای )
رول ها را ارضا می کنند را antecedentنمونه هایی که قسمت
مشخص می کند.
54از
LA-miner پیشنهاد شده
LA-miner پیشنهادی ما برپایه الگوریتم تابع بهینه سازی طراحی شده
است که از روش اتوماتای یادگیر استفاده می کند.برای توضیح اینکه
را استخراج می کند،ساختار یک if-then رول های LA-minerچطور
رول را در نظر بگیرید:
IF ( att1 is quant1) AND (att2 is quant2 ) AND … (attn is quantn)
THEN x belongs to Class jÄ atti ( i = 1,2,...,n),i( »MÄ ¬¿ Yd¨ ¾Ì»Y� � � � �training pointÁ )x = (att1, att2 ,..., attn )»MÄ ¬¿� � �
.d YÃ| ½ZÌ]ʳ ËÁÉZ § {Äd Y� � � � � �
54از
نتایج محاسباتی و مقایسه
پیشنهاد شده بررسی شده LA-minerدر این بخش ارزیابی عملکرد
ارائه شده است.CNZ و Ant-minerاست.همچنین نتایج مقایسه با
Ant-miner یک الگوریتم برای طبقه بندی قواعد کشف شده است که
کلونی مورچه های بهینه سازی شده را بکار می برد.
CNZ .یک الگوریتم مشهور طبقه بندی قواعد کشف شده است
54از
(Data Setsمجموعه داده ها )
(Irisداده های زنبق )
ویژگی از هر سه نوع گونه ی 4 اندازه گیری از 50داده های زنبق شامل
(،Iris setosaزنبق خاردار )
( Iris versicolor) زنبق رنگارنگ
( Iris virginicaزنبق ورجینیکا )
(،طول sepal width، عرض کاسبرگ )((sepal lengthویژگی ها طول کاسبرگ
( است.petal width ( و عرض گلبرگ )Petal lengthگلبرگ )
Iris virginica Iris versicolor
Iris setosa
54از
(Data Setsمجموعه داده ها )
(Wine data)داده های شراب
شاما آنالیز شیمیایی رشد شراب در ناحیه یکسان از ایتالیا wineداده های
13اما گرفته شده از موجودات ذره بینی گوناگون است.برای طبقه بندی
و تعداد نمونه های هر 3ویژگی پیوسته در دسترس است.تعداد کالس ها
است.48 و 71، 59کالس به ترتیب
(Cancer data)داده های سرطان
به دست Wisconsinاین پایگاه داده سرطان سینه از بیمارستان دانشگاه
با Malignant و Benign نمونه سرطان سینه به دو کالس 683آمده است.
بعد فضای ویژگی تقسیم شده اند.9
54از
نتایج آزمایش ها
LA-miner ، Ant-miner و CNZ بر روی مجموعه داده های باال تست
شده اند.
testing dataو مابقی training points درصد از هر محک به عنوان 50
است.
آزمایش ده بار برای هر محک انجام شده و میانگین نتایج گزارش شده
است.
54از
نتایج آزمایش ها
Rule-Set( به دست آمده از recognition score) نمره تشخیص 1جدول
را training points استخراج شده برای data miner که توسط سه
نشان می دهد.
54از
نتایج آزمایش ها
به دست آمده به وسیله سه الگوریتم score of recognition 2جدول
را بر حسب درصد نشان می دهد.testing pointsرا برای
54از
نتیجه گیری
پیشنهاد recognition score، LA-minerنتایج مقایسه نشان می دهد که
برای فاز CNZ و Ant-minerشده قابل مقایسه )حتی مواقعی بهتر از(
است.عالوه بر این میانگین تعاد رول های به testing و trainingهای
دیگر است.data miner کمتر از دو LA-minerدست آمده به ویسیه
54از
منابع
Data Mining Using Learning Automata, M. R. Aghaebrahimi, S. H.
Zahiri, and M. Amiri
Learning automata based classifier, Seyed-Hamid Zahiri.
Classification Rule Discovery Using Learning Automata- Seyed-Hamid
Zahiri
54از
www.Prozhe.com
پایان