srank shortest paths as distance between nodes of a graph with application in clustering
DESCRIPTION
يافتن شباهت در گراف جهت دار با استفاده از مسير کوتاهTRANSCRIPT
1
دانشگاه اصفهاندانشکده فني و مهندسي
گروه کامپيوتر
مسيرهای کوتاه برای يافتن شباهت بين نودهای گراف وب مبتنی بر داده
Shortest Paths as SimilarityMeasure Between Nodes of Graph
Of Web of Data:استاد راهنما
دکتر محمدعلی نعمت بخش:محقق
هادي خسروي فارسانی
1390مهر 1390/7/26
2
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
3
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
4
)Linked Data Principles(اصول داده های پيوندی برای شناسايي منابع در وب URIاستفاده از •برای دسترسی به اين نامها استفاده شود HTTPاز پروتکل •نشان داده شود RDFرا می کند، تمامی اطالعات مفيد به فرمت URIهنگامی که يک فرد، درخواست يک •ها انواع مختلف لينک داشته باشند به صورتی که افراد قادر باشند URIالزم است به ديگر RDFعبارتهای •
.اطالعات بيشتری در مورد آن موجوديت کسب کنند
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
5
)مثال(تعريف منابع با استفاده از اصول داده های پيوندی http://dbpedia.org/page/Nigel_Clough
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
6
در حال حاضر : داده های پيوندی •
1390/7/261390/7/26
مسیر کوتاه برای یافتن میزان شباھت
7
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
8
مساله پايان نامه و زير مسايل آن .رتبه بندی منابع در وب مبتنی بر داده به چه شکلی انجام شود•
:ايده•خوشه بندی منابع و سپس اعمال الگوريتم های رتبه بندی در هر خوشه•
فازهای پروژه• datasetرتبه بندی مجموعه داده ها و موجوديت در هر •بدون در نظر گرفتن خصوصيات و مقادير خصوصيات -خوشه بندی با در نظر گرفتن نودها و لينکها •با در نظر گرفتن خصوصيات و مقادير خصوصيات–خوشه بندی با در نظر گرفتن نودها و لينکها •رتبه بندی عناصر در هر خوشه و ارائه روش رتبه بندی•
:زير مساله•خوشه بندی منابع •
نياز به داشتن الگوريتمی توانا جهت يافتن ميزان تشابه دو ايتم•
بنابراين •؟به چه شکل می توان ميزان شباهت بين منابع مختلف در وب مبتنی بر داده را اندازه گيری کرد•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
9
)ادامه (مساله
می توان گراف وب مبتنی بر داده را به يک گراف جهت دار تبديل کرد و سپس از روشهای مبتنی بر گراف •. استفاده کرد
بنابراين مساله اصلی تبديل به يافته ميزان شباهت در گراف جهت دار است •
گرافی استخراج شده از دي بی پديا: مثال•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
10
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
11
SimRank: راه حل اولدو نود مشابه هستند اگر نودهای ورودی آن دو نود مشابه باشند•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
12
BipartiteRank: راه حل دومدو نود مشابه هستند اگر نودهای خروجی آن دو نود مشابه باشند•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
13
PRank: راه حل سومدو نود مشابه هستند اگر نودهای خروجی و ورودی آن دو نود مشابه باشند•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
14
مشکالت راه حلهای قبلی
.است <b,a>مشابه ميزان شباهت > a,b<ميزان شباهت •
.تعداد شباهت های بدست آمده بسيار کم است•
.برای احراز شرايط شباهت، الزم است جريان ورودي يا خروجي مشابه داشته باشند•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
15
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
16
راه حل پيشنهادی
ميزان شباهت دو نود در يک گراف جهت دار به موارد زير وابسته است•تعداد مسيرهای کوتاه بين دو نود•طول مسيرهای کوتاه بين دو نود•
.در دسترس نيست چرا که مسيری بين آنها وجود ندارد <C,M>ميزان شباهت بين •
• <M,C> بايد شبيه باشند .
<M,K>بايد از <M,C>ميزان شباهت بين •.بيشتر باشد
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
17
مدل پيشنهادی برای يافتن ميزان شباهت
•PPa,b و به صورت زير Pبه فرض استفاده از مسيرهای به طول bبه نود aبرابر است با احتمال رسيدن از نود •
. تعريف می شود
•Access Valueبا استفاده از همه طول مسيرها و دادن وزن به مسيرها bبه نود aرسيدن از نود •
استفاده از همه طول مسيرها بسيار هزينه بر است و بنابراين از رابطه زير تخمينی از رابطه باال بدست خواهد آمد•
•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
18
) ادامه(مدل پيشنهادی برای يافتن ميزان شباهت
.در حوزه خوشه بندی به صورت زير انتساب داده شده است Pضرايب مسير به طول •
به صورت زير پيشنهاد می شود bو aميزان شباهت بين دو نود •
•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
19
خوشه بندی مبتنی بر مدل پيشنهادی راه حل پيشنهادیايجاد خوشه های دو منبعی 1.ادغام دو خوشه با باالترين ميزان شباهت 2.توقف خوشه بندی در صورت رسيدن به مقدار آستانه3.
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
20
خوشه بندی مبتنی بر مدل پيشنهادی راه حل پيشنهادیبرای ايجاد خوشه های دو منبعی، از توابع مجموع، ماکزيمم، تعداد، مينيمم و ميانگين می توان استفاده نمود .
در پياده سازی صورت گرفته، از تابع مجموع برای محاسبه ميزان شباهت بين دو نود استفاده شده است.
فرمول زير برای ترکيب دو کالستر در مرحله دوم خوشه بندی استفاده شده است.
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
21
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
22
مجموعه داده ساخته شده ميليون 1.6که در حال حاضر بالغ بر . از مجموعه داده دی بی پديا برای خوشه بندی منابع استفاده شده است•
موجوديت داردکه اين افراد توسط لينک . هزار از منابع دی بی پديا، افراد را توصيف می کنند 360بالغ بر •
Wikipageredirect به همديگر اشاره می کنند.
.به آنتولوژی زبانی وردنت لينک داشته اند Wordnetمنابع توسط لينک •
.هزار عدد از آنها حاوی مقدار برای اين لينک هستند 120از کل منابع افراد موجود در دی بی پديا تنها •
.کالس دسته بندی شده اند 30افراد در دی بی پديا، به •
هدف از خوشه بندی، توليد همين کالسها بدون در نظر گرفتن لينک وردنت•
بعد از فيلترينگ مجموعه داده ای استاندارد ساخته شده که نسخه ای از آن در وب برای استفاده های بعدی •.انتشار داده شده است
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
23
توزيع کالس افراد در وردنت
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
24
) ادامه(مجموعه داده ساخته شده •
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
25
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
26
متدهای ارزيابی:آنتروپي•
عددی است که نشان دهنده اين است که عضوهای يک کالستر به يک کالس تنها تعلق دارند•
:دقت•.درصدی از يک کالستر است که شامل اشياء از يک کالس مشخص باشد•
بازيابی•عددي است که نشان دهنده اين است که اعضاي يک کالس، در يک کالستر با همديگر واقع می شوند•
•F-Measure•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
27
فهرست مطالب
مقدمه ای بر داده های پيوندی•
مساله کلی پروپوزال •
طرح زير مساله•
تاريخچه کارهای انجام شده•
متد پيشنهادی•
مجموعه داده ساخته شده•
روش ارزيابی•
نتايج ارزيابی•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
28
Top 5 Similar at SRi •
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
29
مقايسه متد پيشنهادی با روشهای قبلینتايج•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
30
نتايج به صورت گراف•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
31
نتايج به صورت گراف•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
32
کاربرد مساله مورد نظر
خوشه بندی منابع و سازماندهی آنها در خوشه های مرتبط•
استفاده از مقادير شباهت برای پيشنهاد منابع مرتبط تر•
استفاده از مقادير شباهت برای يافتن مقادير لينک ديگر منابع•
منابع دی بی پديا wordnet_typeاستفاده از مقادير شباهت برای يافتن مقدار لينک •
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
33
کاربرد در شبکه های اجتماعیروشي برای يافتن ميزان شباهت منابع در وب مبتنی بر داده ارائه شده است •تعداد دوست مشترک هادی با بقيه افراد به صورت زير است•
46شيروان - هادی •43اميد -هادی•23کاظمی فرد - هادی •12احمد -هادی•3ناوين -هادی•
آيا ميزان شباهت هادی با افراد در دنيای واقعی به همين شکل
است؟؟؟؟؟؟؟؟؟؟؟؟؟؟
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
46
43
23 12
3
34
نتيجه گيری و کارهای آينده
روشي برای يافتن ميزان شباهت منابع در وب مبتنی بر داده ارائه شده است •
اعمال متد پيشنهادی بر روی گراف شبکه های اجتماعی•
استفاده از متدهايي همچون شبکه های عصبی برای انتساب مقدار دقيق وزن ها•در هر حوزه به صورت جداگانه بايد اعمال شود•
ارائه يک متد عمومی دارای قابليت سفارشی شدن برای هر حوزه خاص•
مسیر کوتاه برای یافتن میزان شباھت1390/7/26
35
با تشکر از حسن توجه شما
مسیر کوتاه برای یافتن میزان شباھت1390/7/26