یک الگوریتم مبتنی بر تحلیل پیوند برای رتبه بندی پرس ...
DESCRIPTION
یک الگوریتم مبتنی بر تحلیل پیوند برای رتبه بندی پرس وجوی SPARQL. استاد راهنما: دکتر محسن کاهانی ارائه دهنده: اعظم فیض نیا. فهرست مطالب. مقدمه ضرورت انجام پژوهش هدف از انجام پژوهش روشهای موجود مشکلات و چالشها روش پیشنهادی ارزیابی تحلیل نتایج جمع بندی کارهای آینده. مقدمه. - PowerPoint PPT PresentationTRANSCRIPT
بندی یک الگوریتم مبتنی بر تحلیل پیوند برای رتبهSPARQLوجوی پرس
استاد راهنما: دکتر محسن کاهانینیاارائه دهنده: اعظم فیض
فهرستمطالب
مقدمه•ضرورتانجامپژوهش•هدفازانجامپژوهش•روشهایموجود•مشکالتوچالشها•روشپیشنهادی•ارزیابی•تحلیلنتایج•جمعبندی•کارهایآینده•
2
مقدمه
رتبهبندی:مرتبکردننتایججستجوبرایارائهبهکاربر
• • • •
وجومستقلازپرس•محاسبهمحبوبیتنتایجبراساستحلیلپیوندهایگراف–
هادادهوجووابستهبهپرس•
وجویکاربرمحاسبهمیزانمرتبطبودننتایجباپرس–براساستحلیلمحتوا
3
ضرورتانجامپژوهش
نیاز به روش های رتبه بندی جدید در موتورهای جستجوی وب معنایی
نیاز به موتورهای جستجو برای بازیابی اطالعات وب معنایی
حجم زیاد داده های موجود در وب معنایی
گانهدرمخازنتابیلیونسه52)بیشاز(2012سال
تفاوت پیوندهادر نظر گرفتن اصالت داده هادر نظر گرفتن
متفاوت بودن معنای پیوندها
کارهای آینده جمع بندی تحلیل نتایج ارزیابی مشکالت و چالش ها روش پیشنهادی روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
4
وب معنایی
ساخت یافتگی داده ها
امکان ادغام داده های مجموعه داده های مختلف
امکان اMعمال پرس وجوهای ساخت SPARQLیافته
هدفانجامپژوهش
1
• پردازش مجموعه داده RDF و استخراج مجموعه داد
ها هو پیوندهای آنها
2
• ایجاد
گراف از
مجموعه داد
ها هو
پیوندهای
آنها
3
• رتبه بندی
مجموعه داد
ها هاز
طریق
تحلیل
پیوندهای گراف سا
خته شد
ه
4
• محاسبه رتبه
نتایج
پرسش SPARQL
براسا
س رتبه
به دست آمده
برای
مجموعه داد
ها ه
کارهای آینده جمع بندیتحلیل
نتایجارزیاب
یروش
پیشنهادیو مشQQQQQکالت
چالش هاروش هQQQQQQQQای
موجودهدف از انجام
پژوهشضرورت انجام
پژوهش
5
رتبه بندیبرمبنایتحلیلپیوند
بندی رتبهموجودیت
ReconRank(Resource CONtext RANKing)
PopRank
Ding(Dataset rankING)
بندیموجودیتبا هایرتبه روش بندینتایجپرس هدفرتبه
SPARQLوجوهای
SPRING(SPaRql rankING)
برشباهتبندیمبتنی الگوریتمرتبهنتایج
[Ale2003]الگوریتمارائهشدهتوسطبندیروابطمعنایی رتبه
آنتولوژیبندی رتبه
OntoRank
OntoKhoj
AKTiveRank
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
6
بندیموجودیت عواملموثردررتبه
روشتخصیصوزنبهپیوندها
خودکار دستی
عدممقیاسپذیری وابستگیبهدامنهخاص
کاهشدقتوزندهی
مدلدادهدرنظرگرفتناصالتها داده
هاو مبتنیبرموجودیتها روابطآن
عدمپوششویژگیبازبودنوبووجود
ادعاهاینادرستومتناقض
نیازبهپردازش حجمباالییازداده
ها
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
7
تخصیصوزنخودکاربهپیوندها
کاردینالیتیپیوند:تعدادپیوندهاییکهمبداومقصدوبرچسبپیوندیکسانیدارند.
میزانخاصبودنپیوند:
تعدادتکراربرچسبپیونددرگرافدادهها
کاهشدقتاینروش*بهدلیلاهمیتباالیمنتقلشدهتوسط
برخیبرچسبهایپیوندowl:sameAsعاممثل
[Nie2005] مدلسلسلهمراتبیالیهیباال،گرافمجموعهدادههاالیهیپایین،گرافموجودیتها
Sindice Semantic Web Search Engine, Ding,LF-IDF
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
8
اجمالیبرکارهایگذشته
مستقل از دامنه
در نظر گرفتن تفاوت برچسب پیوندها
در نظر گرفتن اصالت ها داده در گراف داده بندیموجودیت الگوریتمرتبه
* - * ReconRank
- * - PopRank
* * * Ding
* - * SPRING
* * -
بندی الگوریتمرتبهبرشباهتمبتنی
نتایج
کارهای آینده جمع بندی تحلیل نتایج ارزیابی مشکالت و چالش ها روش پیشنهادی روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
9
SPARQLبندی رتبه
10
SELECT DISTINCT ?playerWHERE {
?player dbpp:clubs ?x;dbpediaowl:birthPlace ?z.
dbr:Steven_Gerrard dbpp:clubs ?x; dbpediaowl:birthplace ?z.
}
SPRINGروش•براسcاس− رتبهبنcدی = اصcلی ایcده
توافقبینمجموعهدادههابا− یکسان موجودیتهای URIوجود
متفcاوتدرمجموعهدادههcایمختلcفLODابر
SameAsاستفادهازپیوند−پیوندهایدوطرفهپیوندهاییکطرفه
روشرتبهبندیبراساس•شباهتنتایج
نتcایج– بین شcباهت انcدازهگیریبراسcاسخصیصcههایومقcادیر
خصیصهییکسان
?player
?z
?x
Steven_Gerrard
dbpediaowl:birthPlace
dbpp:clubs
dbpediaowl:birthPlace
dbpp:clubs
هcایتطcبیقنتcایجتوسcطروشپوشQش کامQل عدم–یرتبهموجودیتدهنده
مقcدار− یcک و ویcژگی یcک و موجcودیت یcک شهرتدلیلیبcرمعتcبربcودنوشcهرتنمی توانQدویcژگی
یکادعاباشد.
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
هدفروشپیشنهادی
های پاسخ محاسبه رتبه زیرگراف براساس SPARQLهای پرسش
ی های تشکیل دهندهگانهی سهرتبههاآن
ها براساس گانهی سهمحاسبه رتبههای دادهی مجموعهرتبه
های آنکنندهبیان
ها دادهی مجموعهمحاسبه رتبههای تحلیل پیوند براساس روش
موجودیت
عدم پوشش کامل حل مشکل بندیرتبه درنتایج
درها اصالت دادهدر نظر گرفتن بندیرتبه
تخصیص وزن پایین به حل مشکل های پیوند پرتکرار با برچسب
روش جدید از طریق یک اهمیت گیری اهمیت برچسب پیوند اندازه
درمبتنی بر نوع برچسب بندیرتبه
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
11
مدلداده
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
هاگرافدادهG = (V,E,LV,,LE)گرافچندگانهیجهتداربرچسبدار•
•Vمجموعهایازگرهها•Eمجموعهایازيالها
•LVمجموعهایازبرچسبگرهها•LEمجموعهیبرچسبيالها
تعریفمیشود.يالبهصورت•
دادهمجموعهباشد:GزيرگرافیازDبافرضاينکهمجموعهدادهی•
•يکتناظربينشناسههاومجموعهدادهیاصالتآنهابرقرارمیکند.•
مجموعهپیوندپيونددرونیاستدرصورتیکهباشد،درغيراينصورتپيوندخارجی•
است.مجموعهپيوند•
12
مدلداده...
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
13
بندیالگوریتمرتبه
دادهبااستفادهازتعميمفرمولهرمجموعهیرتبهیمحاسبه•PageRankمجموعهدادههاpرویگرافوزندار
برابراستبامیانگینرتبهیمجموعهدادههایآن:tرتبهیسهگانهی–
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
14
الگوریتمتخصیصوزن
*کاردینالیتیپیوند،تعدادپیوندهاییکهمبداومقصدوبرچسبپیوندیکسانیدارند.
*تعیینمیزاناهمیتبرچسبپیوندتوسطنوعبرچسبپیوند:-پیوندهایعام:پیوندهاییکهبهکالسونوعموجودیتوابستهنیستند
هایمتعلقبه-پیوندهایخاص:پیوندهایتعریفشدهبرایموجودیتیککالسخاص
تابعوزن:*
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
15
ارزیابی
سازیمجموعهدادهوابزارمورداستفادهبرایپیادهجاوانویسیسازیبااستفادهاززبانبرنامهپیاده•BTC2012 (Billion Triple Challenge)دادهانتخابمجموعه•
بخشهایtimbl،datahub،freebaseوrestوراولخزشsازدقالبNQUAD
هابرایپردازشدادهnxparserاستفادهازکتابخانه•103,254,464گانهها:تعدادسه249:مجموعهدادههاتعداد636:مجموعهپیوندهاتعداد
هادادهیبرایذخیرهSQL Serverاستفادهاز•
:اولآزمایشهدف•پیشنهادیباروشخودکارروش خودکار تخصیص وزن دقتLF-IDFدرالگوریتمDing
:آزمایشدومهدف •دررتبهدهندهیرتبهیموجودیتنتایجتوسطروشهایتطبیقعدم پوشش کاملاثبات
SPARQLبندیپرسوجوهایمختلف21
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
16
ارزیابیدقتروشتخصیصوزنمعیاروروشانجامارزیابی•
میزانخطاازلیستمعیارارزیابی:–استاندارد
روشساختلیستاستاندارد:–پرسشccنامهت« براسccاسروشنظیم
AHP (Analytical Hierarchy Process)دهنccده نشccان معیارهccای یبccرای
هادادهشهرتمجموعهشرکتکنندگان:«
هایپیوندیسالفعالیتدرزمینهداده4دانشجویدکتریباحدود3•هایپیوندیسالفعالیتدرزمینهداده2ارشدباحدوددانشجویکارشناسی3•
میانگیندرصدوزنمعیارهابراساسنظرمتخصصان•دادههایپیوندی
ترتیب
معیار وزن
1 شهرت 36.4%
2 حجممجموعهداده 16.08%
3 محبوبیت 11.596%
4 دسترسپذیری 35.904%
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
17
نتایجارزیابیدقتروشتخصیصوزن
پیادهسازیروشپیشنهادی•owl:thingتفکیکپیوندهایعاموخاصبراساسپیوندهایتعریفشدهبرای–
owl:thingپیوندهایعام:پیوندهاییبادامنهی–
:Dingمقایسهلیستاستاندارد،روشپیشنهادیوروش•
میزانخطاازلیستاستاندارد:•:0/34روشپیشنهادیروشDing: 0/41
فاکتورهای مورد استفاده روش تخصیص وزن سال روش مورد مقایسه
کاردینالیتیپیوندمیزانخاصبودنبرچسبپیوند خودکار 2010 LF-IDF
ترتیب لیستاستاندارد Dingروشروشپیشنهادی
1 dbpedia.org freebase.com dbpedia.org
2 freebase.org dbpedia.org freebase.com
3 fu-berlin.de fu-berlin.de w3.org
4 bbc.co.uk esd.org.uk xmlns.com
5 purl.org open.ac.uk fu-berlin.de
6 xmlns.com w3.org purl.org
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
18
ارزیابی
سازیمجموعهدادهوابزارمورداستفادهبرایپیادهجاوانویسیسازیبااستفادهاززبانبرنامهپیاده•BTC2012 (Billion Triple Challenge)دادهانتخابمجموعه•
بخشهایtimbl،datahub،freebaseوrestوراولخزشsازدقالبNQUAD
هابرایپردازشدادهnxparserاستفادهازکتابخانه•103,254,464گانهها:تعدادسه249:مجموعهدادههاتعداد636:مجموعهپیوندهاتعداد
هادادهیبرایذخیرهSQL Serverاستفادهاز•
:اولآزمایشهدف•پیشنهادیباروشخودکارروش خودکار تخصیص وزن دقتLF-IDFدرالگوریتمDing
:آزمایشدوم هدف•دهنده ی رتبه ی موجودیت روش های تطبیق نتایجتوسطعدم پوشش کاملاثبات
SPARQLدررتبهبندیپرسوجوهایمختلف
12
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
19
روشهایتطبیقاثباتعدمپوششکاملنتایجتوسطدهندهی
رتبهیموجودیت
شماره پرس وجوی محک
1 SELECT DISTINCT ?v1 WHERE {?v rdfs:seeAlso ?v1.}
2 SELECT ?v5 ?v6 ?v9 ?v8 ?v4 WHERE } ?}v ?v5 ?v6. ?v6 foaf:name ?v8 {.UNION
?}v9 ?v5 ?vv; foaf:name ?v4{ {.
های مربوط به چالشعدم پوشش کامل نتایج
بندیدر رتبهایده اصلی روش محاسبه
رتبه نتایجسال های مورد روش
مقایسه
تنهاقادراستبرایحداقل یک موجودیتهاییکه
پیوند ورودی با برچسب owl:sameAsهای از موجودیت
دارندبهها دادهسایر مجموعهمحاسبهرتبهبپردازد.
رتبهبندیبراساستوافقبینمجموعهدادهها
میانگینرتبهیموجودیتهایهر
سهگانه2011 SPRING
تنهاقادراستبرایحداقل یک موجودیتهاییکه
پیوند خروجی مشترک با های نتیجهسایر موجودیت
دارندبهمحاسبهرتبهبپردازد.تنهاقادراستنتایجپرسشهاییرارتبهبندیکندکهنتایجارائه
یک موجودیت به شدهبهکاربرهمراه تعدادی ثوابت مرتبط
باشد.با آن درصورتیکهاطالعاتانتخاب
شامل شدهبراینمایشبهکاربرها و مقادیر ثابت خصیصه
)بدون موجودیت مربوط به باشد،روشقادربهرتبهبندیآن(
نیست.
شباهتبیننتایج محاسبهرتبهموجودیتها
2011روشرتبهبندیبراساس
شباهتنتایج
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
20
روشهایتطبیقاثباتعدمپوششکاملنتایجتوسطدهندهی
رتبهیموجودیت...
معیاروروشانجامارزیابی•بندیمعیارارزیابی:درصدنتایجقابلرتبه–درSPARQLاسcتفادهازپرسوجوهcایمحcکاسcتخراجشcدهازالگپرسوجوهcای–
DBPEDIAتوسط[Mor2011]باتوجهبهمجموعهدادهآزمایش4و1وجوهایشمارهانتخابپرس•
درصدپوششروشپیشنهادی،روشمبتنیبرشباهتنتایجو•:SPRINGروش
توضیح:هرسهگانهحداقلدریکمجموعهدادهبیانشدهاست.•آوردهشدهاست.1پرسوجوهادرپیوست•
شمارهوجوپرس SPRINGروش
روشمبتنیبرشباهتنتایج وشپیشنهادیر
1 21.53% - 100%
2 10.20% - 100%
کارهای آینده جمع بندی تحلیل نتایج ارزیابی روش پیشنهادی مشکالت و چالش ها روش های موجودهدف از انجام
پژوهشضرورت انجام پژوهش
21
آنچهمرانکشد،قویترممی.سازد
فریدریشویلهلمنیچه