dbpedia pig - entity and typy/kategórie
DESCRIPTION
DbPedia Pig - entity and typy/kategórie. Vladimír Sudor. FIIT, Vyhľadávanie informácií. Popis problému. Úlohou tohto projektu je, parsovaním zdrojových dátových súborov DbPedie , priradiť každej entite príslušný typ a príslušnú kategóriu. - PowerPoint PPT PresentationTRANSCRIPT
DBPEDIA PIG - ENTITY AND TYPY/KATEGÓRIE
VLADIMÍR SUDOR
FIIT, Vyhľadávanie informácií
POPIS PROBLÉMU
ÚLOHOU TOHTO PROJEKTU JE, PARSOVANÍM ZDROJOVÝCH DÁTOVÝCH SÚBOROV DBPEDIE, PRIRADIŤ KAŽDEJ ENTITE PRÍSLUŠNÝ TYP A PRÍSLUŠNÚ KATEGÓRIU.
KAŽDÁ ENTITA MÁ V DBPEDIÍ PRIRADENÉ TYPY A KATEGÓRIE DO KTORÝCH SPADÁ. VÝSTUPOM PROJEKTU BUDÚ TEDA DVA SÚBORY KDE BUDÚ VYPÍSANE ENTITY A K NIM PRÍSLUŠNÉ TYPY/KATEGÓRIE
PODOBNÉ RIEŠENIE
• HTTP://WWW.NUXEO.COM/BLOG/DEVELOPMENT/2011/01/MINING-WIKIPEDIA-WITH-HADOOP-AND-PIG-FOR-NATURAL-LANGUAGE-PROCESSING
• PARSOVANIE TEXTOV WIKIPEDIE
• PRIRADZOVANIE K ENTITÁM DBPEDIE
RIEŠENIE PROBLÉMU
1. NAČÍTANIE DÁT POMOCOU UDF.
2. NAČÍTANIE DUPLICITNÝCH INFORMÁCIÍ.
3. ODSTRÁNENIE DUPLICÍT Z NAČÍTANÉHO POĽA
4. ODFILTROVANIE TYPU HTTP://WWW.W3.ORG/2002/07/OWL#THING (TENTO TYP SA NACHÁDZA PRI KAŽDEJ ENTITE)
5. VÝPIS DÁT DO SÚBORU NA DISK.
RIEŠENIE SKRIPT - TYPY
VYHODNOTENIE - VÝSLEDOK
• HTTP://DBPEDIA.ORG/RESOURCE/MANCHESTER_CITY_F.C. HTTP://DBPEDIA.ORG/ONTOLOGY/SOCCERCLUB
• HTTP://DBPEDIA.ORG/RESOURCE/MANCHESTER_CITY_F.C. HTTP://DBPEDIA.ORG/ONTOLOGY/SPORTSTEAM
• HTTP://DBPEDIA.ORG/RESOURCE/MANCHESTER_CITY_F.C. HTTP://SCHEMA.ORG/SPORTSTEAM
• HTTP://DBPEDIA.ORG/RESOURCE/MANCHESTER_CITY_F.C. HTTP://DBPEDIA.ORG/ONTOLOGY/ORGANISATION
• HTTP://DBPEDIA.ORG/RESOURCE/MANCHESTER_CITY_F.C. HTTP://SCHEMA.ORG/ORGANIZATION
• HTTP://DBPEDIA.ORG/RESOURCE/MANCHESTER_CITY_F.C. HTTP://DBPEDIA.ORG/ONTOLOGY/AGENT
ĎAKUJEM ZA POZORNOSŤSUDOR VLADIMÍR