extracting opinion targets in a single- and cross-domain ... · 1 extracting opinion targets in a...

Post on 10-Aug-2019

223 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Extracting Opinion Targets in aSingle- and Cross-Domain SettingWith Conditional Random Fields

by

Niklas Jakob and Iryna Gurevych, 2010

Matteo Bonaker, 2017Selected Topics in Sentiment AnalysisDr. Michael Wiegand

Folien / PräsentationVeranstaltung

Dozent

3

Kontext

‣ 2010 veröffentlicht

‣ Damals existierende Forschung:

‒ Sentiment-Analysis auf Cross-Domain

‒ CRF für Sentiment-Analysis

‒ Opinion-Target-Extraction auf Single-Domain

‣ Neue Kombination:

‒ Opinion-Target-Extraction auf Cross-Domain (mit CRF)

6

CRF

CR

‣ CRF ist ein Machine-Learning-Modell

‣ Ähnlich wie HMMs

‣ Eingabe-Format unterschiedlich:

Bernie

would

have

won

HMM

NN

MD

VB

VBN

Theorie Anwendung Cross-Dom.

7

CRF

CR

‣ CRF ist ein Machine-Learning-Modell

‣ Ähnlich wie HMMs

‣ Eingabe-Format unterschiedlich:

Bernie

would

have

won

CRF

B

O

O

O

NN

MD

VB

VBN

Theorie Anwendung Cross-Dom.

8

Ausgabe

CR

‣ Ausgabe des CRF: Block-Markierung

‣ „Auflösung“ des Opinion-Target wird nicht gemacht

Bernie

would

have

won

CRF

B

O

O

O

...

...

...

...

B

O

O

O

Theorie Anwendung Cross-Dom.

9

Ausgabe (IOB)

‣ Beginning …

‣ Inside … … of Opinion Target

‣Outside …

‣Markierung angrenzender Blöcke möglich

Einfaches Beispiel: I like trains. O O B O

Beispiel:

Even though I like cottage cheese veganism is more important to me. O O O O B I B O O O O O O

10

Eingabe

‣ Token

‣ POS

‣ Short Dependency Path

‣ Word Distance

‣ Opinion Sentence

CRF

IOB

IOB

IOB

IOB

IOB

Token

Token

Token

Token

Token

POS

POS

POS

POS

POS

SDP

SDP

SDP

SDP

SDP

WD

WD

WD

WD

WD

OS

OS

OS

OS

OS

Theorie Anwendung Cross-Dom.

11

Eingabe

‣ Token

‒ Wort / Satzzeichen

‒ Lernbar: „crew“ häufiger Target, als „admire“admire

the

camera

crew

of

Gladiator

I

admire

the

camera

crew

of

Gladiator

I

..

Theorie Anwendung Cross-Dom.

12

Eingabe

‣ Token

‣ POS

‒ Lernbar: NN häufiger Target, als VBRVBR

DT

NN

NN

IN

NNP

PRP

admire

the

camera

crew

of

Gladiator

I

..

Theorie Anwendung Cross-Dom.

14

Eingabe

‣ Token

‣ POS

‣ Short Dependency Path

‣ Word Distance

‒ Zu jeder Opinion-Expression:NP mit kürzester Distanz

‒ Lernbar: Target häufig in nahegelegener NP

N

Y

Y

Y

N

N

Y

admire

the

camera

crew

of

Gladiator

I

N.

Theorie Anwendung Cross-Dom.

15

Eingabe

‣ Token

‣ POS

‣ Short Dependency Path

‣ Word Distance

‣ Opinion Sentence

‒ Wenn eine Opinion-Expression da ist,alle Token des Satzes markieren!

‒ Lernbar: Sätze ohne Opinion ignorieren

Y

Y

Y

Y

Y

Y

Y

admire

the

camera

crew

of

Gladiator

I

Y.

Theorie Anwendung Cross-Dom.

16

Eingabe

‣ Token

‣ POS

‣ Short Dependency Path

‣Word Distance

‣Opinion Sentence

CRF

IOB

IOB

IOB

IOB

IOB

Token

Token

Token

Token

Token

POS

POS

POS

POS

POS

SDP

SDP

SDP

SDP

SDP

WD

WD

WD

WD

WD

OS

OS

OS

OS

OS

Theorie Anwendung Cross-Dom.

27

Cross-Domain

‣ Warum sollte Cross-Domain schwieriger sein?

‒ Domain-Spezifisches „Wissen“ des CRF!

‣ Hier nochmal die Features:

‒ Token

‒ POS

‒ Short Dependency Path

‒ Word Distance

‒ Opinion Sentence

Theorie Anwendung Cross-Dom.

30

Vorgehen

‣ Token-Feature für Cross-Domain entfernt

‣ Training auf 3 oder weniger Domains

‣ Test auf einer der übrigen Domains

Theorie Anwendung Cross-Dom.

34

Schlussfolgerung

‣ Single-Domain‒ Höchster F-Score

Meiste Trainings-Daten

Alle Features

‣ Cross-Domain‒ Höchster F-Score

Training auf Kamera-Domain

Test auf Movie-Domain

Ohne Token-Feature

Theorie Anwendung Cross-Dom.

35

Danke für eure Aufmerksamkeit!

top related