miller shrestha rightscon2014: nlp and violations classification

19
BEN MILLER (@intransitive / [email protected]) AYUSH SHRESTHA ([email protected]) NLP approaches to Rights Violations Classifying

Upload: bmill09

Post on 21-Jul-2015

123 views

Category:

Technology


1 download

TRANSCRIPT

BEN MILLER (@intransitive / [email protected])

AYUSH SHRESTHA ([email protected])

NLP approaches to Rights Violations Classifying

Storyline Visualization of 4 people referenced in 511 WTC Task Force Interviews

Multiple Incompatible Sightings

Parallel operations in vicinity of North and South Towers

Tower 1 Falls

Each point is a person at a location at a time.  Some times and locations are precise, some interpolated.  The light blue line ends because the person it represents, Chief Ganci, died when Tower 1 fell.

Texts go in, graphs come out.

• Human rights violations are often reported by witnesses in interviews

• Locating and categorizing these violations usually has to proceed manually (if it is done at all)

• We’re going to talk about this part

Possible computational solutions• We are attempting to implement a natural 

language processing tool that could:• Identify possible reports of violations in 

documents• Mark the approximate location of the report in 

the document• Categorize the likely violation according to 

HURIDOCS human rights classification scheme

What we’re searching for

seventeen‐year‐old girl who was shot on site as soon as she was brought up from basement

<hr.violation type=“001-life”>

Example right to life violation reports 

My paternal grandfather, and they beat him to death.

• “to death” is likely to be a useful phrase here

• A preliminary search reveals its usefulness

Example freedom of expression violation

They made him shave his beard.

• The phraseological structure here is potentially useful:

• make + noun phrase + verb phrase

Different conceptions of ‘topic’1. Topic as discourse structure

– Topics have no clear existence outside of a particular text– They are constructed in the moment by speakers/writers– Speakers/writers proceed as if they are moving from one topic to the next in 

discourse– By analyzing their texts closely, we can draw boundaries between topics 

2. Topic as recurring theme– The existence of a particular topic precedes the creation of an individual text– Speakers/writers draw on these pre‐existing, recognizable topics as they 

create texts– Speakers/writers have no need to isolate one topic from the next, 

combinations of topics are fruitful and provide originality– There is no real way to draw boundaries around topics

Discourse structure v. Recurring Theme

• Viewing topics as discourse structure, provides the advantage of being able to draw boundaries within a text to provide smaller units of analysis that might contain human rights violations

• Viewing topics as recurring themes allows us to look for commonalities across different texts

1

2

3

Topic 1father .1children  .05him .01… …

Topic 2shop .04store .02goods .01… …

StoryGraph

• A point on a map is represented as a line on a graph

• Lets us graph events at different times at the same location to show patterns over time

• A bottom up approach

• Both the graph and the map show two events occurring at the same location

StoryGraph of Enemy Action and Explosive Hazard Reports from Guardian UK Afghanistan War Data

A, B, and C denote events occurring across the entire geography of the corpus

1, 2, and 3 denote recurring gaps in the event record

StoryGraph showing extent of causalities in Guardian UK Afghanistan War Data

• The more red the color, the higher the number of fatalities documented in a given report• As the war progressed, the number of fatalities per event increased

StoryLines of the same data, showing the paths of 7 actors through the event

• Each line is a different military unit• Each point shows a unit at a location at a time• Dashed lines are indicative of path taken by a unit from location to location• Overlapping points and lines show possible confluence of units

Search for:

GSU AND StoryGraph

Github.com/sayush/e2