researcher id

20
Researcher ID Onderzoek naar auteursidentificatie Sarah Heeffer Bart Thijs Wolfgang Glänzel 1

Upload: ulric

Post on 23-Feb-2016

98 views

Category:

Documents


0 download

DESCRIPTION

Researcher ID. Onderzoek naar auteursidentificatie Sarah Heeffer Bart Thijs Wolfgang Glänzel. Structuur. Inleiding Auteursidentificatie in bibliografische databanken Problemen Oplossingen Voor- en nadelen Thomson Reuters’ ResearcherID Methoden Resultaten Conclusies. Inleiding. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Researcher ID

1

Researcher IDOnderzoek naar auteursidentificatie

Sarah HeefferBart ThijsWolfgang Glänzel

Page 2: Researcher ID

2

• Inleiding• Auteursidentificatie in bibliografische databanken

o Problemeno Oplossingeno Voor- en nadelen

• Thomson Reuters’ ResearcherIDo Methodeno Resultateno Conclusies

Structuur

Page 3: Researcher ID

3

Inleiding

• De evaluatie van onderzoeksoutput speelde zich de laatste decennia vooral af op het macro- en mesoniveau.

• Onderzoeksresultaten werden eerst verbonden met landen, dan met regio’s en vervolgens met instellingen.

• Laatste jaren toegenomen interesse en vraag van beleidsmakers naar analyses op microniveau:o Onderzoeksresultaten van individuele wetenschappers

en samenwerkingen tussen wetenschappers worden in detail gevolgd door wetenschapsbeleid, universiteiten,...

Page 4: Researcher ID

4

Inleiding• Om tegemoet te komen aan stijgende vraag is juiste

auteursidentificatie belangrijk: o Auteur toewijzen aan juiste affiliatie en publicaties

o Bibliometrische micro-analyses: evaluatie van onderzoeksoutput van individuen en onderzoekersgroepen

o Studies op lange termijn : auteurs die van instelling, land of naam veranderen (mobiliteit), en auteur-zelfcitaties

• De identificatie van individuele auteurs is moeilijk en blijft nog steeds een uitdaging.

Page 5: Researcher ID

5

Problemen bij identificatie van auteurs• Eén persoon – meerdere namen (synoniem)

Variant 1 Variant 2 Variant 3Umlaut Glänzel Glanzel Glaenzel

Transliteratie 王悦 Wang, Y

Splitsing lidwoorden

Van De Broek, I Broek, I Vande /Broek, IV

Vandebroek, I

Initialen Wemans, Andre Wemans, ADV Wemans, A

Huwelijk Petre, Camelia Stanciu, Camelia Camelia, Stanciu

Databank VANRAAN, AFJ VanRaan, AFJ Van Raan, AFJ

o Spellingsvarianten: vb. umlaut, transliteratie, opsplitsing lidwoordeno Tikfouten, verschillende initialeno Verandering van naam (door huwelijk, geloof, …) o Databank

Page 6: Researcher ID

6

Problemen bij identificatie van auteurs

• Verschillende personen met dezelfde naam (homoniem)o Veelvoorkomende namen, zoals Smith D., Janssens, J., Wang, Y., …

• Onvolledig profielo Geen volledige voornaam o Geen link met affiliatie (instelling, stad, land) o Ontbrekend, onvolledig of onjuist adres o Onduidelijk of geen e-mailadres

• Verandering van tewerkstellingsplaats (mobiliteit)

Page 7: Researcher ID

7

Oplossingen

• Unieke identificatie per auteur in verschillende systemen:

o ResearcherID (A-1234-2008): Web of Science (Thomson Reuters)• Auteur zelf verantwoordelijk voor aanmaak en onderhoud van profiel

o AuthorID: Scopus (Elsevier) (°2006)• Geautomatiseerd systeem met feedback mogelijkheid

o PubMed Author ID (US National Library of Medicine (NCBI)) (°2012)

o FRIS Onderzoeksportaal (Flanders Research Information Space)

o ORCID (Open Researcher & Contributor ID) (Online oktober 2012)• Internationaal, interdisciplinair, overkoepelend, open, non-profit initiatief• Compatibel met andere ID’s (Researcher ID, Scopus Author ID, PubMed)• Link met publicaties, fondsen, patenten en databanken.

Page 8: Researcher ID

8

Voor- en nadelen van ID-systemen• Voordelen

o Namen = unieke personeno Juiste link tussen auteurs en publicaties, instellingen, landen o Betrouwbaarheid van resultateno Micro-analyse, citatie-analyse

• Nadeleno Verschillende databanken = verschillende ID’so Niet alle auteurs hebben een IDo Als auteur verantwoordelijk is voor eigen ID: geen up-to-date

informatie, dubbele ID’s (TR)o Geautomatiseerd systeem (SCOPUS): minder controle door

auteur zelf, probleem met validatie en betrouwbaarheid

Page 9: Researcher ID

9

Thomson Reuters’ ResearcherID (RID)

• Hoe betrouwbaar is het ResearcherID-bestand? • Wat is de verhouding van auteurs met en zonder RID?• Zijn er nationale en vakspecifieke patronen te vinden in de

publicaties?• Zijn de RID’s representatief voor het hele auteursbestand

in de Thomson Reuters Web of Science databank?

Onze uitgebreide databank geeft ons de mogelijkheid om een diepgaande analyse uit te voeren op de auteursidentificatie van Thomson Reuters: ResearcherID

Page 10: Researcher ID

10

Methoden• ResearcherID’s van 8 landen opgehaald uit online WoS

o België, Nederland, Duitsland, Verenigd Koninkrijk, Zwitserland, Oostenrijk, Hongarije en China

• Gedownloade documenten hebben ten minste:o 1 adres van het opgevraagde land en o 1 auteur met RID De auteur(s) met RID zijn niet noodzakelijk verbonden met het land.

• Periode: 2009 – 2011• Artikels, Letters, Reviews en Proceedings Papers• Alle publicaties zijn toegewezen aan ten minste een

vakgebied

Page 11: Researcher ID

11

Koppeling van Auteursnaam

UT RID RID-naam000262024800086 A-4904-2011 Janssens, Jozef FK

000258231800013 B-4805-2009 Peeters, Pascal

UT NR Auteursnaam000262024800086 1 Koning, C

000262024800086 2 Dubois, P

000262024800086 3 Wang, Z

000262024800086 4 Janssens, J

Koppeling van Onderzoekersnaam (RID) met de juiste Auteursnaam op publicatie op basis van UT, familienaam en eerste initiaal:

Page 12: Researcher ID

12

Koppeling van adres en land

UT Auteur Land000262024800086 Koning, C Nederland

000262024800086 Dubois, P Frankrijk

000262024800086 Wang, Z China

000262024800086 Janssens, J België

• RID-auteurs gekoppeld aan landen op basis van naam en adres• RID’s die niet tot de geselecteerde landen behoren zijn verwijderd • Alle auteurs binnen een land = alle unieke combinaties familienaam

en eerste initiaal toegewezen aan het land

UT RID RID-naam000262024800086 A-4904-2011 Janssens, Jozef FK

000258231800013 B-4805-2009 Peeters, Pascal

Page 13: Researcher ID

13

Resultaten

• De opkuis van de RID-data bracht aan het licht dat:o Overgrote meerderheid (92%) van de koppeling tussen

RID en auteursnaam op publicatie correct is

o Overige 8%:• Instituten, universiteiten en overheidsinstanties• Onderzoekers die niet de auteur van publicatie zijn• Ongeldige karakters• Speciale naamvarianten

o Auteurs meerdere RID’s creëren en ook gebruiken op een publicatie

Page 14: Researcher ID

14

VoorbeeldenType probleem Voorbeeld RID-naam

Chinese karakters 仪 , 明伟 Andere tekens ň˜ / Å›½Æ ‹ / **** / …

Titel in de naam Dr., Prof., St.

Dubbele namen anders gesplitstBERGEAAS KUUTMANN, ELIN = Kuutmann, EB (Kuutmann, E. Bergeaas)

Verandering van naam STANCIU, Camelia --> PETRE, Camelia

Voorzetsels (Van, De) anders gesplitst Vande Broek, I / Broek, I Vande

Jaartal voor instituutnaam 2008, IBSAL

Instituten, universiteiten, overheden ZHEJIANG UNIVERSITY, DEP. OPTICAL ENG.

Page 15: Researcher ID

15

Aandeel RID-auteurs en publicaties met RID per land (3 jaar)

AUT BEL DEU HUN NLD CHN CHE GBR0%

10%

20%

30%

40%

50%

60%

(A) Gemiddeld aantal RID per publicatie(B) Aandeel publicaties met RID(C) Aandeel auteurs met RID

Page 16: Researcher ID

16

Gemiddeld aantal publicaties van RID-auteurs vs. alle auteurs per land (op 3 jaar)

AUT BEL DEU HUN NLD CHN CHE GBR0

5

10

15

20

25

(A) Gem. aantal publ. van alle auteurs

(B) Gem. aantal publ. per RID

Page 17: Researcher ID

17

A B C E G H I M N O P R S Z0

1

2

3

4

5

6

Gemiddeld aantal publicaties van RID-auteurs vs. alle auteurs per vakgebied (op 3 jaar)(excl. CHN)

(A) Gem. aantal publ. van alle au-teurs

(C) Gem. aantal publ. van RID-auteurs

Leuven-Budapest classificatie schema: A: Agriculture & environment; B: Biosciences (general, cellular & subcellular biology; genetics); C: Chemistry; E: Engineering; G: Geosciences & space sciences; H: Mathematics; I: Clinical & experimental medicine I (general & internal medicine); M: Clinic. & experim. med. II (non-internal medicine specialties); N: neuroscience & behavior; O: Social sciences II (economical & political issues); P: Physics; R: Biomedical research; S: Social sciences I (general, regional & community issues); Z: Biology (organismic & supraorganismic level)

Page 18: Researcher ID

18

Gemiddeld aantal publicaties van RID-auteurs vs. alle auteurs per vakgebied

o Om nationale verschillen in publicatiegedrag te overstijgen: analyse van publicaties per vakgebied

o China is niet in deze berekening opgenomen (vertekening)o RID-auteurs publiceren meer in vergelijking met alle auteurs

(behalve bij fysica)o Laagste aantal publicaties: Wiskunde en sociale wetenschappen

gevolgd door biomedisch onderzoek en ingenieurswetenschappeno RID-auteur is actief in gemiddeld 2,5 vakgebieden en alle auteurs

in gemiddeld 2,2 vakgebieden

Page 19: Researcher ID

19

0%5%10%15%20%25%30%35%40%45%50%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 >15

Rela

tive

freq

uenc

y

Number of papers

Relative frequency of publication activity of RID authors (bars) vs. all authors (line)

• 43.1% van alle auteurs publiceerden enkel 1 artikel tgo 21.7% van de RID-auteurs.

• 10% van de RID-auteurs publiceren >15 artikels tgo 6% van alle auteurs

Page 20: Researcher ID

20

Conclusies• ResearcherID helpt bij de identificatie van auteurs en is

noodzakelijk om namen in andere talen te kunnen identificeren (homoniemen).

• Toekenningen op basis van ReseacherID kunnen niet veralgemeend worden naar alle publicaties.

• Voorlopig is de ResearcherID nog niet voldoende representatief voor professioneel bibliometrisch gebruik.o Registratie is momenteel nog vrij laag en verschilt per land.o RID is niet uniek en niet altijd persoonsgebonden.o Profiel RID-auteurs komt niet overeen met dat van alle

auteurs (productiviteit).• Gebrek aan controleorgaan (TR): verantwoordelijkheid ligt bij

eindgebruiker die analyse uitvoert• Verdere ontwikkelingen blijven we opvolgen ...