Vers une analyse scientométrique de textes intégraux en accès libre par la réalisation d’un robot de recherche.
Chawki Hajjem
M. Stevan HarnadProfesseur en Psychologie
Centre des neurosciences cognitives (CNC)Département de psychologie
Université du Québec à Montréal
M. Bernard LefebvreProfesseur en informatiqueDépartement informatique
Université du Québec à Montréal
Directeurs de thèse
PlanProblématique Accès libre et auto-archivageObjet de la rechercheÉtat d’avancement des travaux
Robot de rechercheSources des donnéesAlgorithmesÉvaluation de l’exactitude des résultats du robotCalcul des citationsMesure de l’impactAnalyse par la régression multipleAnalyse de l’impact des articles disponibles dans archives obligatoires
Exploration de sujetsAlgorithmeIndicateurs du phénomène du libre accès
ÉchéancierRéférences
ProblématiqueContexte
- Les chercheurs sont évalués par l’impact scientifique de leurs publications.
- Les institutions de recherche adoptent la politique « publier ou
périr»[Projet. 2002].
- Une croissance rapide et continue du nombre d’articles scientifiques
publiés chaque année (2.5 millions d’articles publiés dans 24 milles revues
scientifiques [Harnad.2001]).
Problème
⇒ Impact scientifique perdu.
⇒ Ralentissement de l’avancement de la recherche scientifique.
ProblématiqueCauses possibles [Swan. 2004]
–Faible pourcentage des revues scientifiques mettant en accès libre les articles
qu’elles publient (5%).
–Coût extrêmement élevé des droits d’accès aux revues scientifiques.
–Impossibilité pour les institutions universitaires d’acheter les droits d’accès pour
les 24000 revues.
–Faible taux d’auto-archivage.
–Absence de politique institutionnelle d’auto-archivage.
–Fausses idées concernant le copyright.
–Difficulté de trouver l’information scientifique pertinente sur le Web.
–Faible taux de couverture des outils de recherche.
Accès libre et auto-archivageAccès libre :
"Par "accès libre" à cette littérature, nous entendons sa mise à disposition gratuite sur
l'Internet public, permettant à tout un chacun de lire, télécharger, copier, distribuer,
imprimer, chercher ou faire un lien vers le texte intégral de ces articles, les disséquer
pour les indexer, s'en servir de données pour un logiciel, ou s'en servir à toute autre fin
légale, sans barrières financières, légales ou techniques autres que celles indissociables
de l'accès et l'utilisation d'Internet. La seule contrainte à la reproduction et la distribution,
et le seul rôle du copyright dans ce domaine, devrait être de garantir aux auteurs un
contrôle sur l'intégrité de leurs travaux et le droit à être correctement reconnus et cités."
[BOAI, 2007]
Impact scientifique :
Nous utilisons l’expression « impact scientifique » pour faire référence au nombre de
citations que reçoit une publication scientifique.
Accès libre et auto-archivageAuto-archivage :
« L'auto-archivage, consiste à déposer un document électronique sur un site web en
accès public, de préférence selon le format d'archivage des publications électroniques
définis par l'OAI[1]. Ce dépôt implique une interface web simple, où le dépositaire
copie/colle les métadonnées (date, auteur, titre, nom du journal, etc ..), et attache ensuite
le texte intégral du document. Un logiciel autorisant l'auto-archivage de plusieurs
documents groupés, plutôt qu'un par un, est en cours de développement. »[BOAI, 2007]
Métadonnées :
Nous utilisons le terme métadonnées pour faire référence aux données relatives à une
publication : l’auteur, la discipline, la spécialité, le titre, l’année de publication, la revue qui
a publié l’article, l’institution signatrice de l’article, le pays auquel appartient l’institution, et
la langue dans laquelle est rédigé l’article.
[1] Open archives initiative.
État du lieuResearchers write
pre-refereeing “Pre-Print”
New impact cycles:New research builds on existing research
Impact cycle begins:Research is done
Pre-Print revised by article’s Authors
Submitted to Journal
Pre-Print reviewed by Peer Experts – “Peer-Review”
Refereed “Post-Print”Accepted, Certified, Published by Journal
Researchers can access the Post-Print if their university has a subscription to the Journal
12-1
8 M
ont
hs
Processus de publication et de diffusion des articles scientifiques. [Harnad, Brody, Hajjem, 2006]
Objet de la recherche– Identifier les facteurs influençant l’impact scientifique des publications.
– Déterminer si l’accès libre constitue un de ces facteurs et si oui qu’elle est l’ampleur de son impact.
– Étudier les diverses corrélations entre ces facteurs.
– Étudier l’évolution temporelle de l’impact des publications.
– Identifier les modèles de repérage qui peuvent être adaptés aux publications scientifiques.
– Développer les outils nécessaires pour mesurer l’impact scientifique et l’évolution du mouvement de l’accès ouvert.
– Développer un modèle de repérage qui se veut le plus adapté à la spécificité et au contexte des publications.
– Identifier les indicateurs qui peuvent être utilisés pour juger de l’impact des publications scientifiques.
Robot de recherche« Programmes qui s’exécutent automatiquement sur un ordinateur relié à Internet
et qui explorent le Web « systématiquement » en parcourant et en enregistrant la
structure hypertextuelle et le contenu (ou des parties du contenu) des documents
repérés (et des documents auxquels réfèrent ces documents) en utilisant le
protocole http ».[Arsenault, 2005]
Algorithme de navigation des robots de recherche. [Arsenault, 2005]
Recherche item connu
Recherche item connu
Recherche item connu
1- Les données sources CD-ROM (Thomson scientifique)
– Données recueillies par l’Institut des Sciences de l’Information (ISI).
– Représentent les métadonnées des articles publiés dans des revues expertes et publiés entre les années 1992 et 2004.
– Diverses disciplines (biologie, sociologie, psychologie, etc.).
2- Les documents importés par le robot de recherche (AlltheWeb, Yahoo, eo, Altavista, OAIster et MetaCrawler).
État d’avancement des travaux
État d’avancement des travauxInfrastructure informatique
- Serveur Mac.
- Cartes réseaux.
- Réseaux Ethernet de l’UQÀM.
- Système d’exploitation : Mac OS X.
-Fink 0.4.1.
- Système de gestion de base de données : SQL Server et MySQL.
- Convertisseurs: Xpdf, antiword, unrtf, html2text, texi2pdf, ps2pdf, latext2html.
- Serveur Web Apache.
- Interpréteur : Perl 5.6.
- Installation des packages : LWP, DBI, DBD ::ODBC, CGI, SOAP::Lite, URI::Escape,
HTML::Parse, XML ::Parser, HTML::Element, GD ::Graph, Statistics-Basic, Perl/tk,
Stemmer
- Octave.
Évaluation de l’exactitude des résultats du robot
Échantillon
200 articles appartenaient à la discipline biologie dont 100 sont identifiés en accès
libre (OA) et 100 sont identifiés non en en accès libre (NOA).
Quatre groupes:
- Vrai OA: le fichier trouvé par le robot correspond à l'article recherché.
- Vrai NOA: le robot indique que l'article n'est pas en accès libre et la vérification
manuelle le confirme.
- Faux OA: le fichier trouvé par le robot ne correspond pas au texte intégral de
l'article recherché.
- Faux NOA: le robot indique que l'article n'est pas en accès libre cependant la
vérification manuelle l'infirme.
Évaluation de l’exactitude des résultats du robot
11387Total946NOA19 81OA
NOAOARobot
Vérification manuelleMatrice de décision
0.16Taux d'échec (false alarm rate)
0.93Taux de réussite (hit rate)
Probabilité
Matrice de décision.[Hajjem, Harnad, Gingras, 2005]
Taux de réussite et d'échec du robot. [Hajjem, Harnad, Gingras, 2005]
0,528257842ß2,445075164d'
Mesure de d' (discriminability index) et de ß (decision bias)[Hajjem, Harnad, Gingras, 2005]
Évaluation de l’exactitude des résultats du robot
Interprétation des résultats
=> d’ = 2.44, donc l'algorithme appliqué par le robot est efficace pour la tâche demandée.
=> ß=0.52, donc le robot a tendance à être libéral que neutre.
Analyse de détection de signal. [Hajjem, Harnad, Gingras, 2005]
Calcul des citationsA r t ic le
P K , I 1 I D _ A r t
T i t r eF K 3 N o _ R e v u e
A n n e eV o lu m eN u m e r oP a g e _ D e b u tP a g e _ F in
F K 1 I D _ D o c u m e n tF K 2 C o d e _ L a n g u e
T G A _ N u m e r oN b _ R e f e r e n c eN b _ A u t e u rN b _ A d r e s s e
A d r e s s e
P K , F K 1 , I 1 I D _ A r tP K , I 1 O r d r e
F K 2 , U 1 I n s t i t u t io nD e p a r t e m e n t
U 3 V i l leP r o v in c e
F K 3 , U 2 P a y sC o d e _ p o s t a lA d r e s s e _ O r ig in a l
A u t e u r
P K , F K 1 , I 1 I D _ A r tP K , I 1 O r d r e
N o m
D e u x ie m e
P K , I 1 I D _ A r tP K , I 1 O r d r e
I n s t i t u t i o n
L is t e _ D is c ip l in e
P K , I 1 N o _ D i s c i p l i n e
C h a m pS o u s _ C h a m pE C h a m pE S o u s _ C h a m pF C h a m pF S o u s _ C h a m pA n c _ C h a m pA n c _ S o u s _ C h a m p
L is t e _ D o c u m e n t
P K , I 1 I D _ D o c u m e n t
T y p e _ D o c u m e n t
L is t e _ I n s t i t u t io n
P K , I 1 I n s t i t u t i o n
A f f i l ia t io nC e n t r e
F K 1 S e c t e u rN o m _ C o m p le tA d r e s s eL ie n _ W e b
L is t e _ L a n g u e
P K , I 1 C o d e _ L a n g u e
L a n g u e
L is t e _ L a n g u e
P K , I 1 C o d e _ L a n g u e
L a n g u e
L is t e _ P a y s
P K , I 1 P a y s
P a y s _ A n g la isP a y s _ F r a n c a isG r o u p _ C o u n t r yP a y s _ R e g r o u p e
L is t e _ s e c t e u r
P K , I 1 S e c t e u r
N o m _ S e c t e u rG r a n d _ S e c t e u r
S C I R e v u e
P K , I 1 N o _ R e v u e
R e v u eF K 1 , U 1 N o _ D is c ip l in e
C h a m pS o u s _ C h a m pR e v u e _ a b b r e g e _ C H IR e v u e _ A b b r e g eF a c t 8 0F a c t 8 1F a c t 8 2F a c t 8 3F a c t 8 4F a c t 8 5F a c t 8 6F a c t 8 7F a c t 8 8F a c t 8 9F a c t 9 0F a c t 9 1F a c t 9 2F a c t 9 3F a c t 9 4F a c t 9 5F a c t 9 6F a c t 9 7F a c t 9 8D e g r e _ a p p l ic a t io nC o m m e n t a i r e sP U B 1 9 9 3P U B 1 9 8 6I N F L _ W G TI N F L _ P U BI M P A C T _ C H ID i s p o n i b l e
References
PageVolumeNomAnneeRef_abbr
Id_artordre
Mesure de l’impactAnalyse par discipline
Pour chaque article : (1) OA ou NOA.(2) Nombre de citations.(3) Discipline.(4) Revue.(5) Année de publication.
Pour chaque discipline:Pour chaque revue:
Pour chaque année:(1) pourcentage d’articles en accès libre.(2) nombre total d’articles.(3) moyenne de citations des articles en accès libre.(4) moyenne de citations des articles non en accès libre.(5) impact de citations.
- moyenne de citations des articles en accès libre.- moyenne de citations des articles non accès libre.- n nombre de revues.
∑=
=n
i
nNOAOALogonspactCitati
0
/))((Im
OA
NOA
Mesure de l’impact
Variation de l'impact en fonction de la discipline.[Hajjem, Harnad, Gingras, 2005]
Mesure de l’impact
0.25 NS0.21 NS-0.02 NS0.65p < 0.010.31 NS0.76p < 0.005
OA Citation Advantage x YearOA Citation Advantage x Total articlesOA Citation Advantage x %OA articlesTotal articles x YearTotal articles x %OA articles%OA articles x Year
rN=12
Variation de l'impact en fonction des années.[Hajjem, Harnad, Gingras, 2005]
Table des corrélations. [Hajjem, Harnad, Gingras, 2005]
Mesure de l’impactAnalyse par pays
Variation de l'impact en fonction des pays des instituts signataires.[Hajjem, Harnad, Gingras, 2005]
Analyse intra-niveaux de citations
Variation des pourcentages d'articles en fonction de niveaux de citations.
Analyse intra-niveaux de citations
0.94p < 0.0050.60p < 0.0250.10p < 0.05-0.36 p < 0.05-0.74 p < 0.005-0.93 p < 0.001
O Citations OAc x Year1 Citations OAc x Year2 - 3 Citations OAc x Year4 - 7 Citations OAc x Year8 - 15 Citations OAc x Year16+ Citations OAc x Year
rN=12
Variation OAc en fonction des années.[Hajjem, Harnad, Gingras, 2005]
Tableau de corrélation OAc x années. [Hajjem, Harnad, Gingras, 2005]
Analyse intra-niveaux de citations
0.94p < 0.0010.94p < 0.0010.96p < 0.0010.96 p < 0.0010.91 p < 0.0010.87 p < 0.001
O Citations OAc x Year1 Citations OAc x Year2 - 3 Citations OAc x Year4 - 7 Citations OAc x Year8 - 15 Citations OAc x Year16+ Citations OAc x Year
rN=12
Variation du rapport OAc/NOAc -1 avec les années.[Hajjem, Harnad, Gingras, 2005]
Tableau de corrélation (OAc / NOAc - 1) x années. [Hajjem, Harnad, Gingras, 2005]
Analyse intra-niveaux de citations
Variation du rapport OAc/NOAc -1.[Hajjem, Harnad, Gingras, 2005]
Analyse par la régression multipleÉtude de l’échantillon.
- CD-ROM présentant la base de données de ISI.
- Articles appartenaient à la discipline biologie.
- Publiés entre 1992 et 2003.
- Nombre total d’articles est 442750.
- Variable dépendante: nombre de citations.
Distribution du nombre d’articles en fonction du nombre de citations ne suit
pas la loi normale => transformation. Y’=Log(Y+1).
- Variables explicatives:
Impact de la revue (RI): min 0.000, max. 18.219;
Année de publication (An) : min 0 max. 11;
Nombre d’auteurs (Aut): min 1, max. 17;
Accès libre (statut, Al): binaire 0: non en accès libre et 1 en accès libre.
Analyse par la régression multiple
Variation de nombre d’articles en fonction du nombre de citations (Y)
Variation de nombre d’articles en fonction (Y’)
Analyse par la régression multiple
a Dependent Variable: CITT
Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).
. STATUT 4
Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).
. NAUTEURS 3
Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).
. RevueImpact2
Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).
. AGE1
MethodVariables Removed
Variables EnteredModel
a Dependent Variable: CITT
.00018.846 .026 .003 5.363E-02
STATUT
.00097.393 .137 .001 5.683E-02
NAUTEURS
.000146.066
.206 .001 .133 RevueImpact
.000259.351
.364 .000 7.751E-02
AGE
.000-49.146 .003 -.144 (Constant)
4
BetaStd. Error
B
Sig.tStandardized
Coefficients
UnstandardizedCoefficients
Model
Log (nombre de citations +1) =-0.144+7.75 10-2 An+ 0.133 RI+5.66 10-2Aut+5.36 10-2 Al
Nombre de citations = exp(-0.144+ 7.75 10-2An+ 0.133 RI+5.66 10-2Aut+5.36 10-2 Al -1.44)-1
Les variables entrées/supprimées.Table des coefficients.
Analyse par la régression multipleImpact de la revue
Groupe Ari [0.000, 0.592]:Nombre de citations = exp(4.82 10-2An+ 0.592 RI+5.55 10-2Aut+1.21 10-2 Al -0.27)-1
Groupe Bri [0.593, 0.949]:Nombre de citations = exp(7.29 10-2 An+ 0.349 RI+5.78 10-2 Aut+ 5.69 10-2 Al -0.27)-1
Groupe Cri [0.950, 1.444]:Nombre de citations = exp(8.68 10-2 An+ 0.194 RI+5.21 10-2 Aut+ 5.35 10-2 Al -0.18)-1
Groupe Dri [1.445, 18.219]:Nombre de citations = exp(0.12 An+ 5.39 10-2 RI+4.71 10-2 Aut+ 7.92 10-2 Al -0.02)-1
Année de publicationGroupe Aan [2001, 2003]:
Nombre de citations = exp(2.48 10-2An+ 0.18 RI+9.65 10-2Aut+5.75 10-2 Al +1.42)-1Groupe Ban [1998, 2000]:
Nombre de citations = exp(7.22 10-2 An+ 0.16 RI+6.27 10-2 Aut+ 3.93 10-2 Al -0.06)-1Groupe Can [1995, 1997]:
Nombre de citations = exp(4.91 10-2 An+ 0.19 RI+8.16 10-2 Aut+ 6.34 10-2 Al -0.03)-1Groupe Dan [1992, 1994]:
Nombre de citations = exp(2.48 An+ 0.18 RI+9.65 10-2 Aut+ 5.75 10-2 Al +0.14)-1
Analyse de l’impact des articles disponibles dans les archives obligatoires
Mise en oeuvre de la technique de T-test.
-Articles publiés par des institutions présentant des archives obligatoires
- Queensland University of Technology;
- CERN: European Organization for Nuclear Research;
- Universidade do Minho;
- University of Southampton Department of Electronics and Computer
Science).
-Publiés après la date de la mise en œuvre du mandat obligatoire (2004) de l’auto-
archivage;
-Référencés par ISI.
-Articles qui sont publiés dans la même année/revue.
Analyse de l’impact des articles disponibles dans les archives obligatoires
Échantillon:-Groupe 1 (Sm) : articles présents dans les archives identifiées et qui sont trouvés par le robot de recherche.
-Groupe 2 (Nm) : les articles présents dans les archives identifiées mais qui ne n’ont pas ététrouvés par le robot de recherche.
-Groupe 3 (Sn) : les articles qui ne sont pas présents dans les archives identifiées mais qui sont trouvés par le robot de recherche.
- Groupe 4 (Nn) : les articles qui ne sont pas présents dans les archives identifiées et qui ne sont pas trouvés par le robot de recherche.
S Nm m
n n
H0 : il n’existe pas de différence significative entre la moyenne de citations du groupe Sm et Sn.
H1 : il existe une différence significative entre la moyenne de citations du groupe Sm et Sn.
0,18
-0,27
0,18
0,57
0,34
0,17
106203
4974
27972
541279 24 48 20 24 48-1,00
-0,80
-0,60
-0,40
-0,20
0,00
0,20
0,40
0,60
0,80
1,00
S/N Sn/Sm Sn/Nn Sm/Nm Sm/N Sn/NRapports
0
5000
10000
15000
20000
25000
30000
Moyenne Nombre Article Nombre revue
Analyse de l’impact des articles disponibles dans les archives obligatoires
Étude de l'impact des articles auto-archivés.
UpperLower
Sig. (2-tailed)
dftPaired Differences
95% Confidence Interval of the
Difference
Std. ErrorMean
Std. Deviati
on
Mean
0,03472,230,320,010,070,530,17SnT -NT
Pair 6
0,009232,860,580,090,110,580,34SmT -NT
Pair 5
0,015192,681,010,120,210,950,57SmT -NmT
Pair 4
0,007472,830,310,050,060,440,18SnT -NnT
Pair 3
0,037232,210,520,010,120,590,26SmT -SnT
Pair 2
0,008472,780,300,040,060,440,17ST -NT
Pair 1
Interprétation24 pair (24 revues) étudiées. La valeur de t est 2.21. La valeur de p est 0.03 < 0.05.
=> Hypothèse H1 confirmée, la moyenne de citations du groupe Sm est supérieure à la moyenne du groupe Sn.
Paired differences
Exploration de sujetsAnalyse sémantique latente (LSI)[Furnas, Deerwester, Dumais, Landauer, Harshman, Streeter, Lochbaum, 1988]
M K
S 0 0 DT
Documents
Mots = x x
txd txr
r x r rxd
Mk Kk
Sk 0
0
DkT
Documents
Mots=
x x
kxd txk
k x k kxd
k
Décomposition en valeurs singulières
Réduction de la matrice.
Le modèle neuronal[Willinkson, Hingston, 1991]
Index
Mot4
Mot1
Mot2
Mot3
Mot4
Doc1
Doc2
Requête DocumentsDoc3
Mot1
+++++LSI+++++Neuronal
Tenir compte des cooccurrences des mots
Propice pour tenir compte du feed-back de l’utilisateur
Ordonner
les documents selon leurs degrés de pertinence
Tenir compte des poids des termes dans les documents
Tenir compte des poids des termes dans la requête
Similaritépartielle
Modèle neuronal
Modèle proposé
Modèle proposé
Indicateurs du phénomène libre accès
La date de publication de l’article.
Le nombre d’auteurs.
La diversité disciplinaire des auteurs.
Le nombre de citations reçues par les publications des auteurs.
Le nombre d’instituts signateurs.
La diversité géographique des instituts signateurs.
Le nombre de références citées.
La diversité disciplinaire des références citées.
La date de publication des références citées.
Le nombre de téléchargements.
Le nombre de téléchargements en fonction du temps.
Le nombre de téléchargement en fonction des intervalles de temps.
Le nombre de citations reçues.
Le nombre de citations reçues en fonction des intervalles de temps.
Indicateurs du phénomène libre accès
Le nombre d’auto-citations.
Le pourcentage d’auto-citations.
La diversité disciplinaire des citations reçues.
La diversité géographique des citations reçues.
La diversité temporelle des citations reçues.
La diversité disciplinaire des auteurs des publications qui citent l’article.
La diversité géographique des auteurs des publications qui citent l’article
Le nombre de citations reçues.
Le facteur d’impact de la revue qui a publié l’article pour l’année de publication de l’article.
Le facteur d’impact de la revue en fonction du temps.
La date de mise en accès-libre de la version pré-tirage.
La date de la mise en accès libre de la version officielle.
L’intervalle de temps entre la date de mise en accès libre de la version pré-tirage et de la version
officielle.
Le nombre de citations reçues par la version de pré-tirage.
Échéancier
Présentation de la thèse
Diffusion des résultats
Interprétation des résultats.
Test du code
Programmation exploration sujet
Conception de l'algorithme exploration sujet
Interprétation et diffusion des résultats
Analyse en fonction de la langue
Analyse en fonction de pays
Analyse en fonction de nombre citations
Interprétation et diffusion des résultats
Analyse des résultats
Interprétation et diffusion des résultatsÉtude de la régression multipleMise en pratique
Analyse des résultats
Mise en application 1ere phase
Test du code
Programmation Item connu
Installation des logiciels
Étude de l'infrastructure
Conception de l'algorithme Item connu
Rédaction de la proposition du projet
Identification des ressources
Identification des objectifs
Définition des concepts
2007200620052004
Références[BOAI, 2007] Initiative de Budapest pour l’accès ouvert. http://www.soros.org/openaccess/fr/read.shtml. Consulté le 31 mars
2007.
[Arsenault, 2005] Arsenault, C. (2005). Notes du cours BLT6057, recherche d’information. Université de Montréal.
[Brody. 2004] Brody T. (2004).Citation impact of open access articles vs articles available only through subscription ("Toll-
Access"). http://citebase.eprints.org/isi_study/
[ClickZ. 2005] ClickZ. (2005). Trends & statistics The web’s richest source.
[Furnas, Deerwester, Dumais, Landauer, Harshman, Streeter, Lochbaum, 1988] G.W. Furnas and S. Deerwester and S. T.
Dumais and T. K. Landauer and R. A. Harshman and L.A. Streeter and K. E. Lochbaum (1988) Information retrieval using a
singular value decomposition model of latent semantic structure, SIGIR ’88 : Proceeding of the 11th annual international
ACM SIGIR conference on Research and development in information retrieval, pp. 465-480, Grenoble (France),
[Hajjem, Harnad, Gingras, 2005] Hajjem C., Harnad S., Gingras Y. (2005). Ten-Year Cross-Disciplinary Comparison of the
Growth of Open Access and How it Increases Research Citation Impact. IEEE Data Eng. Bull. 28(4): 39-46.
http://sites.computer.org/debull/A05dec/hajjem.pdf
[Han Kamber, 2006] Han, J. Kamber, M. (2006). Data mining, concepts and techniques, Second edition. Morgan Kaufmann
Publishers.
[Harnad, 2004] Harnad, S. & Brody, T. (2004) Comparing the Impact of Open Access (OA) vs. NOA Articles in the Same
Journals, D-Lib Magazine 10 (6) June http://www.dlib.org/dlib/june04/harnad/06harnad.html
[Harnad, Brody, Hajjem, 2006], Harnad, S. Brody, T. Hajjem, C. (2006). Self archiving-illustration.http://www.bibli.ens-
cachan.fr/WEB/Bases/Conferences/Roland/Roland2006.ppt
[Harnad. 2001] Harnad S.(2001). Lecture et écriture scientifique “dans le ciel” : une anomalie post - gutenbergienne et
comment la résoudre Archive institutionnel UQÀM
Références[ISO/CEI9126] ISO/CEI9126. Technologie de l’information – Évaluation des produits logiciels – Caractéristiques de qualité et
directives d’utilisation. 1991.
[Kurtz, 2004] Kurtz, M. J., Eichhorn, G., Accomazzi, A., Grant, C. S., Demleitner, M., Murray, S. S. (2004) The Effect of Use
and Access on Citations. Information Processing and Business. http://cfa-www.harvard.edu/~kurtz/IPM-abstract.html
[Lawrence, 2001]Lawrence, S. (2001) Online or Invisible?, Nature 411 (2001) (6837), p. 521 http://citeseer.ist.psu.edu/online-
nature01/
[Moed, 2005] Henk F, Moed. (2005). Citation analysis in research evaluation. Springer.
[Okerson 1995] Okerson, A. S. & O’Donnell, J. J. (1995) Scholarly Journals at the Crossroads: A subversive proposal for
electronic publishing. Association of Research Libraries. http://www.library.yale.edu/~okerson/toc.html
[Poynder, 2004] Poynder, R. (2004) Ten years after. Information Today. 21(9)
http://www.infotoday.com/it/oct04/poynder.shtml
[Projet. 2002] Projet Eprints. (2002).Déclaration d'un engagement institutionnel. Université de Southampton.
http://www.unites.uqam.ca/cnc/declaration.fr.html
[Sean, 2002] Sean M, Burke. (2002) Perl & LWP, fetching Web pages, parsing HTML, Writing Spiders & More. O’REILLY.
[Swan. 2004] Swan A. (2004). Key perspectives ltd http://www.eprints.org/berlin3/ppts/02-AlmaSwan.ppt
[Willinkson, Hingston, 1991] Ross Willinkson and Philip Hingston (1991) Using the cosine measure in a neural network for
document retrieval, SIGIR ’91 : Proceedings of the 14th annual international ACM SIGIR conference on research and
development in information retrieval, pp. 202-210, Chicago, Illinois.
[Youngen, 1998] Youngen, G. K. (1998) Citation Patterns to Electronic Preprints in the Astronomy and Astrophysics Literature
Library and Information Services in Astronomy III, ASP Conference Series, Vol. 153,
Merci!