Att skilja mellan en elefant och en kanin: Användningen av bibliometri i sakkunnigutlåtanden

Syrischer_Maler_von_1354_001

Impact measures of this kind are inexact and should not, in our view, be relied on for a detailed ranking of research achievements (it could be described as ‘a scale that can distinguish an elephant from a rabbit but not a horse from a cow’). (från sakkunnigutlåtande i nationalekonomi)

Under senare år har ett allt större intresse riktats mot hur utvärderingssystem och resursfördelningsmodeller påverkar forskningen. En central fråga är hur ett ökat fokus på prestationer som är kvantifierbara påverkar forskarnas praktiker och prioriteringar. En rad dokumenterade och möjliga effekter har identifierats på en generell nivå, men empiriska studier av hur bibliometri används vid utvärdering av enskilda individer är få. Dock vill jag påstå att just denna typ av användning, där anställningar och forskningsanslag står på spel, är särskilt viktiga då de har stor påverkan på den enskilde forskarens karriär. Ett problem har dock varit att utvärdering på individnivå är svårt att studera empiriskt, och diskussionen har tidigare främst baserats på enskilda exempel och anekdoter. Inom svensk akademi finns dock ett relativt unikt och omfattande material kring utvärderingspraktiker i form av sakkunnigutlåtanden vid tjänstetillsättningar, och dessa ger unika insikter i hur indikatorer används.

I artikeln, Indicators as judgment devices, studerar Alex Rushforth och jag just hur sakkunniga använder indikatorer och tidskriftsrankningar för att värdera och rangordna sökande till lektorat och professurer inom biomedicin och nationalekonomi. Dessa dokument ger oss unik inblick i hur bibliometriska mått används för att värdera enskilda forskare, och de ger också insikt i hur specifika indikatorer integreras i disciplinspecifika värderingspraktiker. Denna aspekt är särskilt intressant då prestige och position inom akademin till stor del styrs av status inom disciplinen, snarare än av status inom den organisation där forskaren är anställd.

I redovisningen av våra resultat bör det framhållas att långt ifrån alla sakkunniga använder sig av indikatorer, och knappt hälften av de utlåtanden som vi studerat (82 av 188) använde sig av bibliometriska mått eller tidskriftsrankningar. Ett återkommande argument bland de sakkunnig som använde sig av bibliometri var måttens ‘objektivitet’:

A bibliometric analysis was carried out to assess the scientific production and even more importantly, the real scientific impact of each applicant.” (utlåtande i biomedicin)

Generellt introducerades dock citeringsdata, eller ‘impact factorer’, utan någon vidare motivering. Vår tolkning är att de sakkunniga använder indikatorer som en typ av ‘utvärderingsverktyg’, och här bygger vi på Lucien Karpik (2010) och hans teori om ‘judgment devices’. Dessa används i situationer när konsumenten (i detta fall granskaren) behöver välja mellan en rad produkter (här kandidater) som inte helt enkelt kan jämföras. Ett exempel som Karpik tar upp är valet av husläkare eller värderingen av ett litterärt verk, och vi menar att forskare kan ses som ett ytterligare exempel på en ‘vara’ vars värde inte helt enkelt kan fastställas. I situationer där det finns en uppsjö av goda kandidater, vilket är fallet i många av de tillsättningsärenden vi studerat, så blir  ‘judgment devices’ också ett sätt att lösa en situation där ett överflöd av möjliga alternativ finns.

Journal Impact factor

Den mest kända, inflytelserika och samtidigt häftigt kritiserade bibliometriska indikatorn är utan tvivel Journal Impact Factor (JIF), som introducerades av Eugene Garfield redan 1963. JIF används flitigt också i vårt material, främst inom biomedicin men också inom nationalekonomi, och ofta introduceras den för att bedöma ‘kvaliteten’ på publicerade alster: 

…but it is a bit bothersome that many of the recent publications that XXXX has been principal investigator on are found in more narrow journals, as for example Scandinavian J Immunol. (Impact approx. 2.3). (utlåtande i biomedicin)

Many of original papers appeared in excellent quality journals and nearly two third [sic] of them were in journals with impact factor greater than 3. (utlåtande i biomedicin)

I många fall, likt exemplen ovan, så används JIF som ett riktmärke för vad som ska betraktas som bra tidskrifter och en undre gräns för kvalité på runt 3 verkar gälla inom biomedicin. I nationalekonomi är det betydligt svårare att finna en exakt gräns, även om sakkunniga föreslår 0.5 samt 0.9 som möjliga riktvärden.  Sammantaget är  det otvetydigt att JIF:en är viktig vid bedömningen av forskning inom biomedicin, och många av de utlåtanden som inte explicit använder sig av måttet hänvisar till ‘high impact journals’.

Ett annat beryktat, och vid utvärderingen av individuella forskare särskilt intressant mått, är det så kallade ‘h-index’. Till skillnad från JIF, som mäter tidskrifters genomsnittliga citeringsgrad, så är h-index ett försöka att sammanfatta en forskares produktivitet och inflytande över tid. En forskare med h-index x har författat x publikationer som citerats minst x gånger, dvs. en forskare som har författat 12 publikationer som vardera citerats 12 gånger eller fler har ett h-index på 12. I vår studie används h-index vanligtvis som ett slags bakgrundsinformation, likt affiliering, ålder, kön, och ofta anges det utan vidare kommentarer som här:

XXXX publishes in good to very good journals including Plos Genetics, FASEB J, and Mol Biol Cell. H–factor=18. (utlåtande i biomedicin).

H-index blir vad vi kallar en ‘totaliserande indikator’ där en hel karriär kan sammanfattas i en siffra, och vi finner också att måttet i flera fall sammanfaller med den sammanvägda bedömningen av kandidater.

Om citeringar och JIF är populära utvärderingsverktyg inom biomedicinen så tenderar nationalekonomer att bedöma artiklars ‘värde’ utifrån klassifikationer av, och listor över, tidskrifter. En bedömare uttrycker det mycket klart:

“A university that aims to compete at the first or second tiers in Europe should expect its full professors to show the ability to publish at least a few articles in the best journals in the field. Publishing a paper in a top finance journal requires a degree of effort, awareness of the latest thinking in the field, and excellence, which any number of articles in journals below second tier could not match. (utlåtande nationalekonomi)

Det flitiga användandet av tidskriftsrankningar – vi fann hela fem olika listor i vårt material – kan relateras till att det nationalekonomiska fältet tenderar att organisera sig hierarkiskt. En annan förklaring är att citeringar och JIF generellt fungerar sämre inom nationalekonomin jämfört med biomedicin där omsättningen av artiklar och citeringar är högre.

I vårt material finns också tydliga exempel på hur indikatorer kan kombineras och jämföras, och det är inte ovanligt att sakkunniga uppvisar goda kunskaper i bibliometri. I exemplet nedan så jämförs h-index med det totala antalet citeringar för att ge en mer nyanserad bild av kandidaten:

Of 44 published papers she is 1st author on 12 and senior author on 20. She has a surprisingly low citation rate, albeit with a high h–index (Max citation <60 in 2010, h–index 17, Web of Science). (utlåtande i biomedicin)

Vad den sakkunnig menar med låg citeringsgrad är att denna kandidat har publicerat många publikationer som refererats av andra (högt h-index), men hon saknar publikationer med mycket hög citeringsgrad (max citation <60). Att författarordningen är en viktig aspekt inom biomedicin framgår också i detta citat; det är första och  sista positionen som räknas.

Ett ännu tydligare exempel på hur kandidater, men också olika typer av indikatorer, jämförs är tabellen nedan där en rad kvantifierbara data kring författarskap, publikationer och citeringar sammanställts.

Fig 1 anonymized                                                                                                            (från utlåtande i biomedicin)

Här rör det sig om en ambitiös sakkunnig som har goda kunskaper i bibliometri; tabellen ackompanjeras av inte mindre än åtta fotnoter som förklarar de enskilda måttens betydelse och svagheter. En intressant detalj är att den sakkunnige använder sig av medianvärdet gällande citeringar snarare än medelvärdet, och det är en praktik som är statistiskt välgrundad då distributionen av citeringar ofta är mycket skev.

Sammanfattningsvis menar vi att bibliometriska indikatorer i dessa sammanhang bör förstås som ‘utvärderingsverktyg’ som är välintegrerade i disciplinära utvärderingspraktiker, och beroende på hur fältet är organiserat kommer olika typer av indikatorer, till exempel citeringar inom biomedicin eller tidskriftsrankningar inom nationalekonomi, att bli dominerande. Tidigare bibliometrisk forskning har i nedlåtande ordalag referat till denna typ av bibliometrisk praktik som ‘amatörmässig’ och varnat för dess utbredning. Vi vill dock påstå att de sakkunniga i dessa dokument ofta framstår som relativt kunniga gällande indikatorernas styrkor och svagheter. Vidare så besitter de en unik kompetens jämfört med professionella bibliometriker då de har kunskap om vilket värde dessa mått tillskrivs inom den egna disciplinen. Vår ståndpunkt är dock inte att användningen av bibliometri i dessa sammanhang är oproblematisk, och liksom Leidenmanifestet så menar vi att indikatorer av detta slag bör användas med stor försiktighet på individnivå. Att helt avfärda dessa mått som direkt olämpliga i alla sammanhang vore dock förhastat, och vi bör komma ihåg att bibliometrisk utvärdering också kan framhålla grupper, till exempel kvinnor, som ofta missgynnats i traditionell peer review.

Bild: Kalîla und Dimma von Bidpai: Der Hase und der Elefantenkönig vor dem Spiegelbild des Mondes in der Quelle, By Syrischer Maler von 1354 [Public domain], via Wikimedia Commons

Annonser

108 bibliometriska indikatorer men ingen av dem duger

I en nyligen publicerad översikt författad av Lorna Wildgaard, Jesper Schneider och Birger Larsen så kartläggs och granskas 108 bibliometriska indikatorer utvecklade för att mäta produktivitet och genomslag på individnivå. Över hundra indikatorer — och då har de ändå bara fokuserat på författarnivån och på indikatorer som fokuserar på publikationer — ger verkligen substans till yttranden om ett överflöd av mått (A profusion of measures). Författarna konstaterat också att vi bevittnat en explosiv ökning av bibliometriska indikatorer för utvärdering av enskilda forskare under senare år, trots att många bibliometriker starkt ifrågasätter möjligheten till att överhuvudtaget använda bibliometri på individnivå. Orsaken till denna utveckling kan nästan uteslutande spåras tillbaka till fysikern Jorge Hirsch och det av honom introducerandet h-index (2005). H-indexet blev snabbt mycket populärt och orsaken till detta är troligtvis att det är så enkelt att räkna ut: h-index för en forskare är det antal publikationer (h) av forskaren som citerats minst h gånger. En forskare som författat 7 artiklar som citerats minst 7 gånger vardera ger h-index 7. Måttets genomslag förstärks också av att det automatiskt räknas ut för den som har en Google Scholar profil, och utvecklandet av program som Publish or Perish vilket kan användas för att kalkylera h-index och liknande mått har ytterligare bidragit till h-indexets populäritet. H-index fortsätter att vara det kanske mest populära måttet för att mäta forskningsproduktion på individnivå trots att ingående kritik riktats mot indikatorn. Bland annat så anses måttet vara instabilt för forskare som publicerat mindre än 50 publikationer och det bör inte användas för att jämföra forskare från olika discipliner eller forskningsfält. Vidare missgynnar det författare som publicerar selektivt, unga forskare och kvinnor. Dock verkar h-index fungera relativt bra för äldre manliga forskare som verkar i fält med hög citeringsfrekvens.

Förutom h-indexet så är Journal Impact Factor (JIF) kanske det mest välkända bibliometriska indikatorn och även denna används på individnivå. Detta trots att JIF är utformad för att mäta en tidskrifts inflytande men också i denna bemärkelse är måttet ifrågasatt och ett flertal alternativa indikatorer har föreslagits. Korfattat så anger JIF medeltalet för det antalet citeringar som artiklarna i en tidskrift får under två föregående år. Det innebär att artiklar i en tidskrift med en impact factor på 10 i medeltal citeras 10 gånger under de två år som föregår det år när mätningen görs. Dock säger detta mycket lite om kvaliteten på enskilda artiklar då vi vet att fördelningen av antalet citeringar inom en tidskrift är mycket skev — ett fåtal artiklar är högt citerade samtidigt som en stor del citeras mycket lite eller inte alls. Att en forskare publicerat i en tidskrift med hög JIF är en indikation på författarens förmågan att bli publicerad i tidskrifter med hög status, men det säger mycket lite om inflytande. Vidare finns det tecken på att betydelsen av en hög JIF börjar spela ut sin roll både för forskare och tidskrifter (The demise of the Impact Factor) och kampanjer, likt den som initierad av DORA 2013, spelar här en roll.

Men h-indexet och impact factorn är bara några i en lång rad av mått som behandlas i studien och dessa har delats in i fem grupper: indikatorer baserade på publiceringsvolym, indikatorer som bygger på tidskriftsmått (t.ex. Impact Factor), indikatorer som mäter effekt (t.ex. antalet citeringar), indikatorer som rankar publikationer inom en författares production (t.ex. h-index) samt indikatorer som rankar publikationer över tid. Alla mått har sedan granskats och bedömts utifrån två faktorer: hur svårt det är att samla data samt hur komplex indikatorn är. Mått där datan är svår att få tag på för den enskilde forskaren och där metodologin är för komplicerad bedöms därmed vara för svåra att operationalisera för slutanvändaren. Användarbarhet är således av central betydelse för att bedöma en indikators duglighet.

Givetvis har problemen med etablerade indikatorer såsom h-index och Journal Impact Factor get upphov till en rad av förslag på förbättringar, och rivaler till h-indexet såsom a-index, b-index, f-index, g-index, m-index, r-index, t-index, w-index och z-index, har föreslagits. Impact factorn har i sin tur utmanats av mått som SNIP (Source Normalized Impact Per Paper) där citeringsfrekvensen normaliserats för att bli jämförbar(are) mellan olika discipliner. Men Wildgaard och kollegor konstaterar dock att dessa mer utvecklande indikatorer ofta är för komplicerade för att verkligen vara ett alternativ till mer etablerade mått. De förordar istället att bibliometriska indikatorer, såsom impact factorn eller h-indexet, alltid ska akompanjeras av andra kompletterande mått. Detta då inget av de 108 indikatorerna på ett heltäckande sätt kan sägas representer det inflytande som en enskild forskare har. Trots alla denna möda, alla dessa beräkningar, normaliseringar och kvantifieringar så kvarstår problemet att forskare och administratörer väljer indikator baserat på användbarhet och tillgänglighet. Att utveckla mer avancerade indikatorer är alltså inte lösningen, och då det gäller att bedöma enskilda forskares bidrag till vetenskapen så går det inte att bortse från att den mest grundläggande ‘indikatorn’ fortfarande är traditionell och tidskrävande kollegial bedömning.

För den som ytterligare vill fördjupa sig i bibliometriska mått och deras användning på individnivå så rekommenderar jag att ta en titt på sidan för EU-projektet ACUMEN (Academic Careers Understood Through Measurements and Norms).