Att skilja mellan en elefant och en kanin: Användningen av bibliometri i sakkunnigutlåtanden

Syrischer_Maler_von_1354_001

Impact measures of this kind are inexact and should not, in our view, be relied on for a detailed ranking of research achievements (it could be described as ‘a scale that can distinguish an elephant from a rabbit but not a horse from a cow’). (från sakkunnigutlåtande i nationalekonomi)

Under senare år har ett allt större intresse riktats mot hur utvärderingssystem och resursfördelningsmodeller påverkar forskningen. En central fråga är hur ett ökat fokus på prestationer som är kvantifierbara påverkar forskarnas praktiker och prioriteringar. En rad dokumenterade och möjliga effekter har identifierats på en generell nivå, men empiriska studier av hur bibliometri används vid utvärdering av enskilda individer är få. Dock vill jag påstå att just denna typ av användning, där anställningar och forskningsanslag står på spel, är särskilt viktiga då de har stor påverkan på den enskilde forskarens karriär. Ett problem har dock varit att utvärdering på individnivå är svårt att studera empiriskt, och diskussionen har tidigare främst baserats på enskilda exempel och anekdoter. Inom svensk akademi finns dock ett relativt unikt och omfattande material kring utvärderingspraktiker i form av sakkunnigutlåtanden vid tjänstetillsättningar, och dessa ger unika insikter i hur indikatorer används.

I artikeln, Indicators as judgment devices, studerar Alex Rushforth och jag just hur sakkunniga använder indikatorer och tidskriftsrankningar för att värdera och rangordna sökande till lektorat och professurer inom biomedicin och nationalekonomi. Dessa dokument ger oss unik inblick i hur bibliometriska mått används för att värdera enskilda forskare, och de ger också insikt i hur specifika indikatorer integreras i disciplinspecifika värderingspraktiker. Denna aspekt är särskilt intressant då prestige och position inom akademin till stor del styrs av status inom disciplinen, snarare än av status inom den organisation där forskaren är anställd.

I redovisningen av våra resultat bör det framhållas att långt ifrån alla sakkunniga använder sig av indikatorer, och knappt hälften av de utlåtanden som vi studerat (82 av 188) använde sig av bibliometriska mått eller tidskriftsrankningar. Ett återkommande argument bland de sakkunnig som använde sig av bibliometri var måttens ‘objektivitet’:

A bibliometric analysis was carried out to assess the scientific production and even more importantly, the real scientific impact of each applicant.” (utlåtande i biomedicin)

Generellt introducerades dock citeringsdata, eller ‘impact factorer’, utan någon vidare motivering. Vår tolkning är att de sakkunniga använder indikatorer som en typ av ‘utvärderingsverktyg’, och här bygger vi på Lucien Karpik (2010) och hans teori om ‘judgment devices’. Dessa används i situationer när konsumenten (i detta fall granskaren) behöver välja mellan en rad produkter (här kandidater) som inte helt enkelt kan jämföras. Ett exempel som Karpik tar upp är valet av husläkare eller värderingen av ett litterärt verk, och vi menar att forskare kan ses som ett ytterligare exempel på en ‘vara’ vars värde inte helt enkelt kan fastställas. I situationer där det finns en uppsjö av goda kandidater, vilket är fallet i många av de tillsättningsärenden vi studerat, så blir  ‘judgment devices’ också ett sätt att lösa en situation där ett överflöd av möjliga alternativ finns.

Journal Impact factor

Den mest kända, inflytelserika och samtidigt häftigt kritiserade bibliometriska indikatorn är utan tvivel Journal Impact Factor (JIF), som introducerades av Eugene Garfield redan 1963. JIF används flitigt också i vårt material, främst inom biomedicin men också inom nationalekonomi, och ofta introduceras den för att bedöma ‘kvaliteten’ på publicerade alster: 

…but it is a bit bothersome that many of the recent publications that XXXX has been principal investigator on are found in more narrow journals, as for example Scandinavian J Immunol. (Impact approx. 2.3). (utlåtande i biomedicin)

Many of original papers appeared in excellent quality journals and nearly two third [sic] of them were in journals with impact factor greater than 3. (utlåtande i biomedicin)

I många fall, likt exemplen ovan, så används JIF som ett riktmärke för vad som ska betraktas som bra tidskrifter och en undre gräns för kvalité på runt 3 verkar gälla inom biomedicin. I nationalekonomi är det betydligt svårare att finna en exakt gräns, även om sakkunniga föreslår 0.5 samt 0.9 som möjliga riktvärden.  Sammantaget är  det otvetydigt att JIF:en är viktig vid bedömningen av forskning inom biomedicin, och många av de utlåtanden som inte explicit använder sig av måttet hänvisar till ‘high impact journals’.

Ett annat beryktat, och vid utvärderingen av individuella forskare särskilt intressant mått, är det så kallade ‘h-index’. Till skillnad från JIF, som mäter tidskrifters genomsnittliga citeringsgrad, så är h-index ett försöka att sammanfatta en forskares produktivitet och inflytande över tid. En forskare med h-index x har författat x publikationer som citerats minst x gånger, dvs. en forskare som har författat 12 publikationer som vardera citerats 12 gånger eller fler har ett h-index på 12. I vår studie används h-index vanligtvis som ett slags bakgrundsinformation, likt affiliering, ålder, kön, och ofta anges det utan vidare kommentarer som här:

XXXX publishes in good to very good journals including Plos Genetics, FASEB J, and Mol Biol Cell. H–factor=18. (utlåtande i biomedicin).

H-index blir vad vi kallar en ‘totaliserande indikator’ där en hel karriär kan sammanfattas i en siffra, och vi finner också att måttet i flera fall sammanfaller med den sammanvägda bedömningen av kandidater.

Om citeringar och JIF är populära utvärderingsverktyg inom biomedicinen så tenderar nationalekonomer att bedöma artiklars ‘värde’ utifrån klassifikationer av, och listor över, tidskrifter. En bedömare uttrycker det mycket klart:

“A university that aims to compete at the first or second tiers in Europe should expect its full professors to show the ability to publish at least a few articles in the best journals in the field. Publishing a paper in a top finance journal requires a degree of effort, awareness of the latest thinking in the field, and excellence, which any number of articles in journals below second tier could not match. (utlåtande nationalekonomi)

Det flitiga användandet av tidskriftsrankningar – vi fann hela fem olika listor i vårt material – kan relateras till att det nationalekonomiska fältet tenderar att organisera sig hierarkiskt. En annan förklaring är att citeringar och JIF generellt fungerar sämre inom nationalekonomin jämfört med biomedicin där omsättningen av artiklar och citeringar är högre.

I vårt material finns också tydliga exempel på hur indikatorer kan kombineras och jämföras, och det är inte ovanligt att sakkunniga uppvisar goda kunskaper i bibliometri. I exemplet nedan så jämförs h-index med det totala antalet citeringar för att ge en mer nyanserad bild av kandidaten:

Of 44 published papers she is 1st author on 12 and senior author on 20. She has a surprisingly low citation rate, albeit with a high h–index (Max citation <60 in 2010, h–index 17, Web of Science). (utlåtande i biomedicin)

Vad den sakkunnig menar med låg citeringsgrad är att denna kandidat har publicerat många publikationer som refererats av andra (högt h-index), men hon saknar publikationer med mycket hög citeringsgrad (max citation <60). Att författarordningen är en viktig aspekt inom biomedicin framgår också i detta citat; det är första och  sista positionen som räknas.

Ett ännu tydligare exempel på hur kandidater, men också olika typer av indikatorer, jämförs är tabellen nedan där en rad kvantifierbara data kring författarskap, publikationer och citeringar sammanställts.

Fig 1 anonymized                                                                                                            (från utlåtande i biomedicin)

Här rör det sig om en ambitiös sakkunnig som har goda kunskaper i bibliometri; tabellen ackompanjeras av inte mindre än åtta fotnoter som förklarar de enskilda måttens betydelse och svagheter. En intressant detalj är att den sakkunnige använder sig av medianvärdet gällande citeringar snarare än medelvärdet, och det är en praktik som är statistiskt välgrundad då distributionen av citeringar ofta är mycket skev.

Sammanfattningsvis menar vi att bibliometriska indikatorer i dessa sammanhang bör förstås som ‘utvärderingsverktyg’ som är välintegrerade i disciplinära utvärderingspraktiker, och beroende på hur fältet är organiserat kommer olika typer av indikatorer, till exempel citeringar inom biomedicin eller tidskriftsrankningar inom nationalekonomi, att bli dominerande. Tidigare bibliometrisk forskning har i nedlåtande ordalag referat till denna typ av bibliometrisk praktik som ‘amatörmässig’ och varnat för dess utbredning. Vi vill dock påstå att de sakkunniga i dessa dokument ofta framstår som relativt kunniga gällande indikatorernas styrkor och svagheter. Vidare så besitter de en unik kompetens jämfört med professionella bibliometriker då de har kunskap om vilket värde dessa mått tillskrivs inom den egna disciplinen. Vår ståndpunkt är dock inte att användningen av bibliometri i dessa sammanhang är oproblematisk, och liksom Leidenmanifestet så menar vi att indikatorer av detta slag bör användas med stor försiktighet på individnivå. Att helt avfärda dessa mått som direkt olämpliga i alla sammanhang vore dock förhastat, och vi bör komma ihåg att bibliometrisk utvärdering också kan framhålla grupper, till exempel kvinnor, som ofta missgynnats i traditionell peer review.

Bild: Kalîla und Dimma von Bidpai: Der Hase und der Elefantenkönig vor dem Spiegelbild des Mondes in der Quelle, By Syrischer Maler von 1354 [Public domain], via Wikimedia Commons

Akademin och det kvantifierade jaget

Fig 2

Research gate score

Trenden att mäta och analysera sin egen prestation, eller för den delen sin kropp, med hjälp av digitala hjälpmedel har under senare år fått stor uppmärksamhet. Benämningen ‘the quantified self‘ lanserades redan 2007 av Gary Wolf och Kevin Kelly, och under begreppet samlas nu en hel rörelse. Kvantifieringen begränsar sig dock inte till motions- och rekreationsaktiviteter utan mätningen av jaget har nu också kommit att omfatta andra delar av tillvaron. I artikel Quantified academic selves tittar Sarah de Rijcke, Alex Rushforth och jag närmare på hur ett allt större fokus på mätning av den egna prestationen nu också återfinns inom akademin. Genom att studera två webbplattformar, ResearchGate (RG) och Impactstory, så reflekterar vi kring hur en ökad kvantifiering av det akademiska jaget påverkar forskarnas självbild.

ResearchGate är kanske den mest välkända av dessa två, och enligt den egna webbplatsen har plattformen idag mer än nio millioner användare. Sajten erbjuder användare att skapa en profil där den egna forskningen presenteras, och forskaren kan också följa kollegor för att på så sätt uppdateras kring deras verksamhet. Informationen på RG är koncentrerad till publikationer, och det är främst genom dessa som användare kan höja sin så kallade ‘research gate score’. Introducerandet av ‘RG-score’ och ‘impact points’ för att sammanfatta forskarens produktion och inflytande är det som skiljer RG från liknande webbaserade nätverk som Academia.edu. Dessa mått bygger på en komplicerad, och till stora delar ogenomskinlig sammanräkning av publikationer, deras Impact factor, och allmän aktivitet på sajten. RG-score jämförs sedan automatiskt med andra forskares prestationer och användaren upplyses om sin relativa position (”bättre än 50% av alla registrerade forskare”). Förutom att kalkylera detta mått så skickar ResearchGate ständiga meddelanden till sina användare, där ‘framgångar’ proklameras: ”du har tjugo nya läsare” eller ”dina publikationer har nu citerats 100 gånger”.

I vår analys hävdar vi att RG och liknande tjänster framställer forskning som ett spel där målet är att samla så många poäng som möjligt. Vad dessa plattformar gör är att de ägnar sig åt ‘spelifiering’ (gamification), vilket kort kan sammanfattas som användandet av spelfunktioner i icke-spels kontexter. Spelifiering sägs kunna öka motivationen vid till exempel inlärning, men det har också använts för att höja produktiviteten i tillverkningsindustrin. I fallet RG och Impactstory så uppmanas användaren ständigt att uppdatera sin profil med nya prestationer för att på så sätt avancera till högre nivåer. Exempelvis så kan en användare av Impactstory uppnå nivåerna brons, silver eller guld beroende på hur stor global spridning som forskarens publikationer har fått. Vad vi ser här forskningens motsvarighet till strategispel där varje territorium ses som ett delmål på vägen mot världsherravälde. Likadant kan RGs ständiga uppmaning att ‘uppdatera profilen’ och ‘ladda upp publikationer’ liknas vis det ständiga uppgraderandet av karaktärer i dataspel.

Impact story map

Världskarta illustrerande genomslag i olika länder. Mörkare färg – högre impact. (Impactstory)

Vi menar att kvantifieringen och spelifieringen av forskarens identitet går att koppla till en nyliberaldiskurs där forskaren framställs som en vara på ‘ideernas marknad’. Kopplingen till en marknadsdiskurs är tydlig då både publikationer och forskare beskrivs som en vara med ett exakt värde (min dagsnotering är 14.76) som kan jämföras med andra varor. Med stöd hos Philip Mirowski och hans analys av Facebook så menar vi att RG och liknande sajter förmedlar en entreprenöriell jag-förståelse (se också Alex Rushforths bloggpost på samma tema). Vi påstår inte att idén om forskare som entreprenörer är ny, och tävlan har länge varit en integrerad del av vetenskapen, men dessa plattformar tydliggör och förstärker dessa tendenser. Dock vore det förenklat att helt skylla denna utveckling på alla de fenomen som, ibland lite slappt, sorteras in under det vida begreppet ‘nyliberalism’. Snarare är det så att viljan till ständig (mätbar) förbättring, eller vad Peter Sloterdijk benämner som ‘doktrinen om uppåtsträvande’, har ett djupare ursprung och denna strävan bär också på befriande aspekter.

Vår slutsats är att kvantifieringen och spelifieringen av vetenskapen är förenade med uppenbara faror. De reducerar en mycket komplex verksamhet till några få indikatorer, de bidrar till en förståelse av det akademiska jaget som en produkt som i konkurrens med andra verkar på en marknad och de riskerar att ersätta kollegiala omdömen och inomdisciplinära konversationer med algoritmer. Vidare så finns det konsekvenser av spelifiering – till exempel målförskjutning och fusk – som knappast gynnar forskningen. Med detta sagt bör det dock framhållas att tjänster som GS också har sociala- och kommunicerande funktioner, och de alternativa mått som tillhandahålls av dessa plattformar kan också användas för att ifrågasätta rådande indikatorer och normer. Kvantifiering av det egna jaget kan således vara ett sätt att ta kontroll över hur man själv värderas.

Oavsett hur vi betraktar akademisk självkvantifiering så finns det anledning att noggrant följa hur dessa plattformar, som hittills setts om ganska oskyldiga ‘Facebook för akademiker’, utvecklas. Forskningen kring bibliometrins effekter har främst inriktat sig på att studera konsekvenserna av institutionaliserad utvärdering, men kanske ligger deras största påverkan i det självpåtagna och lekfulla mätandet av det egna jaget.

Grattis på födelsedagen Google Scholar!

Idag för tio år sedan så introducerades Google Scholar (GS). Relativt snart etablerade sig tjänsten som ett viktigt redskap i sökandet efter litteratur; idag säger 60% av forskarna att de använder GS regelbundet och för många, inklusive mig själv, är det den viktigaste söktjänsten. GS omfattar ett stort antal publikationer; nyligen publicerades en studie som räknar till ungefär 160 miljoner indexerade dokument. Detta gör den till den överlägset största söktjänsten för vetenskaplig litteratur.

Google Scholar har inte bara revolutionerat det sätt på vilket vi söker litteratur utan tjänsten har också starkt bidragit till populäriserandet av bibliometriska mått på författarnivån. Möjligheten att skapa en så kallad Google scholar profile (numera benämnd Google scholar citations) gör att alla forskare på ett enkelt sätt kan samla sina citeringar och raskt jämföra med kollegor. Denna populära service är en starkt bidragande orsakt till h-indexets dominanta position som mått på en forskares genomslag. GS har därmed stor betydelse för bibliometrins användning på individnivå.

Användandet av data från GS i evalueringssyfte är dock problematiskt på många sätt: datan är inte rensad och innehåller ofta rena felaktigheter, GS skiljer inte på olika typer av citerande dokument då allt från vetenskapliga artiklar och studentuppsatser indexeras, GS är lätt att manipulera och forskare som vill undersöka hur sökmotorn fungerar har liten eller ingen insyn i Googles svarta låda. Ett systematiserat utforskande av Google Scholar har därför starkt begränsats och främst har forskarna studerat, och utvecklat programvara för att analysera, citeringar på individnivå. Jämförelser mellan länder, universitet och ämnen har dock varit nästintill omöjliga att genomföra.

Dock ska det framhållas att GS också har många fördelar gentemot traditionella citeringsindex. Täckningen, speciellt inom samhällsvetenskap och humaniora, är avsevärt mycket större jämfört med Web of Science och Scopus. Detta åskådliggörs i en nyligen publicerad lista över författare i Google Scholar som har ett h-index över hundra. I sammanhanget bör det beaktas att man i denna lista räknat översatta verk som unika publikationer vilket framstår som högst problematiskt när h-index ska beräknas. GS gör det också möjligt att samla citeringar till böcker och bokkapitel. Vidare är databasen inte begränsad till engelskspråkiga dokument även om dessa är dominerande.

Under min tid som forskare har Google Scholar alltid funnits där som en första, och det må erkännas, alltför ofta enda ingång till den vetenskapliga litteraturen. Det är därför svårt för mig att bedöma dess vidare inflytande på forskares sökbeteende. Jag är dock övertygad om att tjänsten haft stor betydelse för hur vi söker efter litteratur, men också på hur vi bedömer källors trovärdighet och relevans. Säkerligen har GS också haft inverkan på hur vi värderar vårt eget inflytande i forskarsamhället, och tjänster som Google Scholar Citations kan nog med rätta anklagas för att föda en viss narcissism.

Trots Google Scholars brister, och dess ibland tveksamma inflytande, så är det inte en tjänst jag skulle vilja vara utan. Så låt oss därför hoppas att GS nu växer ur sina barnsjukdomar, och öppnar sin svarta låda så att åtminstone några av de uppenbara bristerna undanröjts till 20-årsdagen.

108 bibliometriska indikatorer men ingen av dem duger

I en nyligen publicerad översikt författad av Lorna Wildgaard, Jesper Schneider och Birger Larsen så kartläggs och granskas 108 bibliometriska indikatorer utvecklade för att mäta produktivitet och genomslag på individnivå. Över hundra indikatorer — och då har de ändå bara fokuserat på författarnivån och på indikatorer som fokuserar på publikationer — ger verkligen substans till yttranden om ett överflöd av mått (A profusion of measures). Författarna konstaterat också att vi bevittnat en explosiv ökning av bibliometriska indikatorer för utvärdering av enskilda forskare under senare år, trots att många bibliometriker starkt ifrågasätter möjligheten till att överhuvudtaget använda bibliometri på individnivå. Orsaken till denna utveckling kan nästan uteslutande spåras tillbaka till fysikern Jorge Hirsch och det av honom introducerandet h-index (2005). H-indexet blev snabbt mycket populärt och orsaken till detta är troligtvis att det är så enkelt att räkna ut: h-index för en forskare är det antal publikationer (h) av forskaren som citerats minst h gånger. En forskare som författat 7 artiklar som citerats minst 7 gånger vardera ger h-index 7. Måttets genomslag förstärks också av att det automatiskt räknas ut för den som har en Google Scholar profil, och utvecklandet av program som Publish or Perish vilket kan användas för att kalkylera h-index och liknande mått har ytterligare bidragit till h-indexets populäritet. H-index fortsätter att vara det kanske mest populära måttet för att mäta forskningsproduktion på individnivå trots att ingående kritik riktats mot indikatorn. Bland annat så anses måttet vara instabilt för forskare som publicerat mindre än 50 publikationer och det bör inte användas för att jämföra forskare från olika discipliner eller forskningsfält. Vidare missgynnar det författare som publicerar selektivt, unga forskare och kvinnor. Dock verkar h-index fungera relativt bra för äldre manliga forskare som verkar i fält med hög citeringsfrekvens.

Förutom h-indexet så är Journal Impact Factor (JIF) kanske det mest välkända bibliometriska indikatorn och även denna används på individnivå. Detta trots att JIF är utformad för att mäta en tidskrifts inflytande men också i denna bemärkelse är måttet ifrågasatt och ett flertal alternativa indikatorer har föreslagits. Korfattat så anger JIF medeltalet för det antalet citeringar som artiklarna i en tidskrift får under två föregående år. Det innebär att artiklar i en tidskrift med en impact factor på 10 i medeltal citeras 10 gånger under de två år som föregår det år när mätningen görs. Dock säger detta mycket lite om kvaliteten på enskilda artiklar då vi vet att fördelningen av antalet citeringar inom en tidskrift är mycket skev — ett fåtal artiklar är högt citerade samtidigt som en stor del citeras mycket lite eller inte alls. Att en forskare publicerat i en tidskrift med hög JIF är en indikation på författarens förmågan att bli publicerad i tidskrifter med hög status, men det säger mycket lite om inflytande. Vidare finns det tecken på att betydelsen av en hög JIF börjar spela ut sin roll både för forskare och tidskrifter (The demise of the Impact Factor) och kampanjer, likt den som initierad av DORA 2013, spelar här en roll.

Men h-indexet och impact factorn är bara några i en lång rad av mått som behandlas i studien och dessa har delats in i fem grupper: indikatorer baserade på publiceringsvolym, indikatorer som bygger på tidskriftsmått (t.ex. Impact Factor), indikatorer som mäter effekt (t.ex. antalet citeringar), indikatorer som rankar publikationer inom en författares production (t.ex. h-index) samt indikatorer som rankar publikationer över tid. Alla mått har sedan granskats och bedömts utifrån två faktorer: hur svårt det är att samla data samt hur komplex indikatorn är. Mått där datan är svår att få tag på för den enskilde forskaren och där metodologin är för komplicerad bedöms därmed vara för svåra att operationalisera för slutanvändaren. Användarbarhet är således av central betydelse för att bedöma en indikators duglighet.

Givetvis har problemen med etablerade indikatorer såsom h-index och Journal Impact Factor get upphov till en rad av förslag på förbättringar, och rivaler till h-indexet såsom a-index, b-index, f-index, g-index, m-index, r-index, t-index, w-index och z-index, har föreslagits. Impact factorn har i sin tur utmanats av mått som SNIP (Source Normalized Impact Per Paper) där citeringsfrekvensen normaliserats för att bli jämförbar(are) mellan olika discipliner. Men Wildgaard och kollegor konstaterar dock att dessa mer utvecklande indikatorer ofta är för komplicerade för att verkligen vara ett alternativ till mer etablerade mått. De förordar istället att bibliometriska indikatorer, såsom impact factorn eller h-indexet, alltid ska akompanjeras av andra kompletterande mått. Detta då inget av de 108 indikatorerna på ett heltäckande sätt kan sägas representer det inflytande som en enskild forskare har. Trots alla denna möda, alla dessa beräkningar, normaliseringar och kvantifieringar så kvarstår problemet att forskare och administratörer väljer indikator baserat på användbarhet och tillgänglighet. Att utveckla mer avancerade indikatorer är alltså inte lösningen, och då det gäller att bedöma enskilda forskares bidrag till vetenskapen så går det inte att bortse från att den mest grundläggande ‘indikatorn’ fortfarande är traditionell och tidskrävande kollegial bedömning.

För den som ytterligare vill fördjupa sig i bibliometriska mått och deras användning på individnivå så rekommenderar jag att ta en titt på sidan för EU-projektet ACUMEN (Academic Careers Understood Through Measurements and Norms).