Att skilja mellan en elefant och en kanin: Användningen av bibliometri i sakkunnigutlåtanden

Syrischer_Maler_von_1354_001

Impact measures of this kind are inexact and should not, in our view, be relied on for a detailed ranking of research achievements (it could be described as ‘a scale that can distinguish an elephant from a rabbit but not a horse from a cow’). (från sakkunnigutlåtande i nationalekonomi)

Under senare år har ett allt större intresse riktats mot hur utvärderingssystem och resursfördelningsmodeller påverkar forskningen. En central fråga är hur ett ökat fokus på prestationer som är kvantifierbara påverkar forskarnas praktiker och prioriteringar. En rad dokumenterade och möjliga effekter har identifierats på en generell nivå, men empiriska studier av hur bibliometri används vid utvärdering av enskilda individer är få. Dock vill jag påstå att just denna typ av användning, där anställningar och forskningsanslag står på spel, är särskilt viktiga då de har stor påverkan på den enskilde forskarens karriär. Ett problem har dock varit att utvärdering på individnivå är svårt att studera empiriskt, och diskussionen har tidigare främst baserats på enskilda exempel och anekdoter. Inom svensk akademi finns dock ett relativt unikt och omfattande material kring utvärderingspraktiker i form av sakkunnigutlåtanden vid tjänstetillsättningar, och dessa ger unika insikter i hur indikatorer används.

I artikeln, Indicators as judgment devices, studerar Alex Rushforth och jag just hur sakkunniga använder indikatorer och tidskriftsrankningar för att värdera och rangordna sökande till lektorat och professurer inom biomedicin och nationalekonomi. Dessa dokument ger oss unik inblick i hur bibliometriska mått används för att värdera enskilda forskare, och de ger också insikt i hur specifika indikatorer integreras i disciplinspecifika värderingspraktiker. Denna aspekt är särskilt intressant då prestige och position inom akademin till stor del styrs av status inom disciplinen, snarare än av status inom den organisation där forskaren är anställd.

I redovisningen av våra resultat bör det framhållas att långt ifrån alla sakkunniga använder sig av indikatorer, och knappt hälften av de utlåtanden som vi studerat (82 av 188) använde sig av bibliometriska mått eller tidskriftsrankningar. Ett återkommande argument bland de sakkunnig som använde sig av bibliometri var måttens ‘objektivitet’:

A bibliometric analysis was carried out to assess the scientific production and even more importantly, the real scientific impact of each applicant.” (utlåtande i biomedicin)

Generellt introducerades dock citeringsdata, eller ‘impact factorer’, utan någon vidare motivering. Vår tolkning är att de sakkunniga använder indikatorer som en typ av ‘utvärderingsverktyg’, och här bygger vi på Lucien Karpik (2010) och hans teori om ‘judgment devices’. Dessa används i situationer när konsumenten (i detta fall granskaren) behöver välja mellan en rad produkter (här kandidater) som inte helt enkelt kan jämföras. Ett exempel som Karpik tar upp är valet av husläkare eller värderingen av ett litterärt verk, och vi menar att forskare kan ses som ett ytterligare exempel på en ‘vara’ vars värde inte helt enkelt kan fastställas. I situationer där det finns en uppsjö av goda kandidater, vilket är fallet i många av de tillsättningsärenden vi studerat, så blir  ‘judgment devices’ också ett sätt att lösa en situation där ett överflöd av möjliga alternativ finns.

Journal Impact factor

Den mest kända, inflytelserika och samtidigt häftigt kritiserade bibliometriska indikatorn är utan tvivel Journal Impact Factor (JIF), som introducerades av Eugene Garfield redan 1963. JIF används flitigt också i vårt material, främst inom biomedicin men också inom nationalekonomi, och ofta introduceras den för att bedöma ‘kvaliteten’ på publicerade alster: 

…but it is a bit bothersome that many of the recent publications that XXXX has been principal investigator on are found in more narrow journals, as for example Scandinavian J Immunol. (Impact approx. 2.3). (utlåtande i biomedicin)

Many of original papers appeared in excellent quality journals and nearly two third [sic] of them were in journals with impact factor greater than 3. (utlåtande i biomedicin)

I många fall, likt exemplen ovan, så används JIF som ett riktmärke för vad som ska betraktas som bra tidskrifter och en undre gräns för kvalité på runt 3 verkar gälla inom biomedicin. I nationalekonomi är det betydligt svårare att finna en exakt gräns, även om sakkunniga föreslår 0.5 samt 0.9 som möjliga riktvärden.  Sammantaget är  det otvetydigt att JIF:en är viktig vid bedömningen av forskning inom biomedicin, och många av de utlåtanden som inte explicit använder sig av måttet hänvisar till ‘high impact journals’.

Ett annat beryktat, och vid utvärderingen av individuella forskare särskilt intressant mått, är det så kallade ‘h-index’. Till skillnad från JIF, som mäter tidskrifters genomsnittliga citeringsgrad, så är h-index ett försöka att sammanfatta en forskares produktivitet och inflytande över tid. En forskare med h-index x har författat x publikationer som citerats minst x gånger, dvs. en forskare som har författat 12 publikationer som vardera citerats 12 gånger eller fler har ett h-index på 12. I vår studie används h-index vanligtvis som ett slags bakgrundsinformation, likt affiliering, ålder, kön, och ofta anges det utan vidare kommentarer som här:

XXXX publishes in good to very good journals including Plos Genetics, FASEB J, and Mol Biol Cell. H–factor=18. (utlåtande i biomedicin).

H-index blir vad vi kallar en ‘totaliserande indikator’ där en hel karriär kan sammanfattas i en siffra, och vi finner också att måttet i flera fall sammanfaller med den sammanvägda bedömningen av kandidater.

Om citeringar och JIF är populära utvärderingsverktyg inom biomedicinen så tenderar nationalekonomer att bedöma artiklars ‘värde’ utifrån klassifikationer av, och listor över, tidskrifter. En bedömare uttrycker det mycket klart:

“A university that aims to compete at the first or second tiers in Europe should expect its full professors to show the ability to publish at least a few articles in the best journals in the field. Publishing a paper in a top finance journal requires a degree of effort, awareness of the latest thinking in the field, and excellence, which any number of articles in journals below second tier could not match. (utlåtande nationalekonomi)

Det flitiga användandet av tidskriftsrankningar – vi fann hela fem olika listor i vårt material – kan relateras till att det nationalekonomiska fältet tenderar att organisera sig hierarkiskt. En annan förklaring är att citeringar och JIF generellt fungerar sämre inom nationalekonomin jämfört med biomedicin där omsättningen av artiklar och citeringar är högre.

I vårt material finns också tydliga exempel på hur indikatorer kan kombineras och jämföras, och det är inte ovanligt att sakkunniga uppvisar goda kunskaper i bibliometri. I exemplet nedan så jämförs h-index med det totala antalet citeringar för att ge en mer nyanserad bild av kandidaten:

Of 44 published papers she is 1st author on 12 and senior author on 20. She has a surprisingly low citation rate, albeit with a high h–index (Max citation <60 in 2010, h–index 17, Web of Science). (utlåtande i biomedicin)

Vad den sakkunnig menar med låg citeringsgrad är att denna kandidat har publicerat många publikationer som refererats av andra (högt h-index), men hon saknar publikationer med mycket hög citeringsgrad (max citation <60). Att författarordningen är en viktig aspekt inom biomedicin framgår också i detta citat; det är första och  sista positionen som räknas.

Ett ännu tydligare exempel på hur kandidater, men också olika typer av indikatorer, jämförs är tabellen nedan där en rad kvantifierbara data kring författarskap, publikationer och citeringar sammanställts.

Fig 1 anonymized                                                                                                            (från utlåtande i biomedicin)

Här rör det sig om en ambitiös sakkunnig som har goda kunskaper i bibliometri; tabellen ackompanjeras av inte mindre än åtta fotnoter som förklarar de enskilda måttens betydelse och svagheter. En intressant detalj är att den sakkunnige använder sig av medianvärdet gällande citeringar snarare än medelvärdet, och det är en praktik som är statistiskt välgrundad då distributionen av citeringar ofta är mycket skev.

Sammanfattningsvis menar vi att bibliometriska indikatorer i dessa sammanhang bör förstås som ‘utvärderingsverktyg’ som är välintegrerade i disciplinära utvärderingspraktiker, och beroende på hur fältet är organiserat kommer olika typer av indikatorer, till exempel citeringar inom biomedicin eller tidskriftsrankningar inom nationalekonomi, att bli dominerande. Tidigare bibliometrisk forskning har i nedlåtande ordalag referat till denna typ av bibliometrisk praktik som ‘amatörmässig’ och varnat för dess utbredning. Vi vill dock påstå att de sakkunniga i dessa dokument ofta framstår som relativt kunniga gällande indikatorernas styrkor och svagheter. Vidare så besitter de en unik kompetens jämfört med professionella bibliometriker då de har kunskap om vilket värde dessa mått tillskrivs inom den egna disciplinen. Vår ståndpunkt är dock inte att användningen av bibliometri i dessa sammanhang är oproblematisk, och liksom Leidenmanifestet så menar vi att indikatorer av detta slag bör användas med stor försiktighet på individnivå. Att helt avfärda dessa mått som direkt olämpliga i alla sammanhang vore dock förhastat, och vi bör komma ihåg att bibliometrisk utvärdering också kan framhålla grupper, till exempel kvinnor, som ofta missgynnats i traditionell peer review.

Bild: Kalîla und Dimma von Bidpai: Der Hase und der Elefantenkönig vor dem Spiegelbild des Mondes in der Quelle, By Syrischer Maler von 1354 [Public domain], via Wikimedia Commons

Annonser

FOKUS och riskerna med ”informerad peer review”

Innan jul publicerades Vetenskapsrådets förslag på hur svenska forskning ska utvärderas nationellt. Utvärderingssystemet skall med sex års interval (fyra år inledningsvis) användas för att fördela resurser mellan svenska lärosäten. Enligt planerna ska den första utvärderingen presenteras 2018. FOKUS, som förslaget heter, är till stora delar modellerat efter det system som använts i Storbritannien sedan 1984 (RAE sedan 2014 REF). Delar av utvärderingsprocessen, och då speciellt användandet av bibliometri, är däremot utformat efter det australiensiska systemet ERA (Excellence in Research for Australia).

Reaktionerna kring förslaget har varit delade sedan det presenterades på DN debatt. En replik från Sveriges universitetslärares förbund vände sig mot hela iden kring att utvärdera forskning på detta vis. Invändningen är rimlig då forskningen ständigt blir bedömd; vid tjänstetillsättningar, vid publicering och när ansökningar skickas till forskningsråd. På lärosätesnivå så bedöms och värderas redan svenska lärosäten i ett tjugotal internationella och nationella rankingar. Att hävda att svensk forskning behöver ytterligare konkurrens för att utvecklas framstår därmed som ett relativt ihåligt argument. Det finns också få bevis för att övergripande utvärderingssystem av forskning har någon större kvalitetshöjande effekt (om vi nu överhuvudtaget kan definera och operationalisera “kvalité” i denna kontext). Dock kan publiceringsmönster, åtminstone initialt, påverkas, men ökad internationell publicering eller en större andel tidskriftsartiklar kan knappast i sig sägas vara ett entydigt tecken på högre forskningskvalité. Trots det skrala empiriska underlaget så anses det som självklart att utvärdering alltid är nödvändig och utvecklande. Den mest genomgripande analysen av den rituella betydelsen som utvärderingen fått i alla typer av verksamheter ges av den danske statsvetaren Peter Dahler-Larsen i The Evaluation Society. Där skriver han att det nästintill är omöjligt att vara motståndare till utvärdering i dagens samhälle, men däremot kan man kritisera hur utvärderingen går till. Så låt oss motvilligt godta den dåligt underbyggda tesen att all verksamhet systematisk bör utvärderas då detta garanterar kvalitet och framgång, och istället koncentrera oss på hur forskning ska utvärderas snarare än om den ska utvärderas. Hur står sig då VRs förslag?

Först och främst måste det framhållas att FOKUS är ett förhållandevis brett framarbetat och välunderbyggt förslag, och det inte minst om vi jämför med det nuvarande systemet, byggt på på externa anslag och bibliometriska indikatorer, som infördes 2009. Vidare finns det en tydlig plan för hur modellen ska implementeras, och pilotstudier är inplanerad. En ytterligare fördel med systemet är att det inte bara fördelar resurser utan att det också ger möjlighet till kvalificerad feedback till lärosätena.

FOKUS är dock relativt kostsamt (170 miljoner) jämfört med en bibliometrisk fördelningsmodell, och det finns de som hävdar att resultaten blir snarlika oavsett metod. Det ska dock betonas att kostnaderna faktisk är beräknande i VRs förslag vilket inte alltid är fallet när utvärderingsystem ska implementeras.

Vid ett första påseende så framstår ämnesindelningen som ett potentiellt problem, då många paneler kan tänkas bli så breda att egentliga ‘peers’ knappast kommer göra bedömningen. Detta måste inte vara ett problem om bedömningspanelerna sätts ihop på ett välavägt sätt. Värre är det för tvärvetenskapliga fält som tenderar att missgynnas i system av detta slag då riskerna finns att interdisciplinär forskning hamnar mellan stolarna. Vetenskapsrådet berör denna problematik och säger sig ha infört flera komponenter som ska motverka liknande effekter, men om detta är nog återstår att se. Överlag så diskuteras den omfattande kritik (se bland annat här och här) som riktats mot RAE/REF mycket lite i VRs förslag och kanske vore det lämpligt att tydligare ta tillvara erfarenheterna från det brittiska systemet.

VRs förslag innebär en helomvändning från ett system byggt på bibliometriska indikatorer till en modell där kollegial granskning är dominerande. Dock kommer bibliometrin i form av fältnormaliserad citeringsdata fortfarande spela en avgörande roll för de fält (naturvetenskap och lantbruksvetenskap, teknikvetenskap och medicin) där detta ansetts tillämpligt. En sådan kombination av kollegial granskning och bibliometri kallas för “informerad peer review”. Utgångspunkten är att kollegial bedömning ska kompletteras med bibliometrisk data, och i teorin torde ett sådant system delvis kunna kompensera för de problem som finns med modeller som enbart använder sig av peer review eller bibliometri. Dock finns inga detaljerade instruktioner för hur processen med ‘informerad peer review’ ska gå till. När i processen introduceras bibliometriska mått, och hur presenteras de? Får panelerna hjälp med att tolka data, eller lämnas den över “rå”? Kommer paneldeltagarna informeras om de underliggande premiserna för att bedöma det bibliometrisk underlaget, eller kommer expertis på området anlitas? Risken finns att så kallade “folkteorier” kring citeringars betydelse blir gällande i bedömningssituationen och att ett mer reflekterat förhållningsätt då får stå tillbaka. Att normalisera citeringsdata är nödvändigt men sådana procedurer kan på intet sätt ersätta en djupare förståelse för citeringsmåttets komplexitet.

Potentiellt kan också meningsskiljaktigheter uppstå när panelerna bedömer vetenskapsområden där forskningen kommuniceras på olika sätt. Trots att citeringarna är fältnormaliserade så kan det bli svårt att jämföra mellan skilda forskningsfält, och möjligheten att bli citerad kan också variera avsevärt inom discipliner. Användandet av bibliometri kan därmed leda till att disciplinära avgränsningar stärks och bedömare kan komma att försvara den publicerings- och citeringskultur som de själva företräder.

Slutligen finns det en överhängande risk att det bibliometriska underlaget får en större betydelse än vad som initialt är avsett. När väl siffror, och därmed en implicit ranking, har introducerats så är de svåra att bortse från i vidare diskussioner. Om den kollegiala granskningen ska vara oberoende så bör citeringsdata lämpligen introduceras i slutet av bedömningsprocessen.

Om det nu är så att ett övergripande utvärderingssystem är ofrånkomligt så framstår VRs förslag, med en travestering på Churchills berömda ord om demokratin, som det sämsta förslaget undantaget alla andra förslag. Dock behöver det utvecklas ytterligare och inte minst borde det göras tydligt hur bibliometrin är tänkt att användas. De som fortfarande är kritiska kan trösta sig med att utvärderingssystemen generellt har mindre betydelse än vad vi föreställer oss, och att det säkert snart kommer bytas ut mot en ny och “bättre” modell.

Nio punkter för en bra panel

I min förra bloggpost diskuterades några av de problem som är förknippade med peer review. Frågan är dock hur en panel av granskande forskare ska vara sammansatt för att undvika diskriminering, jäv och tendenser till att gynna det kända och etablerade. Svaret på denna fråga ges i artikeln ”The selection of talent as a group process. A literature review on the social dynamics of decision making in grant panels” som publicerades i Research Evaluation idag. Här listar nämligen författarna van Arensbergen, van der Weijden och van den Besselaar nio punkter för en god beredningsgrupp:

  1. Sätt samman beredningsgruppen så att det finns en heterogenitet bland paneldeltagare; både vad det gäller disciplinär bakgrund, kön, metodologisk inriktning och institutionstillhörighet. Ett sådant tillvägagångsätt reducerar risken för gruppkonformt tänkande.
  2. Se samtidigt till att granskarnas kompetenser överlappar så att de kan kommunicera och samarbeta med varandra.
  3. Ge granskarna information om de andras panelisternas expertis så att de kan värdera varandras kompetens.
  4. Arbeta för en atmosfär som främjar kollegialt samarbete och en god kommunikation mellan granskarna.
  5. Se till att det finns utrymme för delade åsikter och öppna konfliker mellan granskarna. Ge forskare med avvikande åsikter möjlighet att uttrycka dessa. En moderator, som själv inte är involverad i beslutsfattandet, bör övervaka processen och se till att alla får tillfälle att yttra sig.
  6. Låt granskarna ta ett större ansvar för de beslut som fattas genom att till exempel begära rapporter där bidragsbeslut tydligt motiveras. Detta medför att panelerna behöver vara mer explicita i hur beslut fattas samtidigt som förhastade och ogenomtänkta beslut undviks.
  7. Låt moderatorn eller ordföranden ta på sig rollen som ”djävulens advokat” för att lyfta fram alternativa synsätt och undvika hastiga beslut. Moderatorn bör också överse att vikt inte läggs vid irrelevant information eller att personliga intressen hos granskarna styr processen.
  8. Ge granskarna ordentligt med tid och resurser för att utföra ett gott arbete.
  9. Forskare bör belönas för tid och arbete. Uppdrag som granskare bör räknas forskaren tillgodo vid utvärderingar och tjänstetillsättning.

Kanske kan dessa nio punkter vara av nytta för forskningsfinansiärer, som VR och RJ, i arbetet med att tillsätta beredningsgrupper och utforma beslutsprocessen. I läsningen blir det dock tydligt att forskningen inom området är relativt begränsad givet den betydelse som bidragsbesluten har både för forskningen i stort och för den enskilde forskaren. Mer kunskap kring dessa processer krävs men trots diger information kring handläggandet och i vissa fall öppen tillgång till ansökningshandlingar så är transparensen vad det gäller beredningsförfarandet ofta mycket liten (se till exempel VRs beskrivning av en ”öppen” process). Det finns dock exempel på studier som lyckas med att öppna peer review-förfarandets svarta låda och för den som vill fördjupa sig i beredningsgruppernas sociala dynamik, med ett speciellt fokus på disciplinära skillnader i bedömningen av vetenskaplig kvalité, så rekommenderar jag Michèle Lamont’s studie: How Professors Think: Inside the Curious World of Academic Judgment (2009). Här får vi till exempel veta att ekonomer ser bedömningen av forskningsanslag som en förhållandevis enkel process där det gäller att utse vinnare och förlorare (s. 101), samtidigt som filosofer ifrågasätter möjligheten att bli bedömda av forskare utanför den egna disciplinen (64f.). Vår disciplinära bakgrund samt sociala faktorer som kön och ålder påverkar hur vi definierar och bedömer vetenskaplig kvalité. Detta gör att sammansättningen av paneler blir avgörande för de beslut som fattas, och just därför är vidare forskning på området av stor betydelse för arbetet med att utforma beredningsförfaranden och utvärderingsprocesser som är rättvisa, transparenta och framgångsrika i att gynna god och nydanande forskning.

Agnes Wold, peer review och möjligheten till en subversiv bibliometri

I dagens Sommar kunde vi i lyssna till Agnes Wold, professor i klinisk bakterologi och överläkare vid Sahlgrenska akademin i Göteborg. Ett huvudtema i programmet var den studie om peer review och könsdiskriminering som hon tillsammans med kollegan Christine Wennerås publicerade 1997. Studien, med titeln ”Nepotism and sexism in peer review” (Nature, 341-3) visade att kvinnor systematiskt diskriminerades vid ansökningar till Medicinska forskningsrådet. Undersökningen motiverades av att beviljandegraden för kvinnor var under hälften av den för män. Genom att studera peer review-omdömen kunde Wennerås och Wold visa att kvinnor genomgående fick lägre poäng på alla tre kriterier; vetenskaplig kompetens, metodologi och forskningsprojektets relevans. Störst skillnad uppvisades gällande kriteriet vetenskaplig kompetens där kvinnor generellt ansågs sämre än de manliga sökande. I nästa steg av studien tittade Wennerås och Wold på de antal publikationer som de sökande författat, statusen på tidskriften de publicerat i, samt hur ofta de citerats. Sammantaget visade det sig att en kvinna behövde vara mer än 2, 5 gånger så produktiv för att betraktas som jämbördig med en manlig sökande. Studien visade också att vänskapliga kontakter med granskare ökade möjligheten att bli beviljad avsevärt.

Kombinationen av sällan åtkomligt material (peer review-utlåtanden) och bibliometrisk data möjliggjorde forskningen, som fått ett stort genomslag både inom och utanför vetenskapen. Tillsammans med Birgitta Jordansson och Ulf Sandström återkom Wold i debatten när rapporten Hans excellens publicerades 2010. I denna uppföljningsstudie kunde de visa hur senare års excellenssatsningar gynnat män framför kvinnor, och även här spelade bibliometrin en viktig roll.

Wennerås och Wolds artikel citeras ofta som exempel på de problem som finns med kollegial granskning. Den omnämns ofta i bibliometriska tidskrifter och då ofta kopplad till kritik av utvärdering med hjälp av peer review. Mer sällan framhålls studien som ett gott exempel på hur bibliometri kan användas. Ofta kritiseras bibliometriska mått och utvärderingsmetoder för att cementera och förstärka hierarkier och rankingar. Men som Wennerås och Wold förtjänstfullt visat kan ett bibliometriskt angrepssätt vara mycket effektivt även för att ifrågasätta etablerade hierarkier och normer. Studien är således ett utmärkt exempel på möjligheten till en subversiv bibliometri. Faktum är att bibliometriska metoder kan vara ett kraftfullt instrument för att utmana rådande föreställningar och kritisera etablerade system, men ett alltför stort fokus på deskriptiv och evavulerande bibliometri har starkt begränsat utrymmet för mer kritisk forskning.

På det stora hela rekommenderar jag Agnes Wolds sommarprat. Förutom att hon berättar den fascinerade historien om studien ovan så är hennes avlivande av allehanda myter kring föräldraskap – som den om att amning förebygger allergier – mycket hörvärda.