Skadlig mäthysteri, eller användbart styrmedel? Prestationsmått i svensk akademi

“If you measure things, if you look at things, if you pay attention to things, more things will happen” (akademisk ledare citerad i Söderlind & Geschwind, 2019).

Som citatet ovan förmedlar så händer något när saker räknas och uppmärksammas. En uppdelning, och en prioritering, sker mellan det som ska, och kan, mätas, och det som inte enkelt kan omsättas i numeriska värden. Frågan kring vad som händer vid mätning och utvärdering står i centrum för Johan Söderlinds avhandling A metric culture in academia: The influence of performance measurement on the academic culture of Swedish universities (2020), som försvarades vid KTH den 25 september. I avhandlingen studeras hur prestationsmått fått en allt större betydelse i organisationen av akademiskt arbete, och särskilt fokus riktas mot hur dessa system påverkar verksamheten. I fyra delstudier, vilka också publicerats som fristående artiklar, så studeras mätningens utformning och konsekvenser på olika nivåer i det akademiska arbetet. Några av studierna har en mer komparativ ingång där exempelvis skillnader mellan svensk akademi och andra nordiska länder belyses, medan andra artiklar fördjupar sig i mer specifika fenomen. Det empiriska materialet är rikt, och det gäller även det teoretiska och metodologiska ramverket. Utgångspunkten för själva studien är idén om ett utvärderingssamhälle som delvis kan förklaras av en senmodern organisation av samhället där granskning blivit ett centralt element för hur verksamheter styrs. Överlag ger avhandlingen en god överblick över prestationsmått och deras användning inom akademin, och den utgör också en välskriven introduktion till bärande studier och teorier inom fältet.

I avhandlingen presenterar en rad resultat, och då det är svårt att sammanfatta dem alla så väljer jag här att presentera ett urval av de som jag finner mest tongivande och nydanande. Ett lyckat val i flera av artiklarna är att fokusera på hur ledare (”managers”) inom akademin använder prestationsmått i sitt arbete. Söderlind finner här att många chefer använder mått i styrningen samtidigt som de är medvetna om systemens begränsningar. Inte sällan intar de också en medlande position när de kontextualiserar, och modifierar specifika indikatorer (exempelvis citeringar eller publiceringspoäng) för att kunna använda dem i ett specifikt syfte. Dessutom verkar det vara så att akademiska chefer ofta litar på sin egen erfarenhet av exempelvis bibliometriska mått när de bedömer deras användbarhet. En övergripande slutsats är att prestationsmått – både gällande utbildning och forskning – betraktas som viktiga och användbara, men enligt de akademiska ledare som Söderlind intervjuat så spelar de sällan en avgörande roll när beslut ska fattas.

Söderlinds avhandling behandlar även prestationsmåttens användning på en mer övergripande nivå, och ett viktigt bidrag i avhandlingen är en jämförande studie av de nordiska länderna. I denna kontext framstår Sverige som avvikande då vårt system för att utvärdera forskning skiljer sig från de som återfinns Norge, Danmark och Finland. Dessa länder använder sig av ett likartat system – ofta kallat den “norska modellen” – där poäng ges till publikationer beroende på publikationskanal och vetenskaplig nivå. Sverige däremot har använt sig av en annan modell där en kombination av fältnormaliserade citeringsmått, publikationsvolym och extern finansiering utgjort grunden för att omfördela resurser.1 Här finner Söderlind, helt riktigt, att det poängsystem som används i Danmark, Norge och Finland har större potential att förändra praktiker och publiceringsmönster. Detta då poängmodellen är lättförståelig och enkelt kan användas för resurstilldelning på lärosätes-, institutions-, eller individuell nivå. I sammanhanget kunde det dock varit intressant om Söderlind diskuterat det omfattande användandet av den ‘norska modellen’ på lokal nivå då det visat sig att nära hälften av alla svenska lärosäten har använt, eller använder sig av, liknande poängsystem. Således skulle man med fog kunna hävda att det ‘norska modellen’ haft stor betydelse för hur forskare i Sverige – och då särskilt de inom samhällsvetenskap och humaniora – resonerar kring publicering trots att den aldrig använts för att fördela medel mellan lärosäten.

En tredje aspekt som Söderlind framhåller, och som jag finner nydanande i sammanhanget, är bibliometrins pedagogiska potential. Dessa idéer lyfts i den fjärde artikeln där en specifik årlig utvärdering av forskning vid KTH studeras. Söderlind framhäver här särskilt betydelsen av en tät dialog mellan chefer, de utvärderade, och de som utvärderar (bibliometrikerna). En av bibliometrins främsta pedagogiska potential ligger således i dess förmåga att initiera samtal kring hur forskning bör värderas. Kanske skulle man till och med kunna hävda att bibliometrin utgör en effektiv provokation som frambringar diskussioner kring forskningskvalitet. Dock finns det en risk att sådana provokationer stannar vid en kritik av befintliga mått istället för att leda vidare till mer initierade resonemang. En spännande utveckling på Söderlinds studie vore således att närmare studera hur bibliometrins pedagogiska potential kan utvecklas så att dessa mått inte bara “mäter” kvalité utan också bidrar till att en ökad förståelse för hur vetenskaplig kvalitet kan studeras, och gynnas. En sådan utveckling skulle också ligga i linje med alternativa metoder för att utvärdera forskning, som till exempel idén om ‘evaluative inquiry, vilken syftar till ett mer öppet och utforskande tillvägagångsätt där kvalitativa och kvantitativa metoder kombineras.

Avhandlingen ger en god bild över hur prestationsmått används inom svensk akademi, men efter läsningen återstår ändå en del frågor: Hur ska vi till exempel förstå “mätandets kultur” mer generellt, och kan dess inflytande inom akademin jämföras med andra verksamheter som vård och skola? Har mätandet inom akademin uppstått i samband med ett större fokus på målstyrning inom offentlig verksamhet överlag, eller finns det en längre mer komplex inomvetenskaplig historia kring mätning och utvärdering? Här skulle jag vilja framhålla disciplinernas och de starka professionerna roll i utformandet av dessa system som särskilt intressanta, och potentiellt givande för vidare studier.

Sammanfattningsvis utgör Söderlinds avhandling en övertygande framställning kring akademisk utvärdering där kritik mot överdrivet mätande balanseras mot en förståelse för att indikatorer kan ha positiva effekter, exempelvis vad det gäller effektivitet vid beslutsfattande, transparens, och opartiskhet. Den övergripande slutsatsen i avhandlingen – att dessa mått, åtminstone gällande forskningen, hittills haft ganska modesta effekter – är i mitt tycke välgrundad. På samma sätt delar jag dock Söderlinds farhåga att effekterna av dessa system kan, om de inte hanteras på ett nyanserat och balanserat sätt, bli betydligt mer kännbara i framtiden.

1 I dagsläget är det oklart om Sverige kan sägas ha ett övergripande prestationsbaserat system på nationell nivå då den tidigvarande modellen inte har använts för att fördela resurser under de senaste åren.

Att skilja mellan en elefant och en kanin: Användningen av bibliometri i sakkunnigutlåtanden

Syrischer_Maler_von_1354_001

Impact measures of this kind are inexact and should not, in our view, be relied on for a detailed ranking of research achievements (it could be described as ‘a scale that can distinguish an elephant from a rabbit but not a horse from a cow’). (från sakkunnigutlåtande i nationalekonomi)

Under senare år har ett allt större intresse riktats mot hur utvärderingssystem och resursfördelningsmodeller påverkar forskningen. En central fråga är hur ett ökat fokus på prestationer som är kvantifierbara påverkar forskarnas praktiker och prioriteringar. En rad dokumenterade och möjliga effekter har identifierats på en generell nivå, men empiriska studier av hur bibliometri används vid utvärdering av enskilda individer är få. Dock vill jag påstå att just denna typ av användning, där anställningar och forskningsanslag står på spel, är särskilt viktiga då de har stor påverkan på den enskilde forskarens karriär. Ett problem har dock varit att utvärdering på individnivå är svårt att studera empiriskt, och diskussionen har tidigare främst baserats på enskilda exempel och anekdoter. Inom svensk akademi finns dock ett relativt unikt och omfattande material kring utvärderingspraktiker i form av sakkunnigutlåtanden vid tjänstetillsättningar, och dessa ger unika insikter i hur indikatorer används.

I artikeln, Indicators as judgment devices, studerar Alex Rushforth och jag just hur sakkunniga använder indikatorer och tidskriftsrankningar för att värdera och rangordna sökande till lektorat och professurer inom biomedicin och nationalekonomi. Dessa dokument ger oss unik inblick i hur bibliometriska mått används för att värdera enskilda forskare, och de ger också insikt i hur specifika indikatorer integreras i disciplinspecifika värderingspraktiker. Denna aspekt är särskilt intressant då prestige och position inom akademin till stor del styrs av status inom disciplinen, snarare än av status inom den organisation där forskaren är anställd.

I redovisningen av våra resultat bör det framhållas att långt ifrån alla sakkunniga använder sig av indikatorer, och knappt hälften av de utlåtanden som vi studerat (82 av 188) använde sig av bibliometriska mått eller tidskriftsrankningar. Ett återkommande argument bland de sakkunnig som använde sig av bibliometri var måttens ‘objektivitet’:

A bibliometric analysis was carried out to assess the scientific production and even more importantly, the real scientific impact of each applicant.” (utlåtande i biomedicin)

Generellt introducerades dock citeringsdata, eller ‘impact factorer’, utan någon vidare motivering. Vår tolkning är att de sakkunniga använder indikatorer som en typ av ‘utvärderingsverktyg’, och här bygger vi på Lucien Karpik (2010) och hans teori om ‘judgment devices’. Dessa används i situationer när konsumenten (i detta fall granskaren) behöver välja mellan en rad produkter (här kandidater) som inte helt enkelt kan jämföras. Ett exempel som Karpik tar upp är valet av husläkare eller värderingen av ett litterärt verk, och vi menar att forskare kan ses som ett ytterligare exempel på en ‘vara’ vars värde inte helt enkelt kan fastställas. I situationer där det finns en uppsjö av goda kandidater, vilket är fallet i många av de tillsättningsärenden vi studerat, så blir  ‘judgment devices’ också ett sätt att lösa en situation där ett överflöd av möjliga alternativ finns.

Journal Impact factor

Den mest kända, inflytelserika och samtidigt häftigt kritiserade bibliometriska indikatorn är utan tvivel Journal Impact Factor (JIF), som introducerades av Eugene Garfield redan 1963. JIF används flitigt också i vårt material, främst inom biomedicin men också inom nationalekonomi, och ofta introduceras den för att bedöma ‘kvaliteten’ på publicerade alster: 

…but it is a bit bothersome that many of the recent publications that XXXX has been principal investigator on are found in more narrow journals, as for example Scandinavian J Immunol. (Impact approx. 2.3). (utlåtande i biomedicin)

Many of original papers appeared in excellent quality journals and nearly two third [sic] of them were in journals with impact factor greater than 3. (utlåtande i biomedicin)

I många fall, likt exemplen ovan, så används JIF som ett riktmärke för vad som ska betraktas som bra tidskrifter och en undre gräns för kvalité på runt 3 verkar gälla inom biomedicin. I nationalekonomi är det betydligt svårare att finna en exakt gräns, även om sakkunniga föreslår 0.5 samt 0.9 som möjliga riktvärden.  Sammantaget är  det otvetydigt att JIF:en är viktig vid bedömningen av forskning inom biomedicin, och många av de utlåtanden som inte explicit använder sig av måttet hänvisar till ‘high impact journals’.

Ett annat beryktat, och vid utvärderingen av individuella forskare särskilt intressant mått, är det så kallade ‘h-index’. Till skillnad från JIF, som mäter tidskrifters genomsnittliga citeringsgrad, så är h-index ett försöka att sammanfatta en forskares produktivitet och inflytande över tid. En forskare med h-index x har författat x publikationer som citerats minst x gånger, dvs. en forskare som har författat 12 publikationer som vardera citerats 12 gånger eller fler har ett h-index på 12. I vår studie används h-index vanligtvis som ett slags bakgrundsinformation, likt affiliering, ålder, kön, och ofta anges det utan vidare kommentarer som här:

XXXX publishes in good to very good journals including Plos Genetics, FASEB J, and Mol Biol Cell. H–factor=18. (utlåtande i biomedicin).

H-index blir vad vi kallar en ‘totaliserande indikator’ där en hel karriär kan sammanfattas i en siffra, och vi finner också att måttet i flera fall sammanfaller med den sammanvägda bedömningen av kandidater.

Om citeringar och JIF är populära utvärderingsverktyg inom biomedicinen så tenderar nationalekonomer att bedöma artiklars ‘värde’ utifrån klassifikationer av, och listor över, tidskrifter. En bedömare uttrycker det mycket klart:

“A university that aims to compete at the first or second tiers in Europe should expect its full professors to show the ability to publish at least a few articles in the best journals in the field. Publishing a paper in a top finance journal requires a degree of effort, awareness of the latest thinking in the field, and excellence, which any number of articles in journals below second tier could not match. (utlåtande nationalekonomi)

Det flitiga användandet av tidskriftsrankningar – vi fann hela fem olika listor i vårt material – kan relateras till att det nationalekonomiska fältet tenderar att organisera sig hierarkiskt. En annan förklaring är att citeringar och JIF generellt fungerar sämre inom nationalekonomin jämfört med biomedicin där omsättningen av artiklar och citeringar är högre.

I vårt material finns också tydliga exempel på hur indikatorer kan kombineras och jämföras, och det är inte ovanligt att sakkunniga uppvisar goda kunskaper i bibliometri. I exemplet nedan så jämförs h-index med det totala antalet citeringar för att ge en mer nyanserad bild av kandidaten:

Of 44 published papers she is 1st author on 12 and senior author on 20. She has a surprisingly low citation rate, albeit with a high h–index (Max citation <60 in 2010, h–index 17, Web of Science). (utlåtande i biomedicin)

Vad den sakkunnig menar med låg citeringsgrad är att denna kandidat har publicerat många publikationer som refererats av andra (högt h-index), men hon saknar publikationer med mycket hög citeringsgrad (max citation <60). Att författarordningen är en viktig aspekt inom biomedicin framgår också i detta citat; det är första och  sista positionen som räknas.

Ett ännu tydligare exempel på hur kandidater, men också olika typer av indikatorer, jämförs är tabellen nedan där en rad kvantifierbara data kring författarskap, publikationer och citeringar sammanställts.

Fig 1 anonymized                                                                                                            (från utlåtande i biomedicin)

Här rör det sig om en ambitiös sakkunnig som har goda kunskaper i bibliometri; tabellen ackompanjeras av inte mindre än åtta fotnoter som förklarar de enskilda måttens betydelse och svagheter. En intressant detalj är att den sakkunnige använder sig av medianvärdet gällande citeringar snarare än medelvärdet, och det är en praktik som är statistiskt välgrundad då distributionen av citeringar ofta är mycket skev.

Sammanfattningsvis menar vi att bibliometriska indikatorer i dessa sammanhang bör förstås som ‘utvärderingsverktyg’ som är välintegrerade i disciplinära utvärderingspraktiker, och beroende på hur fältet är organiserat kommer olika typer av indikatorer, till exempel citeringar inom biomedicin eller tidskriftsrankningar inom nationalekonomi, att bli dominerande. Tidigare bibliometrisk forskning har i nedlåtande ordalag referat till denna typ av bibliometrisk praktik som ‘amatörmässig’ och varnat för dess utbredning. Vi vill dock påstå att de sakkunniga i dessa dokument ofta framstår som relativt kunniga gällande indikatorernas styrkor och svagheter. Vidare så besitter de en unik kompetens jämfört med professionella bibliometriker då de har kunskap om vilket värde dessa mått tillskrivs inom den egna disciplinen. Vår ståndpunkt är dock inte att användningen av bibliometri i dessa sammanhang är oproblematisk, och liksom Leidenmanifestet så menar vi att indikatorer av detta slag bör användas med stor försiktighet på individnivå. Att helt avfärda dessa mått som direkt olämpliga i alla sammanhang vore dock förhastat, och vi bör komma ihåg att bibliometrisk utvärdering också kan framhålla grupper, till exempel kvinnor, som ofta missgynnats i traditionell peer review.

Bild: Kalîla und Dimma von Bidpai: Der Hase und der Elefantenkönig vor dem Spiegelbild des Mondes in der Quelle, By Syrischer Maler von 1354 [Public domain], via Wikimedia Commons

Det danska undret och den svenska forskningspolitiken

Danskar

Under de senaste åren har trenden varit tydlig: Sverige presterar betydligt sämre än Danmark sett till forskningens internationella genomslagskraft (läs citeringar i Web of Science). Danmark presterar nu i klass med andra ledande europeiska nationer som Nederländerna och Schweiz, samtidigt som svensk forskning tappat mark från början av 1990-talet och framåt. Utvecklingen, som påvisats i flera undersökningar, illustreras bland annat i Vetenskapsrådets rapport Forskningens framtid!  där följande diagram som visar andelen högt citerade publikationer i jämförelse med världsgenomsnittet återfinns (s.12)

VR1534_Svensk-vetenskaplig-produktion_web

Dessa resultat har i en svensk kontext renderat i två centrala forskningspolitiska frågor: Hur kommer det sig att danskarna presterar så bra, och hur kan svensk forskning komma ikapp, eller till och med förbi? Den senare frågan har diskuterats flitigt under senare år. Den mest omfattande studien Fostering Breakthrough Research är författad av Gunnar Öquist och Mats Benner och de listar en rad olika förklaringar. Här återfinns också direkta förslag på hur svensk forskning kan förbättras. Några punkter som dessa författare trycker på är:

  1. Att andelen basanslag är högre i framgångsrika forskningsnationer som Danmark, Nederländerna och Schweiz.
  2. Universiteten i de mer framgångsrika länderna tar större ansvar för att själva bedöma och belöna kvalité’. Det akademiska ledarskapet är också starkare utvecklat och mer framåtblickande.
  3. Det svenska systemet saknar tydliga karriärvägar (tenure track) vilket däremot finns i Nederländerna och Schweiz.

Därtill pekar de på en rad andra faktorer som hämmande för utvecklingen av svensk forskning. Till exempel bristande rörlighet mellan lärosätena (mobilitet) och behovet av en ökad internationalisering av svensk forskning. Den starkaste slutsatsen från rapporten är dock att resurserna för forskning bör omdirigeras från externa projektanslag till basanslag.

Frågan kring svenska forskning och dess ställning internationellt har också varit ämnet för en serie radioreportage från Vetenskapsradion, där en rad framgångsrika länder – Nederländerna, Danmark och Schweiz – varit i fokus. Skillnader i forskarnas mobilitet, men också anställningsförhållanden är några av de faktorer som togs upp i programmen. Noterbart är att det i Danmark är lättare att få fast anställning, men att det också är lättare att som akademiker få sparken. En fördel med ett sådant system är att staplandet av tidsbegränsade projektbaserade anställningar i högre grad kan undvikas. Frågan är dock om ett sådant system är möjligt, eller ens önskvärt, i en svensk kontext där anställningstrygghet värderas högt.

De ambitiösa rapporter och utredningar som jämfört förhållandena i Sverige med förutsättningarna i mer framgångsrika nationer innehåller alla viktiga och relevanta synpunkter på hur svenska forskningspolitik bör bedrivas. Men trots att studierna i många fall är välförankrade i aktuell forskning så skulle jag vilja påstå att de till viss del ändå famlar i mörker. Det finns främst två anledningar till detta; för det första så är forskningsresultaten på området ofta motsägelsefulla och den reform som fungerar i en specifik kontext behöver inte göra det i en annan. Ty även om vetenskapen alltmer är internationell så är organisationen och finansieringen av densamma företrädesvis nationell. En annan begränsning är att en majoritet av alla analyser av relationen mellan forskningspolitiska reformer och vetenskapligt genomslag fokuserar på en eller kanske två faktorer, men förmodligen är det så att kombinationen av hur forskningen leds, organiseras, finansieras och utvärderas är av avgörande betydelse. Det forskningspolitiska systemet är mycket komplext, och vilket inflytande enskilda faktorer har är mycket svårt att fastställa.

I ett av de mer ambitiösa försöken att förstå den danska framgångssagan framhålls just den rätta kombinationen av flera faktorer som en möjlig förklaring, även om författarna avhåller sig från att ge några definitiva svar. Genom en omfattande studie av det danska forskningslandskapet visar Aagaard och Schneider (2015) hur dansk forskning kom till en vändpunkt under den senare delen av 1980-talet, och sen dess har kurvan pekat uppåt. Utan att peka på en specifik orsak så finner de flera potentiellt bidragande förändringar som ägde rum under 1980-talet och början av 1990-talet. Bland annat så stabiliserades balansen mellan basanslag och externa anslag, det institutionella ledarskapet stärktes, universiteten gynnades på bekostnad av statliga forskningsinstitut, det danska forskningsrådet etablerades och dokorandutbildningen formaliserades och stärktes. Dessa förändringar ledde sedermera till en ökad internationalisering av forskningen och konkurrensen om akademiska tjänster tilltog. Författarna är dock noga med att påpeka att Danmark också presterade väl runt 1980, och de poängterar att det knappast finns en specifik ‘winning formula’. Snarare är det så att receptet för ett gott forskningsklimat skiljer sig både över tid och rum, vilket gör det när omöjligt att direkt överföra den danska erfarenheten till en svenska kontext.

Med detta sagt så är det ändå klart att vi bör ta lärdom av framgångsrika exempel från andra länder, och baserade på dessa koka ihop ett recept som förhoppningsvis vänder Sveriges negativa trend. Kruxet verkar vara att hitta den rätta mixen i forskningssystemet där balansen mellan olika faktorer är avgörande. En reform som dock framstår som nödvändig utifrån kunskapssläget är att höja basanslagen, och detta är också ett förslag som lyfts i flera av de kommentarer (se bland andra RJs, Uppsala Universitets och SUHFs inspel) som duggar tätt inför den kommande forskningspropositionen. Av de tunga aktörerna så är det egentligen bara Vetenskapsrådet som inte lyfter fram frågan om ökade basanslag, utan de föreslår istället mer pengar till forskarinitierade projekt. Deras förslag, bäst karaktäriserat som ”mer av samma”, är märkligt givet att flertalet internationella jämförelser pekar just på den ökade ’projektifiering’ av svensk forskning som ett problem.

Exakt hur den framtida forskningspolitiken utformas återstår att se, men radikala förändringar är knappast att vänta. Att skynda långsamt, hur tråkigt det än må låta, är kanske ändå en förnuftig strategi. För om vi lärt oss något av det danska exemplet så är det att stabilitet över tid, tillsammans med tillräckliga ekonomiska resurser, är två grundläggande förutsättningarna för  ett gott forskningsklimat.

Bilder: Aftonbladet.se samt Vetenskapsrådets rapport Forskningens framtid!