
Fysikprofessorn Jorge E. Hirsch tvekade, var verkligen den relativt simpla metod för att utvärdera forskare som han skissat på något att publicera? I början på augusti 2005 bestämde sig Hirsch och skickade in det fyra-sidiga manuskript där det index som skulle bära hans namn beskrevs. Hirsch kreation var ett kombinerat mått som påstods mäta både produktivitet och inflytande, och för den som kvickt ville jämföra forskares prestationer så var indikatorns enkelhet lockande. H-indexet blev således snabbt mycket populärt, inte minst eftersom det var enkelt att räkna ut: h-index för en forskare är det antal publikationer (h) av forskaren som citerats minst (h) gånger. Den som författat 7 artiklar som citerats minst 7 gånger vardera har således ett h-index 7. Trots omfattande kritik har måttet fått en central position, om än omstridd, när forskare utvärderas. Rentav har h-index kommit att symbolisera en era präglad av ett stort fokus på mätning och utvärdering av vetenskapen och dess företrädare. Under senare år har också ett allt större vetenskapssociologiskt intresse riktats emot de effekter som det ständiga utvärderandet och mätandet får. Leder mätandet till genuint bättre kvalité på forskningen eller enbart till överproduktion av relativt meningslösa publikationer? Och hur formar utvärderingen karriärer och akademiskt arbete: Ger de goda incitament och neutrala spelregler, eller resulterat de i en individcentrerad tävlan efter mätbara prestationer som uppmuntrar till fusk och manipulering? Dessa frågor kommer dryftas nedan utifrån nedslag i en internationell diskussion kring mätningens konsekvenser inom akademin.
Även om h-indexet är ett relativt nytt påfund så är själva räknandet av publikationer inom akademin knappast något nytt. Tidiga exempel på hur akademiska lärare bedömts utifrån sina publikationsmeriter sträcker sig tillbaka till det moderna universitets födelse i Tyskland, och under det tidiga 1800-talet sägs ryska professorers lön ha varit direkt avhängig den årliga produktionen av vetenskapliga alster. Ursprunget till de mått som idag fått en stor betydelse kan dock spåras till 1970-talets början. Det var då Eugene Garfield, grundaren av Science Citation Index, lanserade det mått som fick namnet ”impact factor”, vilket i praktiken utgjorde en detaljerad rankning av tidskrifter baserat på hur ofta de citeras under en tvåårsperiod. Det sägs att forskare – innan resultaten fanns lättillgängliga på webben – flockades kring de anslagstavlor där de senaste uppdateringarna kring tidskrifternas noteringar annonserades. Journal Impact factor (JIF), som indikatorn kom att kallas, fick ett snabbt genomslag, och upprepade studier har visat hur forskare inte enbart väljer var de ska publicera sina rön utifrån detta mått, utan också vilken forskning de ska bedriva. Tidskrifterna själva basunerar ut eventuella förbättringar på sina hemsidor och tackar även de författare som bidragit till framgången genom att publicera sig i tidskriften. Slutsatserna från de studier som analyserat impact factorns påverkan är tydlig: Istället för att vara ett sätt att mäta om målet, i detta fall god forskningskvalitet, uppnåtts så har indikatorn blivit ett mål i sig. Det viktigaste för en forskares framtida karriär blir då inte att producera relevant och högkvalitativ forskning per se, utan att frambringa publikationer som kan publiceras i högt rankade tidskrifter.
I den inflytelserika boken What are Universities for? (Penguin Press 2012) liknar Stefan Collini effekterna av mätning och utvärdering vid etablerandet av ett ”Champions League” för universitet. Främst syftar han i detta sammanhang på den omfattande utvärderingsapparat – numera med namnet Research Excellence Framework (REF) – som brittisk akademi regelbundet utsätts för. Omfattningen av REF har ökat genom åren och innehåller numera även delar som söker mäta forskningens samhälleliga påverkan. Själva selekteringen av de verk som ska bedömas är nyckeln för den institution som vill påverka sin rankning. Det kan exempelvis vara taktiskt att bara välja de allra bästa publikationerna, det vill säga de alster som publicerats av topprankade tidskrifter och förlag. Detta i sin tur leder enligt kritikerna till en uppdelning av forskare i ett A- och ett B-lag, där de förstnämnda är de vilkas publikationer räknas och värderas. Eftersom professorer med många “excellenta” publikationer blir särskilt värdefulla har även en sorts transfermarknad för akademiker etablerats. Konsekvenserna för den enskilda forskarens karriär och för de enheter som bedöms kan vara betydande. Men utvärderingen förändrar inte bara vem som forskar, utan också vad det forskas på. Val av ämne, problem, metod, och teoretisk inramning påverkas av hur utvärderingenssystemen är konstruerade: Ett tydligt exempel, också detta från brittisk akademi, är hur forskare och vetenskapliga projekt som sträcker sig över disciplinära gränser tenderar att missgynnas.
Just de epistemologiska effekterna av utvärderingen står i centrum för Juan Pablo Pardo-Guerras ingående studie The Quantified Scholar: How Research Evaluations Transformed the British Social Sciences (Columbia University Press 2022). Här studeras förändringar inom samhällsvetenskapernas ämnesmässiga orientering under mer än 30 år, och hur dessa kan relateras till det omfattande utvärderingsmaskineri som präglat brittisk akademi. Dock ska det betonas, som Pardo-Guerra gör, att det är de institutioner som strävar uppåt som starkast tar intryck av utvärderingssystem och rankinglistor. Kända och välrenommerade universitet som Cambridge eller Oxford befinner sig redan på toppen av statushierarkin och behöver därmed inte den bekräftelse som rankningar av olika slag erbjuder. Slående i all den litteratur som studerar utvärderingarnas och mätandets effekter är hur de nästan alltid tenderar att förstärka vedertagna hierarkier. Detta är dock knappast förvånande med tanke på att traditionell peer review och även citeringar tar sin utgångpunkt i en redan existerande prestigeekonomi inom vetenskapen.
Det verkligt nydanande i Pardo-Guerras ambitiösa ansats är att den kombinerar storskaliga studier avseende disciplinära förändringar i ämnesvokabulären med mer kvalitativa metoder. Detta möjliggör en djupare förståelse av hur utvärderingssystemen påverkar inriktning och fokus inom specifika fält och discipliner. En genomgående slutsats är att utvärderingen resulterat i en ökad homogenisering av forskningens innehåll där institutioner exempelvis inom sociologi tenderar att alltmer likna varandra. Oron för en tilltagande likriktning av vetenskapen har hitintills främst dryftats bland humanister och delar av samhällsvetenskapen. Särskilt har förändringar i hur forskningen kommuniceras – där en ökande andel av engelskspråkiga artiklar framhållits – betraktas som en gradvis förlust av humanioras särart till förmån för de traditioner som präglar samhälls- och naturvetenskap. För Pardo-Guerras undersökning står dock förändringar gällande ämne, teori och metod i centrum. En starkt bidragande orsak till likriktningen är det brittiska utvärderingssystemet fokus på excellens där excellens främst förstås som publikationer i topptidskrifter. Dessa, ofta amerikanska, tidskrifter är i sin tur mycket selektiva i vad de publicerar och för att kvalificera sig så behöver forskningen därför ligga nära en tänkt disciplinär kärna. Liknande observationer, då i en svensk kontext, har gjorts av Anders Hylmö, i Disciplined Reasoning: Styles of Reasoning and the Mainstream-heterodoxy Divide in Swedish Economics (Lund 2018).Inom nationalekonomin är fokus på ett antal topptidskrifter – ibland kallade “de fem stora”– än mer uttalat och de normer som gäller för dessa styr de frågor som ställs och de metoder som används. Tesen om en tilltagande homogenisering av ämnesval och därmed också ett stärkande av disciplinära gränser framstår som väl underbyggd i flera nationella och disciplinära kontexter. Däremot är det svårare, för att inte säga direkt omöjligt att finna direkta kausala kopplingar mellan specifika system för utvärdering, och epistemologiska förändringar i forskningens inriktning. Då vetenskapen är situerad i ett vidsträckt utvärderingslandskap som sträcker sig över både land- och disciplingränser blir det snart omöjligt att urskilja effekten av ett specifikt system. Frågan är alltså om den likriktning som Pardo-Guerra observerar är unik för brittisk akademi, eller som det snarare är ett fenomen som präglar vetenskapen i stort. Dock är det uppenbart att mätandet och utvärderandet, oavsett kontext, leder till att mer produceras av det som räknas, och mindre av det som inte räknas.
Hur kan då mångfalden bevaras och den ökade likriktningen hejdas? I detta hänseende framhåller Pardo-Guerra det lokala akademiska ledarskapet som särskilt betydelsefullt för de effekter som utvärderingen kan tänkas få. När chefer anammar mätandet i den dagliga styrningen av verksamheten leder detta till en ökad påverkan på forskningens fokus. Akademiska ledare som däremot medvetet mildrar utvärderandets effekter kan begränsa effekten av indikatorer och externa utvärderingar. Liknande slutsatser drar Johan Söderlind i sin avhandling A Metric Culture in Academia: The Influence of Performance Measurement on the Academic Culture of Swedish Universities (Kungliga Tekniska högskolan, 2020). Det visar sig nämligen att många chefer intar en medlande position då de kontextualiserar och modifierar specifika indikatorer (exempelvis citeringar eller publiceringspoäng) för att kunna använda dem i ett specifikt syfte. Dessutom verkar det vara så att akademiska chefer ofta litar på sin egen erfarenhet av exempelvis bibliometriska mått när de bedömer deras användbarhet. En övergripande slutsats är att prestationsmått – både gällande utbildning och forskning – betraktas som viktiga och användbara, men enligt de akademiska ledare som Söderlind intervjuat så spelar de sällan en direkt avgörande roll när beslut fattas.
Att utvärdering får effekter är knappast förvånande. Att indikatorer och rankningar inbjuder till strategisk manipulering eller rentav fusk torde inte heller vara någon större överraskning. Otaliga exempel finns dokumenterade i litteraturen, och ett av dessa är Ike Antkare som 2010 var en av de mest citerade forskarna i världen. Med ett h-index på 94 i Google Scholar så placerade han sig förre storheter som Albert Einstein och Alan Turing på listan över de som flitigast referats av andra. Antkare – vars namn ska uttydas “Jag bryr mig inte” på engelska – var dock en påhittad figur. Alla de publikationer som räknades denna fiktiva författare tillgodo hade genererats av ett dataprogram, och därefter accepterats av en uppsjö av tvivelaktiga konferenser och tidskrifter. Exemplet Antkare bör kanske i likhet med många liknande bluffar främst ses som ett raffinerat spratt med de mer tveksamma delar av den akademiska publiceringsindustrin. Samtidigt illustrerar de hur enkelt det är att lura systemet, och manipulationer sker ständigt: Den opportunistiska forskaren kan höja sitt index med hjälp av överdrivet självciterande, den sluge redaktören bilda en citeringskartell, och ett universitet kan rekrytera högt citerade forskare bara för att på så sätt stiga i de omtvistade, men ack så inflytelserika rankningarna av lärosäten. Flera av dessa tvivelaktiga och ibland rent bedrägliga beteenden diskuteras i antologin Gaming the Metrics: Misconduct and Manipulation in Academic Research (MIT Press 2020) där Mario Baigioli och Alexandra Lippman samlat en rad bidrag på temat fusk och manipulering. En gemensam ambition från flera författare i denna volym är att visa på hur en akademi som är allt mer fokuserad på mätning också resulterar i en rad nya sätt på vilken aktörer kan fiffla och luras för att tillskansa sig en fördel. Akademins hierarkier är trögrörliga och för den forskare, tidskrift, eller för den delen det lärosäte som snabbt vill höja sitt anseende utgör manipuleringen av publikations- och citeringsmått en möjlighet att snabbt avancera. Om fusk tidigare främst rörde tillblivelsen av forskning genom exempelvis fabrikationen av data, så rör dessa nya tvivelaktiga praktiker även själva publiceringen och dess mottagande i forskarsamhället.
Det mest oroande är dock inte de exempel på riktiga fuskare eller de raffinerade akademiska spratt som återges i antologin. Visst är den tjeckiska forskare som skapade en hel rad av internationella blufftidskrifter i vilka han publicerade artiklar samförfattade med påhittade forskare upprörande, och exemplen – likt Antkare – på hur system kan manipuleras är både underhållande och illustrativa. Men verkligen bekymmersamt är hur gränsen mellan legitim manövrering utifrån de incitament som mått och indikatorer ger och ren cynisk manipulation alltmer ser ut att suddas ut. Exempelvis kan framväxten av tvivelaktiga tidskrifter (ibland kallade rovdjurstidskrifter) ses som avhängig en logik där publicering i internationella tidskrifter utgör en nu snart universell mall för akademisk framgång. För dem som inte har tillgång till de prestigefyllda titlar som tillhandahålls av stora kommersiella förlag blir mer dubiösa initiativ attraktiva. Som Sarah de Rijcke och Tereza Stöckelova hävdar i sitt bidrag: De tveksamma tidskrifterna utgör inte en motpol till de stora förlagen, snarare drar de en kommersiell logik – där internationell excellens och prestige är det främsta säljargumentet – till sin yttersta spets. Vårt fokus bör alltså inte ligga på att urskilja enskilda fuskare. Snarare är det den akademiska spelplanen i sig som behöver reformeras.
Hur kan då detta ske och vilket hopp finns för en verksamhet som är så pass marinerad i mått, indikatorer och utvärderingssystem? Ett första steg för att åstadkomma förändring är att fundera på hur vi hamnade i denna situation. Guerra-Pardo framhåller att vi inte kan reducera fenomenet av den kvantifierade forskaren till ett senmodernt nyliberalt påfund, även om flera styrningsmodeller säkerligen hämtat inspiration från sådana idéströmningar. Inte heller kan forskarsamhället enbart skylla alla dessa mått och indikatorer på utomstående, snarare har vi själva – likt Hirsch – både skapat mått och indikatorer och dessutom låtit dem få den stora betydelse de nu har. Ett erkännande av vetenskapssamhällets eget ansvar bär också på insikten att forskarna själva har stora möjligheter att verka för förändring. Den betydande kritiken mot mätandet och dess konsekvenser har också resulterat i en rad förslag på hur forskningen kan befrias från ”mätandets tyranni”. Ett svar formulerat av ledande bibliometriker har varit att det inte är metoderna och måtten i sig som är problematiska utan hur de (miss)brukas. Lösningen, enligt exempelvis författarna av volymen Becoming Metric Wise (Chandos Publishing 2018) är istället mer avancerade indikatorer och större expertis. Vi behöver inte mindre mått, utan bättre sådana. Emot en sådan ståndpunkt kan det anföras att fler än 100 olika indikatorer för att mäta enskilda forskares produktivitet utvecklats bara under senare år. Jakten på det perfekta måttet, den mest raffinerade indikatorn kommer att fortsätta, men det är knappast någon lösning på de problem som skisserats ovan. En mer skeptisk hållning, ofta inspirerad av en allmän kritik av mätningens effekter såsom den finns formulerad i exempelvis Jerry Mullers The Tyranny of Metrics (Princeton University Press 2018), eller för den delen i Jonna Bornemarks Det omätbaras renässans (Volante 2018), argumenterar snarare för ett avskaffande av bibliometriska mått överhuvudtaget. Ett sådan position intar exempelvis Olof Hallonsten i en nyligen publicerad artikel med den talande titeln ”Stop evaluating science” där han utifrån en historisk och vetenskapssociologisk analys menar att mätandet är direkt skadligt för vetenskapens autonomi och framåtskridande. En tredje ståndpunkt i denna debatt landar i vad som kan betecknas som en realistisk kompromiss. Utgångspunkten för denna position, som vi kan kalla reformistisk, är att bibliometriska indikatorer bör användas med försiktighet och med en ständig medvetenhet om den kontexten där de appliceras. Det så kallade Leidenmanifestet (2015) förespråkar ett sådant synsätt, och dylika tankar har också fått fäste inom EU där en reformation av hur forskning utvärderas har kopplats till en bredare agenda kring öppen vetenskap. Även Pardo-Guerra syns förespråka ett reformistiskt förhållningssätt, där särskilt kollegial tillit och solidaritet framhålls som centrala för att motverka utvärderingsmaskineriets negativa konsekvenser.
När Hirsch långt senare reflekterade över h-indexets genomslag så fann han en parallell i Goethes litterära ballad om Trollkarlens lärling. Det mått han uppfunnit var nu utanför upphovsmannens kontroll och dess effekter var större än Hirsch någonsin kunnat ana. En liknande uppgivenhet kan säkert många uppleva då de ställs inför den uppsjö av utvärderingar och mätningar som präglar den nutida vetenskapen. Det finns dock hopp. För även om kvantifieringen av forskningen svårligen kan stoppas helt så finns det tydliga tecken på en kritisk agenda fått allt större gehör. Kanske är det trots allt möjligt att bryta kvantifikationens förtrollning.
Denna text är en utökad version av artikeln ”Vetenskaplig variant av jakten på retweets” SvD Under strecket, 1/3 2023.