Att överbrygga utvärderingsgapet: humanistisk forskning och bibliometriska mått

Bournemouth_(9453245033)

(Detta är en utökad version av en text som först publicerats på humtanks blogg]

Utvärderingsgapet, en term lanserad av vetenskapssociologen Paul Wouters, illustrerar en ofta förekommande diskrepans mellan det vi värderar högt och det som man kan mäta värdet på. Ett tydligt exempel är försöken att konstruera indikatorer som på basis av publikationer och citeringar skall mäta forskningens kvalité. Även om det idag råder konsensus om att citeringar i bästa fall kan betraktas som en indikation på synlighet och genomslag i forskningssamhället så spelar fortfarande bibliometriska mått en avgörande roll i fördelningen av resurser och vid tillsättningar av akademiska tjänster. Istället för att bedöma utifrån de kriterier som vi anser bäst reflektera kvalité och relevans får tillgänglig data samt enkelheten i genomförande i hög grad styra hur forskning utvärderas.

Diskrepansen mellan bibliometriska mått, exempelvis citeringar, och det de är avsedda att mäta har uppmärksammats inom forskningspolitiken i stort, och vikten av att använda indikatorer på ett ansvarsfullt sätt har alltmer betonats. Ett exempel är det uppmärksammade Leiden Manifesto on Research Metrics, samt DORA, ett världsomspännande upprop mot användandet av ‘Journal Impact Factor’ som mått på kvalité. Kritiken mot bibliometrisk utvärdering har, med rätta, varit särskilt hård från ett samhällsvetenskapligt och humanistiskt håll. Mått som antalet citeringar eller ‘impact factors’ för tidskrifter fungerar generellt dåligt inom humaniora, där publicerings- och citeringsmönster gör att mycket liten del av alla publikationer räknas i sådana system. Modeller likt den norska listan, där även monografier och bokkapitel ger poäng utifrån fastställda kvalitetsnivåer (1 eller 2) har därför blivit populära. Just den norska modellen används också vid flera lärosäten runt om i landet. Vi vet dock mindre om hur enskilda forskare inom humaniora förhåller sig till den uppsjö av bibliometriska indikatorer som finns att tillgå. Till mer etablerade mått som citeringar och tidskriftsrankningar sållar sig nu en grupp av alternativa mått (så kallade altmetrics) samt digitala plattformar som ResearchGate och Academia.edu vilka alla säger sig kunna ge indikationer på forskningens genomslag och synlighet. En första överblick gällande hur forskare inom humaniora i Sverige använder sig av dessa mått och tjänster ges i en nyligen publicerad undersökning, Conflicting measures and values: How humanities scholars in Australia and Sweden use and react to bibliometric indicators, där Gaby Haddow och jag analyserar svaren från 420 humanistiska forskare (varav 263 från Sverige). Generellt fann vi att australiensiska humanister (62 %) i mycket högre grad än svenska (14 %) använde sig av bibliometriska mått och indikatorer. Förklaringen till den stora skillnaden står förmodligen att finna i skillnader gällande språk (engelskspråkiga publikationer är ofta enklare att utvärdera med bibliometri), skillnader i hur forskning och högre utbildning är organiserade i de två länderna, samt i att Australien till skillnad från Sverige har en lång historia av bibliometrisk utvärdering bakom sig. Jämförelsevis fann vi ganska små skillnader mellan olika forskningsområden, men inte helt oväntat visade det sig att discipliner där forskarna i större utsträckning publicerar sig i tidskrifter, exempelvis filosofi, var mer benägna att använda bibliometriska mått.

Noterbart var den uppsjö av metriker och rankingar som forskarna begagnade sig av. Mer etablerade indikatorer såsom citeringar, journal impact factor och h-index (ett individbaserat och starkt kritiserat mått) nämndes givetvis av våra respondenter, men mer alternativa sätt att mäta genomslag, såsom nedladdningar och visningar, förekom också (fig 1).

Fig-2

 

Figur 1. Humanisters användning av indikatorer, datakällor och tidskriftsrankningar

Överlag kan det konstateras att forskarna omges av ett evalueringslandskap där en rik flora av mått finns att tillgå, och det är inte helt ovanligt att dessa jämförs med varandra. Exempelvis kan, såsom i detta australiensiska fall, en mer gynnsam och passande mätmetod spelas ut mot institutionella krav:

Only reason [för att använda citeringar] is to ward off any criticism that journal articles are not in A* or A ranked journals. High citations of articles in decent B-level journals should count for something, even though department policy is to discourage and/or ignore them (Australiensisk forskare, historia och arkeologi).

Flera av våra respondenter riktade skarp kritik mot användningen av bibliometriska mått – i ett av de mer hårda omdömena beskrivs bibliometri som ett: “unholy marriage of market capitalism and Stakhanovist micro-management”. Informanten fortsätter med att likna forskare i detta system vid hönor i bur, som tvingas att producera ett visst antal artiklar varje år. Mindre drastiskt kritik förekom också, och ett flertal forskare, inte minst inom fält som historia och litteraturvetenskap, kopplar bibliometriska indikatorer till mer generella förskjutningar i publiceringspraktiker där den engelskspråkiga tidskriftsartikeln får ökad betydelse. Huruvida dessa förändringar direkt går att härleda till bibliometrisk utvärdering framstår dock som oklart av rådande forskningsläge att döma. Snarare bör vi nog se det som att dessa mått accentuerar en redan pågående utveckling i denna riktning. I sammanhanget får vi heller inte glömma att en del forskare snarare välkomnar de förändringar som bibliometrin sägs påskynda:

Shift to publishing in English and emphasis on publishing in peer review journals (thank god). Hopefully this decreases the degree of laziness among researchers in my field” (svensk postdok, historia och arkeologi).

De bibliometriska måtten blir därmed en del av en diskursiv kamp inom enskilda forskningsfält där traditionella sätt att publicera sig (på svenska, i bokkapitel eller monografier) ställs mot nya praktiker där publicering i en engelskspråkiga tidskrifter framhålls. I delar kan denna fråga ses som en konflikt mellan generationer, och inte minst äldre forskare hänfaller ofta åt nostalgiska betraktelser av en förfluten tid utan bibliometri och publiceringsstrategier:

Fortunately, I am old and consequently I do not have to bother. Had I been young, I would have left academia rather than adjust to the moronic ‘publishing strategies’ forced upon us (svensk, lektor, arkeologi- och historia).

Delvis finns det poänger i detta resonemang; unga forskare är i en mer utsatt position då de ofta har osäkra anställningsförhållanden och de är därför tvungna att tänka mer ‘strategiskt’. Vidare finns det en risk att mer långsiktiga och riskabla projekt överges till förmån för forskning som snabbt kan ge utdelning i form av publikationer och citeringar. Samtidigt döljer utsagor likt dessa att det även förr fanns ‘publiceringstrategier’ där det exempelvis kunde vara av stor betydelse för den yngre forskaren att hålla sig väl med etablerade professorer som i rollen av redaktörer för antologier och bokserier kunde (och fortfarande kan) gynna en begynnande karriär. Vidare är det viktigt att framhålla att dessa två strategier knappast står i direkt konflikt med varandra. Snarare utmärks framgångsrika humanistiska forskare ofta av en förmåga att rikta sig till relevanta publiker både nationellt och internationellt, och inte sällan publicerar de sig i en rad forum och på olika språk.

Även om en del av kritiken mot bibliometrin bör ses som förklädda argument i inomdisciplinära strider så är utvärderandet av humaniora med hjälp av kvantitativa mått problematiskt på flera plan. En given invändning, ofta anförd i litteraturen, är det faktum att humanistisk forskning till stor del inte finns representerad i de bibliometriska databaserna, och detsamma gäller även flera av de alternativa mått som på senare år lanserats. På ett djupare plan är det även så att bibliometriska indikatorer rimmar illa med etablerade kvalitetsbegrepp och värderingspraktiker inom humaniora. En av våra australiensiska respondenter uttrycker det som ett problem i att översätta värden mellan olika sfärer: “… translating our sense of value to people who want quantitative data”. En grundläggande konflikt mellan radikalt olika sätt att tänka kring vetenskapligt värde skönjs här där då de snäva idéer om produktivitet, effektivitet och konkurrens som bibliometrin bygger på svårligen kan appliceras i en humanistisk kontext. Gapet mellan vad bibliometrin mäter och värderar, och vad som vanligen värderas som kvalité inom humanistisk forskning är således stor. Bland svenska humanister har ännu inte heller bibliometriska mått slagit igenom på allvar. Vår studie visar dock att situationen ser annorlunda ut i Australien, där forskarna trots protester och berättigad kritik, använder dessa mått i stor utsträckning.

Hur utvärderingsgapet ska överbryggas i framtiden framstår som oklart: Ska svenska humanister anpassa sig till de metoder som finns tillgängliga (en utveckling som kan skönjas internationellt), eller kan vi behålla och utveckla utvärderingspraktiker som i högre grad inkorporerar en bredare förståelse av kvalité? Min slutsats är att humanisterna inte bör nöja sig med att ihärdigt kritisera rådande kvalitetsmått, utan istället aktivt delta i utformandet av utvärderingssystem som överbryggar det gap som skisserats ovan. En sådan utveckling skulle inte bara gynna humaniora utan även vetenskapssamhället i stort.

Bild: Rafaela Ely (Bournemouth) [CC BY 2.0 (https://creativecommons.org/licenses/by/2.0)%5D, via Wikimedia Commons

Annonser

Att skilja mellan en elefant och en kanin: Användningen av bibliometri i sakkunnigutlåtanden

Syrischer_Maler_von_1354_001

Impact measures of this kind are inexact and should not, in our view, be relied on for a detailed ranking of research achievements (it could be described as ‘a scale that can distinguish an elephant from a rabbit but not a horse from a cow’). (från sakkunnigutlåtande i nationalekonomi)

Under senare år har ett allt större intresse riktats mot hur utvärderingssystem och resursfördelningsmodeller påverkar forskningen. En central fråga är hur ett ökat fokus på prestationer som är kvantifierbara påverkar forskarnas praktiker och prioriteringar. En rad dokumenterade och möjliga effekter har identifierats på en generell nivå, men empiriska studier av hur bibliometri används vid utvärdering av enskilda individer är få. Dock vill jag påstå att just denna typ av användning, där anställningar och forskningsanslag står på spel, är särskilt viktiga då de har stor påverkan på den enskilde forskarens karriär. Ett problem har dock varit att utvärdering på individnivå är svårt att studera empiriskt, och diskussionen har tidigare främst baserats på enskilda exempel och anekdoter. Inom svensk akademi finns dock ett relativt unikt och omfattande material kring utvärderingspraktiker i form av sakkunnigutlåtanden vid tjänstetillsättningar, och dessa ger unika insikter i hur indikatorer används.

I artikeln, Indicators as judgment devices, studerar Alex Rushforth och jag just hur sakkunniga använder indikatorer och tidskriftsrankningar för att värdera och rangordna sökande till lektorat och professurer inom biomedicin och nationalekonomi. Dessa dokument ger oss unik inblick i hur bibliometriska mått används för att värdera enskilda forskare, och de ger också insikt i hur specifika indikatorer integreras i disciplinspecifika värderingspraktiker. Denna aspekt är särskilt intressant då prestige och position inom akademin till stor del styrs av status inom disciplinen, snarare än av status inom den organisation där forskaren är anställd.

I redovisningen av våra resultat bör det framhållas att långt ifrån alla sakkunniga använder sig av indikatorer, och knappt hälften av de utlåtanden som vi studerat (82 av 188) använde sig av bibliometriska mått eller tidskriftsrankningar. Ett återkommande argument bland de sakkunnig som använde sig av bibliometri var måttens ‘objektivitet’:

A bibliometric analysis was carried out to assess the scientific production and even more importantly, the real scientific impact of each applicant.” (utlåtande i biomedicin)

Generellt introducerades dock citeringsdata, eller ‘impact factorer’, utan någon vidare motivering. Vår tolkning är att de sakkunniga använder indikatorer som en typ av ‘utvärderingsverktyg’, och här bygger vi på Lucien Karpik (2010) och hans teori om ‘judgment devices’. Dessa används i situationer när konsumenten (i detta fall granskaren) behöver välja mellan en rad produkter (här kandidater) som inte helt enkelt kan jämföras. Ett exempel som Karpik tar upp är valet av husläkare eller värderingen av ett litterärt verk, och vi menar att forskare kan ses som ett ytterligare exempel på en ‘vara’ vars värde inte helt enkelt kan fastställas. I situationer där det finns en uppsjö av goda kandidater, vilket är fallet i många av de tillsättningsärenden vi studerat, så blir  ‘judgment devices’ också ett sätt att lösa en situation där ett överflöd av möjliga alternativ finns.

Journal Impact factor

Den mest kända, inflytelserika och samtidigt häftigt kritiserade bibliometriska indikatorn är utan tvivel Journal Impact Factor (JIF), som introducerades av Eugene Garfield redan 1963. JIF används flitigt också i vårt material, främst inom biomedicin men också inom nationalekonomi, och ofta introduceras den för att bedöma ‘kvaliteten’ på publicerade alster: 

…but it is a bit bothersome that many of the recent publications that XXXX has been principal investigator on are found in more narrow journals, as for example Scandinavian J Immunol. (Impact approx. 2.3). (utlåtande i biomedicin)

Many of original papers appeared in excellent quality journals and nearly two third [sic] of them were in journals with impact factor greater than 3. (utlåtande i biomedicin)

I många fall, likt exemplen ovan, så används JIF som ett riktmärke för vad som ska betraktas som bra tidskrifter och en undre gräns för kvalité på runt 3 verkar gälla inom biomedicin. I nationalekonomi är det betydligt svårare att finna en exakt gräns, även om sakkunniga föreslår 0.5 samt 0.9 som möjliga riktvärden.  Sammantaget är  det otvetydigt att JIF:en är viktig vid bedömningen av forskning inom biomedicin, och många av de utlåtanden som inte explicit använder sig av måttet hänvisar till ‘high impact journals’.

Ett annat beryktat, och vid utvärderingen av individuella forskare särskilt intressant mått, är det så kallade ‘h-index’. Till skillnad från JIF, som mäter tidskrifters genomsnittliga citeringsgrad, så är h-index ett försöka att sammanfatta en forskares produktivitet och inflytande över tid. En forskare med h-index x har författat x publikationer som citerats minst x gånger, dvs. en forskare som har författat 12 publikationer som vardera citerats 12 gånger eller fler har ett h-index på 12. I vår studie används h-index vanligtvis som ett slags bakgrundsinformation, likt affiliering, ålder, kön, och ofta anges det utan vidare kommentarer som här:

XXXX publishes in good to very good journals including Plos Genetics, FASEB J, and Mol Biol Cell. H–factor=18. (utlåtande i biomedicin).

H-index blir vad vi kallar en ‘totaliserande indikator’ där en hel karriär kan sammanfattas i en siffra, och vi finner också att måttet i flera fall sammanfaller med den sammanvägda bedömningen av kandidater.

Om citeringar och JIF är populära utvärderingsverktyg inom biomedicinen så tenderar nationalekonomer att bedöma artiklars ‘värde’ utifrån klassifikationer av, och listor över, tidskrifter. En bedömare uttrycker det mycket klart:

“A university that aims to compete at the first or second tiers in Europe should expect its full professors to show the ability to publish at least a few articles in the best journals in the field. Publishing a paper in a top finance journal requires a degree of effort, awareness of the latest thinking in the field, and excellence, which any number of articles in journals below second tier could not match. (utlåtande nationalekonomi)

Det flitiga användandet av tidskriftsrankningar – vi fann hela fem olika listor i vårt material – kan relateras till att det nationalekonomiska fältet tenderar att organisera sig hierarkiskt. En annan förklaring är att citeringar och JIF generellt fungerar sämre inom nationalekonomin jämfört med biomedicin där omsättningen av artiklar och citeringar är högre.

I vårt material finns också tydliga exempel på hur indikatorer kan kombineras och jämföras, och det är inte ovanligt att sakkunniga uppvisar goda kunskaper i bibliometri. I exemplet nedan så jämförs h-index med det totala antalet citeringar för att ge en mer nyanserad bild av kandidaten:

Of 44 published papers she is 1st author on 12 and senior author on 20. She has a surprisingly low citation rate, albeit with a high h–index (Max citation <60 in 2010, h–index 17, Web of Science). (utlåtande i biomedicin)

Vad den sakkunnig menar med låg citeringsgrad är att denna kandidat har publicerat många publikationer som refererats av andra (högt h-index), men hon saknar publikationer med mycket hög citeringsgrad (max citation <60). Att författarordningen är en viktig aspekt inom biomedicin framgår också i detta citat; det är första och  sista positionen som räknas.

Ett ännu tydligare exempel på hur kandidater, men också olika typer av indikatorer, jämförs är tabellen nedan där en rad kvantifierbara data kring författarskap, publikationer och citeringar sammanställts.

Fig 1 anonymized                                                                                                            (från utlåtande i biomedicin)

Här rör det sig om en ambitiös sakkunnig som har goda kunskaper i bibliometri; tabellen ackompanjeras av inte mindre än åtta fotnoter som förklarar de enskilda måttens betydelse och svagheter. En intressant detalj är att den sakkunnige använder sig av medianvärdet gällande citeringar snarare än medelvärdet, och det är en praktik som är statistiskt välgrundad då distributionen av citeringar ofta är mycket skev.

Sammanfattningsvis menar vi att bibliometriska indikatorer i dessa sammanhang bör förstås som ‘utvärderingsverktyg’ som är välintegrerade i disciplinära utvärderingspraktiker, och beroende på hur fältet är organiserat kommer olika typer av indikatorer, till exempel citeringar inom biomedicin eller tidskriftsrankningar inom nationalekonomi, att bli dominerande. Tidigare bibliometrisk forskning har i nedlåtande ordalag referat till denna typ av bibliometrisk praktik som ‘amatörmässig’ och varnat för dess utbredning. Vi vill dock påstå att de sakkunniga i dessa dokument ofta framstår som relativt kunniga gällande indikatorernas styrkor och svagheter. Vidare så besitter de en unik kompetens jämfört med professionella bibliometriker då de har kunskap om vilket värde dessa mått tillskrivs inom den egna disciplinen. Vår ståndpunkt är dock inte att användningen av bibliometri i dessa sammanhang är oproblematisk, och liksom Leidenmanifestet så menar vi att indikatorer av detta slag bör användas med stor försiktighet på individnivå. Att helt avfärda dessa mått som direkt olämpliga i alla sammanhang vore dock förhastat, och vi bör komma ihåg att bibliometrisk utvärdering också kan framhålla grupper, till exempel kvinnor, som ofta missgynnats i traditionell peer review.

Bild: Kalîla und Dimma von Bidpai: Der Hase und der Elefantenkönig vor dem Spiegelbild des Mondes in der Quelle, By Syrischer Maler von 1354 [Public domain], via Wikimedia Commons

Det svenska bibliometriska landskapet

map

Röda rektanglar (högskolor), cirklar (universitet) och romber (specialiserade universitet och högskolor) indikerar lärosäten där bibliometri används, gröna de som ännu inte använder bibliometri för medelsfördelning.

Nästintill alla svenska lärosäten använder bibliometri, en rad olika indikatorer och mått är i bruk, och få verkar ha reflekterat kring vad det övergripande målet med dessa system är. Så kan resultaten från en studie som Pieta Eklund, Gustaf Nelhans, Fredrik Åström och jag nyss publicerat sammanfattas. Vi fann att bibliometri används vid 24 av 26 undersökta lärosäten, och fördelningen av medel sker på en rad olika nivåer: fakultet, institution och individ. Bara två lärosäten – Chalmers och Handelshögskolan i Stockholm – avstår från att använda bibliometri. Utan att ha exakta uppgifter kring bruket i andra länder så kan man med fog påstå att detta gör det svenska forskningssystemet till ett av de mest ”bibliometrifierade”. Det finns säkerligen flera anledningar till varför det ser ut på detta sätt, men vår studie pekar specifikt på det nationella system för medelsfördelning som infördes 2009 som en huvudorsak. Flera lärosäten anger också att medelstilldelningen inom lärosätet syftar till förbättra utdelningen i den bibliometriska omfördelning som sker nationellt.

Generellt används tre olika indikatorer vid svenska lärosäten: de som baseras på publikationer, de som använder sig av citeringar och de som bygger på en kombination av de båda. Vanligen väljer mindre högskolor publikationsbaserade indikatorer, inte sällan varianter av det norska systemet där olika publikationstyper ges poäng beroende på typ (tidskriftsartikel, monografi, bokkapitel) och nivå (1 eller 2). Vid de större universiteten är flera olika system parallellt i bruk, och endast Karolinska institutet och KTH fördelar medel enbart baserat på citeringar. Vid några lärosäten, till exempel Umeå, så används bibliometri för att fördela på flera nivåer: mellan fakulteterna, mellan institutioner och mellan individer. Medräknat den nationella nivån så kan alltså en enskild publikation räknas inte mindre än tre gånger, och till detta kan andra typer av mätningar och rankingar adderas.

Umeå

Illustration av system för medelstilldelning vid Umeå universitet (från Hammarfelt, Nelhans, Eklund och Åström, s. 9)

Förutom att kartlägga det utbredda användandet av bibliometriska indikatorer i Sverige så tittade vi också lite närmare på hur de introduceras, dokumenteras och appliceras. Då fann vi bland annat att:

  • bibliometriska fördelningsmodeller ofta införs med argumentet att de används av andra, eller så motiveras de utifrån utvärderingssystem på nationell nivå. Mer sällan ses fördelningsmodellerna som ett verktyg för att uppnå lärosätets egna målsättningar och visioner.
  • resursfördelningssystemen i allmänhet är illa dokumenterade och få, även på ledande administrativa positioner, verkar förstå hur de fungerar.
  • traditionella bibliometriska mått används, inget lärosäte begagnar sig av alternativa mätmetoder (t.ex. altmetri), och tillgänglighet (open access) räknas inte som meriterande i någon modell.
  • modeller som explicit utvecklats för att fördela resurser på aggregerade nivåer används för att utvärdera mindre grupper och i flera fall individer. Detta trots att bibliometrisk expertis relativt entydigt (se till exempel Leidenmanifestet) avråder från sådan användning.
  • vid ett par lärosäten belönas individuella forskare för publikationer där en artikel i ‘rätt’ tidskrift kan ge så mycket som 70.000 kr i tillskjutna forskningsmedel. En praktik som ger tydliga incitament, enligt mitt tycke, för tydliga.
  • vi förvånas över att dessa utvärderingssystem i mycket liten grad själva utvärderas. De införs, ofta utan något större förarbete, och sedan sker ingen uppföljning.

Avslutningsvis kan det konstateras att vi nu kanske nåt en bibliometrins höjdpunkt i Sverige, fler universitet och högskolor än någonsin tidigare använder sig av dessa mätmetoder, och flera har precis lanserat eller utreder möjligheten att införa prestationsbaserad resurstilldelning på bibliometrisk grund. Samtidigt är ett nytt nationellt utvärderingssystem under utredning, FOKUS, och skulle detta införas så lär säkerligen förändringar ske runtom på svenska lärosäten. För är det något denna studie visar så är det att trendkänsligheten är stor inom den svenska forskningsadministrationen.