Administrationen och det ”bibliometriska systemet”: Några klargöranden i den forskningspolitiska debatten

I ett flertal inlägg i SvD framför professor Inger Enkvist hård kritik mot dagens universitet, vår nuvarande forskningspolitik och användandet av bibliometri. Jag finner hennes övergripande syfte lovvärt men liksom en hel del andra inlägg i den forskningspolitiska debatten så är de till stora delar illa underbyggda, anekdotiska och ofta rent felaktiga i sak. Nedan diskuterar jag några av de påståenden som Enkvist gör kring bibliometri. Hennes ensidiga kritik av administrationen är också problematisk men det finns andra som bättre kan granska dessa påståenden.

Låt oss börja med Enkvists inledande beskrivning:

I universitetsvärlden är konkurrensen om forskar- och lärartjänster hård, och allt ska gå fort. Ett nytt problem är att forskningskvaliteten nu direkt hotas av en ökande tendens att bedöma forskare efter antal artiklar mer än deras innehåll, counting, not content, en metod kallad bibliometri. Den här trenden har kallats the utility turn, vilket innebär att universitetens administratörer vill kunna mäta vilken ”nytta” som producerats.” (Forskningskvantitet viktigare än kvalitet, SvD, 11 Juni, 2015)

Forskare har länge bedömts utifrån antalet publikationer, och så skedde långt före utvecklandet av mer formaliserade bibliometriska metoder. Idéhistoriken Peter Josephsson visar i en läsvärd studie att tyska professorer redan vid 1700-talets slut bedömdes och anställdes utifrån antalet publicerade verk. En förteckning av professorer och deras verk, Das gelehrte Deutschland, användes för ändamålet och tanken var att berömda författare med stort rykte skulle locka till sig fler studenter. Här räknandes alla publikationer, även barnböcker, och systemet stötte tidigt på kritik som liknar de argument som framförs i dagen debatt.

‘Utility turn’ är dock för mig, och säkerligen för många andra, ett nytt begrepp som efter Enkvists introduktion kan komma att utmana mer etablerade benämningar som ‘New public management’, ‘Audit Society’ och ‘Evaluation Society’.

Vidare så står det klart att bibliometriska mått spelar en stor roll inom akademin. Däremot kan man fråga sig om dessa mått får allt större betydelse. Till exempel är förslaget på nytt nationellt utvärderingsystem i Sverige, FOKUS, baserat på peer review till skillnad från det nuvarande mer bibliometriskt inriktade. Upprop, som DORA och det nyligen publicerade Leidenmanifestet, pekar också mot en större medvetenhet kring riskerna med bibliometrisk utvärdering.

Debattinlägget fortsätter sedan att diskutera bibliometrins effekter:Utvärderingar från Australien säger att sedan bibliometri införts publiceras fler artiklar, men den sammanlagda kvaliteten har sjunkit, och ändå håller flera svenska universitet på att införa systemet.” (Forskningskvantitet viktigare än kvalitet) Den undersökning som Enkvist refererar till visar att fler artiklar publicerades men deras citeringsgrad (mätt gentemot ett internationellt snitt) minskade. Den säger alltså mycket lite om någon inneboende kvalité. Det finns de som hävdar att kvalité och impact (antalet citeringar) är samma sak, men givet Enkvists vidare argumentation kring citeringar som kvalitetsmått så antar jag att det inte är hennes ståndpunkt:

Man får hoppas att banbrytande nya artiklar citeras ofta, men även här finns risker för snedvridning. En citering kan vara tecken på berömmelse snarare än kvalitet. En forskare kan också öka antalet citeringar genom att skapa en liten ”kartellmed andra forskare som arbetar in hänvisningar till varandra i sina texter. Detta torde ha förekommit även tidigare, men nu upphöjs sådana ovanor till kvalitetsindikatorer.” (Forskningskvantitet viktigare än kvalitet, SvD, 11 juni, 2015) .

Till detta kan vi tillägga att idén om så kallade “citeringskarteller” framförs ganska ofta i debatten kring bibliometri, och visst har de förekommit på tidskriftsnivå. Det finns dock inga indikationer, eller systematiska studier, på att sådana beräknande överenskommelser skulle vara särskilt förekommande på individnivå.

Enkvist är dock väl försiktig när hon skriver att flera universitet håller på att införa bibliometri. Faktum är att en stor majoritet av svenska lärosäten använder bibliometri i någon form (även hennes eget om än inte inom humaniora), och varje enskilt lärosäte har sin egen modell för utvärdering. Låt mig här poängtera: bibliometri är inte ett system utan en samling utvärderingsmetoder och därtill ett forskningsfält i sin egen rätt. Det finns ett flertal olika bibliometriska utvärderingssystem med vitt skilda incitament och beräkningsmetoder.

I tidigare inlägg har också Enkvist också kopplat samman användandet av bibliometri med en ökad makt för administrationen, och det finns givetvis visst fog för en sådan argumentation. Hon skriver bland annat “[a]tt bibliometri blivit populärt hos administrationen har att göra med att forskarna är specialiserade på olika områden som administrationen inte kan bedöma. Ändå vill administrationen ”leda” forskarna genom att tilldela forskningspengar eller forskningstid.” (När administrationen leder forskningen, SvD 20 maj, 2015). En sådan argumentation förbiser dock att en stor del av bibliometrianvändningen sker på initiativ från professionen själv, och att utmåla bibliometrin som ett externt vapen i administratörernas tjänst riskerar att fördumma debatten. Givetvis är användandet av bibliometri sammankopplat med bredare organiskatoriska trender i samhället – se till exempel mitt tidigare inlägg om NPM – men det finns också inomvetenskapliga faktorer som är drivande i denna utveckling. Forskarna är därmed inte bara ett offer för illvilliga administratörer utan i hög grad medskapare av dessa system.

Annons

Så tuktas bibliometrin

I dagens Nature publiceras “The Leiden manifesto” där tio principer för bibliometrisk utvärdering föreslås av en samling ledande bibliometriker och vetenskapssociologer med Diana Hicks och Paul Wouters i spetsen. Manifestet tar sin utgångspunkt i de diskussioner som förts vid bibliometriska konferenser under senare år. Jag har tidigare diskuterat försöken att formulera riktlinjer för användandet av bibliometriska mått, och de principer som nu lanserats är ett viktig steg i denna strävan. Nedan följer de tio principerna i mycket kortfattad form:

  1. Kvantitativ utvärdering ska stödja kvalitativa omdömen. Inte tvärtom.
  2. Mät kvalité och genomslag utifrån institutionens, forskargruppens eller forskarens specifika roll och syfte.
  3. Skydda framstående “lokal” forskning (till exempel inom humaniora).
  4. Bedömningen ska vara transparent. Data samt procedurer ska redovisas öppet.
  5. Den utvärderade ska få möjlighet att granska och revidera den data som ligger till grund för utvärderingen.
  6. Beakta variationer i publicerings- och citeringsmönster mellan vetenskapliga fält vid utvärdering.
  7. Utvärderingar av enskilda forskare bör baseras på kvalitativa omdömen.
  8. Undvik falsk precision (till exempel användandet av tre decimaler vid beräknandet av Journal Impact Factor).
  9. Uppmärksamma utvärderingens systematiska effekter på forskare och institutioner.
  10. Granska och utvärdera bibliometriska indikatorer regelbundet.

Överlag så stämmer dessa principer med väletablerade uppfattningar bland bibliometriker överlag, men det betyder knappast att alla eller ens en majoritet av de utvärderingar som utförs följer dessa principer. Noterbart är dock att principerna nästan uteslutande berör vad som inte bör göras, de begränsningar som bibliometrin har och de risker som finns med ett alltför frekvent användande. Detta trots att flera av författarna företräder institutioner som utför bibliometriska utvärderingar på konsultbasis.

Ett manifest kommer sällan ensamt, och vi ser liknande initiativ även i Sverige. För ett par månader sedan så publicerade Vetenskapsrådet sina “Riktlinjer för användning av bibliometri”. Från Leidenmanifestet känner vi igen formuleringar kring att bibliometrin bör kompletteras med kvalitativa omdömen och VR uttrycker tveksamheter kring mått som h-index och Journal Impact Factor. Riktlinjerna kring användandet av bibliometri på individnivå är dock motsägelsefulla . Å ena sidan skriver man att ”Vetenskapsrådet är mycket restriktivt när det gäller bibliometriska jämförelser mellan individer och använder sig inte av h-index eller liknande indikatorer” (från sammanfattningen), men samtidigt beskrivs hur citeringsdata för alla publikationer där sådan finns automatiskt kommer redovisas i PRISMA. Detta kan man knappast beskriva som restriktiv och reflekterad användning av bibliometri. VR inser givetvis att detta är kontroversiellt och inflikar: ”Forskares meriter ska aldrig bedömas, jämföras eller rankas enbart utifrån bibliometriska data.” (s. 7). Vilken vikt som ska läggas vid bibliometriska mått, huruvida de är komplementerande eller helt avgörande anges dock inte. Det är också, vilket jag påpekat i anslutning till förslaget om nytt utvärderingsystem för svensk forskning (FOKUS), naivt att tro att bedömare kommer kunna bortse från citeringsdata när de väl fått ta del av sådana uppgifter. Risken är att den tekniska möjligheten att automatiskt importera imformation kring citeringar får större konsekvenser än VR avser. Om citeringsdata systematiskt redovisas i PRISMA innebär det att bibliometri på individnivå kan komma spela en högst betydande roll vid bedömningar av forskningsansökningar. Om detta är intentionen så låt gå, men då bör man motivera varför citeringar ska användas vid bedömningen av forskningsprojekt. I nuläget verkar beslutet grundat på den tekniska möjligheten att importera citeringsdata snarare än forskningspolitiska överväganden.

Ett sista exempel på trenden med riktlinjer är ett seminarium kring ‘best practice’ som anordnas av SUHFs bibliometrigrupp och Högskolan i Borås. Här tar man utgångspunkt i de många varierande indikatorer som används vid svenska lärosäten. En rapport författad av Gustaf Nelhans och Pieta Eklund pekar på stora skillnader i hur bibliometrin används för medelsfördelning vid svenska lärosäten och en utökad men ännu ej publicerad studie visar att 24 av 26 undersökta lärosäten använde sig av bibliometri för resursfördelning. Noterbart är att mycket få lärosäten lever upp till de tio priniciper som formulerats i Leidenmanifestet. Bibliometriska mått användes på flera håll för att fördela resurser på individnivå, och överlag är dokumentationen kring systemen bristfällig och transparensen låg. Vid seminariet ämnar man diskutera resultaten från dessa undersökningar. Hur ska de som leverar underlag för dessa utvärderingar förhålla sig till det ibland tveksamma användandet av indikatorer? Finns det behov av riktlinjer? Och vilken kompetens bör krävas av den som utför analysen?

Hur ska vi då förstå författandet av manifest och utformandet av riktlinjer? Först och främst kan vi konstatera att det i hög utsträckning är professionella bibliometriker (dvs de tjänar sitt levebröd på att utföra dessa analyser/utvärderingar) som står bakom dessa dokument. En möjlig förklaring till att dessa skrivelser publiceras just nu är att bibliometrikerna känner sig allt mer ifrågasatta. Det har alltid funnits dem som kritiserat användandet av bibliometriska mått men initiativ som DORA visar på ett alltmer organiserat motstånd. Ett sätt att skapa förtroende är då att urskilja den “goda” bibliometrin från den “dåliga” och på så sätt legitimera fortsatt användande.

Dock vill jag hävda att dessa initiativ inte enbart kan tolkas som en slug taktik för att rädda bibliometrin från dess kritiker utan dessa ansatser är också ett resultat av ett ökat intresse kring bibliometrins effekter. Den forskning som bedrivs kring utvärderingens konsekvenser börjar också ta större plats inom bibliometrifältet i stort, och det finns indikationer på att ett allt mer reflexivt förhållningsätt börjar få fäste även inom de organisationer som utför bibliometriska analyser.

Oavsett vilken förklaringsmodell som man finner mest attraktiv så medför utvecklandet av principer och riktlinjer att dessa frågor aktualiseras och debatteras. Det finns dock en risk att diskussionen stannar vid det praktiska utformandet av indikatorer och att det metodologiska och tekniska kommer att dominera. Istället för att lista problem med nuvarande metoder, indikatorer och tillvägagångsätt så skulle det därför vara värdefullt att ställa mer övergripande frågor: När är bibliometriska metoder användbara och legitima? När utgör bibliometrin ett viktigt komplement till peer review? Och i vilka fall används bibliometrisk mått för att de är lätttillgängliga snarare än därför att de är efterfrågade? Min åsikt är att bibliometrin har en roll att fylla , och då speciellt för att motverka tendenser — konservatism, könsdiskriminering och undertryckande av interdisciplinär forskning —som förknippas med peer review. Att urskilja de tillfällen där bibliometrin inte bara kan användas utan också bör användas är således den fråga som bibliometrikerna och forskarsamhället bör diskutera.

Jämställdhet och vetenskaplig produktion

481px-Granada_Relocation_Center,_Amache,_Colorado.__Feel_My_Muscle__-_(art)_cut_out._Granada_Relocation_._._._-_NARA_-_539913

Könsskillnader gällande vetenskaplig produktion (antalet publikationer) och genomslag (citeringar) har länge varit en tvistefråga inom bibliometrin. En majoritet av undersökningarna kring produktivitet visar att män fortfarande står som författare till fler artiklar än kvinnor, och de citeras också oftare. Det finns dock indikationer på att dessa skillnader håller på att utjämnas då kvinnor, bland yngre forskare, gått om männen vad det gäller författandet av vetenskapliga publikationer. En trend som är logiskt då kvinnor i de flesta utvecklade samhällen överträffar männen vad det gäller nivå och resultat i utbildningssystemet.

Men vilken betydelse har länders utvecklings- och jämställdhetsnivå för kvinnors vetenskapliga produktion? Är det så att könsskillnader inom forskningen är mindre i ett mer jämlikt samhälle? En nyligen publicerad artikel av Sugimoto, Ni och Larivière försöker svara på dessa frågor genom en storskalig studie av knappt fem och en halv miljon artiklar. De finner dock inte några entydiga svar. Upp till en viss nivå så har det relativa välståndet en betydande inverkan på jämställdheten inom forskningen där ojämlikheten är störst i mycket fattiga länder. Men skillnaderna mellan medelrika och mycket rika länder är små. Resultaten gällande jämställdhet ger liknande svar. De mest ojämlika länderna — här återfinns exempelvis Iran där kvinnor är förhindrade att forska inom vissa fält — är också de där forskningen är mest ojämställd. Skillnaderna mellan länder med medelhög jämställdhet och de som rankas högst enligt Gender Inequality Index är  dock mycket liten. Alltså, en grundläggande nivå av utveckling och jämställdhet påverkar jämlikheten inom forskningen men effekten avtar gradvis. Det är dock viktigt att påpeka att studien inte beaktat den totala andelen kvinnor bland forskarna i enskilda länder, och en möjlig förklaring till resultaten skulle då vara att de kvinnor som lyckas ta sig fram i mindre jämställda samhällen är tvungna att prestera på en mycket högre nivå för att överhuvudtaget överleva inom akademin. Det bör också nämnas att studien endast omfattar artiklar indexerade i databasen Web of Science som har begränsad täckning inom samhällsvetenskap och humaniora.

Om vi trots dessa invändningar tar resultaten på allvar så innebär det att könsskillnader inom vetenskapen bara delvis kan skyllas på ett omgivande samhälle. Relativt stora skillnader i jämställdhet mellan discipliner, där ämnen som pedagogik, vårdvetenskap och biblioteksvetenskap uppvisar högre grad av jämställdhet gällande vetenskaplig produktion samtidigt som fysik, ekonomi och filosofi är ämnen där ojämställdheten består, bekräftar att inomvetenskapliga faktorer spelar stor roll. Att just dessa ämnen, med får man säga relativt hög svansföring, är mest ojämställda är kanske inte en slump. En uppmärksammad studie visar nämligen att vetenskapliga fält där idén om ett geni spelar stor roll också tenderar till att vara mest ojämställda. Således kan ojämställdheten inom akademin inte bara skyllas på omgivande strukturer utan skillnader mellan könen är också ett resultat av våra föreställningar kring vad vetenskap är, och vad det innebär att vara en god forskare. Att skjuta hål på föreställningarna om det vetenskapliga geniet, för genierna är nästan alltid män, synes därmed vara en möjlig väg för att minska ojämställdheten inom akademin.

Bibliometrin kan i denna process inte bara erbjuda en beskrivning av rådande strukturer, utan också, som jag skrivit om tidigare, verka subversivt och hjälpa till med att kullkasta könade föreställningar om vetenskaplighet och genialitet. Statististiska studier kan dock bara ta oss en bit på vägen, vilket författarna till studierna ovan också medger, och mer djuplodande kvalitativa ansatser behövs för att förstå, och motverka  ojämställdheten i forskarsamhället.

Bild:”Feel My Muscle” av Iwasaki, Hikaru, 1923-, Photographer (NARA record: 8464103) (U.S. National Archives and Records Administration) [Public domain], via Wikimedia Commons

Vetenskapens Tony Gates? New public management och bibliometrisk utvärdering av forskning

IMG_0171

I den första säsongen av den prisbelönta serien Line of Duty (2012) misstänks kriminalkommissarien Tony Gates för korruption och tjänstefel. Ett av de brott han misstänks för är “stacking”: att överdriva antalet begångna brott vid gripanden för att höja den egna uppklarandegraden. På detta sätt har han bland annat tillskansat sig titeln som “årets polis”. Liknande strategiska beteenden för att uppfylla kvalitetsmått har länge debatterats också inom sjukvården (se till exempel Maciej Zarembas uppmärksammade reportageserie). I kölvattnet av denna debatt har också frågan om hur New Public management och liknande idéer har influerat styrningen av högre utbildningen och forskning diskuterats. Ett problem med denna typ av styrning är att det lätt uppstår konflikter mellan vad professionen anser som viktigast och det som systemen anbefaller. I fallet Tony Gates rör det sig om att prioritera fall som är lätta att lösa, och i sjukvården kan mer ”enkla” behandlingar, som benbrott, prioriteras framför psykologiska åkommor som är svårbehandlade och långvariga. Inom forskningen kan vi se exempel på ’stacking’ när forskare kramar ut så många publikationer ur ett projekt som bara möjligt; så kallad “Salamipublicering” (företeelsen går också under benämningen least-publishable-unit). Vidare kan också mer strategiska överväganden ske då forskare kan tänkas satsa på relativt ’säkra’ eller kortsiktiga projekt som med stor sannolikhet kan utmynna i publicerbara resultat snarare än att satsa på mer riskabel och utdragen men potentiellt mer nydanande forskning.

Denna typ av kvantitativa kvalitetsmått förknippas ofta med New public management (NPM). NPM är på intet sätt ett nytt fenomen, och det finns forskare som hävdar att det rentav spelat ut sin roll i den nya digitala eran. New public management är heller inget entydigt begrepp utan snarare en svepande benämning på hur idéer hämtade från näringslivet har kommit att påverka hur offentliga verksamheter styrs. Storbritannien under Thatcher var ledande i utvecklingen men länder som Australien, Danmark, Nederländerna och Sverige har följt efter. Ekonomen Roland Almquist menar att det finns flera förklaringar till framväxten av NPM. En förklaring är att gamla styrsätt blivit föråldrade i och med införandet av nya informationssystem, och ett annat att ökad press på ekonomisk återhållsamhet inom offentlig verksamhet har lett till en efterfrågan av nya styrredskap. Den mest vanliga förklaringen, åtminstone bland kritikerna, är dock att NPM är ett resultat av högerliberala idéer om marknadens primat. Dock kan NPM också ses i relation till en mer allmän tendens där offentlig verksamhet ska hållas ansvarig (accountable) inför medborgare och skattebetalare.

NPM har inneburit att offentliga verksamheter allt mer har kommit att präglas av tre M: managers, mätning och marknad. (se till exempel Ferlie et al.). Dessa tre M påverkar givetvis akademin i olika grad, och här kommer jag mer specifikt att fokusera på mätning. Det kan dock konstateras att de tre M:en är kopplade: ökad mätning möjliggör administrativ styrning (managers) vilket i sin tur medför att den professionella styrningen ifrågasätts. På senare tid har just professionaliteten varit ett ämne för debatt, och framväxten av ett det ‘administrativa lärosätet’ har länge kritiserats. Den bibliometriska mätningen som vi här intresserar oss för bidrar också, genom mått på individuella prestationer och genom universitetsrankingar av olika slag, till etablerandet av en ‘akademisk marknad’ av publikationer, citeringar och forskare. Dock ska NPM:s verkningar inom akademin inte heller överdrivas – kollegialiteten är forfarande stark på många håll och få andra professioner besitter den autonomi som universitetslärare har. Detta gör sektorn svårstyrd och disciplinära traditioner väger ofta, men inte alltid, tyngre än krav från administrativa system.

En respons på debatten kring NPM inom offentlig sektor är en specifik satsning, utlyst av Riksbankens Jubileumsfond. Med projektet Forskningen granskad: Användningen av prestationsindikatorer för att mäta akademisk forskning, praktiker och effekter har Fredrik Åström och jag förmånen att vara en del av denna ansats som omfattar ett flertal initiativ där bland annat sjukvård, skolor och högre utbildning studeras. Inom detta projekt kommer vi att utforska de system som alltmer används för att ‘mäta forskning’ vid svenska lärosäten, och hur dessa system i sin tur återspeglas i forskarnas praktiker. Har omförhandlingar skett i synen på hur man bedriver sin forskning? Finns det tendenser till att bibliometrisk utvärdering påverkar formulerandet av projekt? Och har förändringar skett vad det gäller publiceringspraktiker? Det finns indikationer på att införandet av prestationsbaserad resurstilldelning har medfört förändringar i hur forskare publicerar, men större och mer omfattande studier krävs.

Det finns alltid exempel, som kriminalinspektör Tony Gates, på individer som utnyttjar luckor i systemet, och att designa utvärderingssystem som helt omöjliggör sådant beteende är knappast görligt. Att addera ytterligare kontrollfunktioner framstår heller inte som rätt väg att gå. Istället bör vi fundera på vid vilka tillfällen utvärdering och detaljstyrning ökar kvaliteten och vid vilka de snarare medför ett ökat fokus på kvantitativ måluppfyllelse. Förhoppningsvis kan projekten i RJ:s satsning bidra med nya insikter i denna fråga.

Foto: Fredrik Åström, Lunds Universitet.

FOKUS och riskerna med ”informerad peer review”

Innan jul publicerades Vetenskapsrådets förslag på hur svenska forskning ska utvärderas nationellt. Utvärderingssystemet skall med sex års interval (fyra år inledningsvis) användas för att fördela resurser mellan svenska lärosäten. Enligt planerna ska den första utvärderingen presenteras 2018. FOKUS, som förslaget heter, är till stora delar modellerat efter det system som använts i Storbritannien sedan 1984 (RAE sedan 2014 REF). Delar av utvärderingsprocessen, och då speciellt användandet av bibliometri, är däremot utformat efter det australiensiska systemet ERA (Excellence in Research for Australia).

Reaktionerna kring förslaget har varit delade sedan det presenterades på DN debatt. En replik från Sveriges universitetslärares förbund vände sig mot hela iden kring att utvärdera forskning på detta vis. Invändningen är rimlig då forskningen ständigt blir bedömd; vid tjänstetillsättningar, vid publicering och när ansökningar skickas till forskningsråd. På lärosätesnivå så bedöms och värderas redan svenska lärosäten i ett tjugotal internationella och nationella rankingar. Att hävda att svensk forskning behöver ytterligare konkurrens för att utvecklas framstår därmed som ett relativt ihåligt argument. Det finns också få bevis för att övergripande utvärderingssystem av forskning har någon större kvalitetshöjande effekt (om vi nu överhuvudtaget kan definera och operationalisera “kvalité” i denna kontext). Dock kan publiceringsmönster, åtminstone initialt, påverkas, men ökad internationell publicering eller en större andel tidskriftsartiklar kan knappast i sig sägas vara ett entydigt tecken på högre forskningskvalité. Trots det skrala empiriska underlaget så anses det som självklart att utvärdering alltid är nödvändig och utvecklande. Den mest genomgripande analysen av den rituella betydelsen som utvärderingen fått i alla typer av verksamheter ges av den danske statsvetaren Peter Dahler-Larsen i The Evaluation Society. Där skriver han att det nästintill är omöjligt att vara motståndare till utvärdering i dagens samhälle, men däremot kan man kritisera hur utvärderingen går till. Så låt oss motvilligt godta den dåligt underbyggda tesen att all verksamhet systematisk bör utvärderas då detta garanterar kvalitet och framgång, och istället koncentrera oss på hur forskning ska utvärderas snarare än om den ska utvärderas. Hur står sig då VRs förslag?

Först och främst måste det framhållas att FOKUS är ett förhållandevis brett framarbetat och välunderbyggt förslag, och det inte minst om vi jämför med det nuvarande systemet, byggt på på externa anslag och bibliometriska indikatorer, som infördes 2009. Vidare finns det en tydlig plan för hur modellen ska implementeras, och pilotstudier är inplanerad. En ytterligare fördel med systemet är att det inte bara fördelar resurser utan att det också ger möjlighet till kvalificerad feedback till lärosätena.

FOKUS är dock relativt kostsamt (170 miljoner) jämfört med en bibliometrisk fördelningsmodell, och det finns de som hävdar att resultaten blir snarlika oavsett metod. Det ska dock betonas att kostnaderna faktisk är beräknande i VRs förslag vilket inte alltid är fallet när utvärderingsystem ska implementeras.

Vid ett första påseende så framstår ämnesindelningen som ett potentiellt problem, då många paneler kan tänkas bli så breda att egentliga ‘peers’ knappast kommer göra bedömningen. Detta måste inte vara ett problem om bedömningspanelerna sätts ihop på ett välavägt sätt. Värre är det för tvärvetenskapliga fält som tenderar att missgynnas i system av detta slag då riskerna finns att interdisciplinär forskning hamnar mellan stolarna. Vetenskapsrådet berör denna problematik och säger sig ha infört flera komponenter som ska motverka liknande effekter, men om detta är nog återstår att se. Överlag så diskuteras den omfattande kritik (se bland annat här och här) som riktats mot RAE/REF mycket lite i VRs förslag och kanske vore det lämpligt att tydligare ta tillvara erfarenheterna från det brittiska systemet.

VRs förslag innebär en helomvändning från ett system byggt på bibliometriska indikatorer till en modell där kollegial granskning är dominerande. Dock kommer bibliometrin i form av fältnormaliserad citeringsdata fortfarande spela en avgörande roll för de fält (naturvetenskap och lantbruksvetenskap, teknikvetenskap och medicin) där detta ansetts tillämpligt. En sådan kombination av kollegial granskning och bibliometri kallas för “informerad peer review”. Utgångspunkten är att kollegial bedömning ska kompletteras med bibliometrisk data, och i teorin torde ett sådant system delvis kunna kompensera för de problem som finns med modeller som enbart använder sig av peer review eller bibliometri. Dock finns inga detaljerade instruktioner för hur processen med ‘informerad peer review’ ska gå till. När i processen introduceras bibliometriska mått, och hur presenteras de? Får panelerna hjälp med att tolka data, eller lämnas den över “rå”? Kommer paneldeltagarna informeras om de underliggande premiserna för att bedöma det bibliometrisk underlaget, eller kommer expertis på området anlitas? Risken finns att så kallade “folkteorier” kring citeringars betydelse blir gällande i bedömningssituationen och att ett mer reflekterat förhållningsätt då får stå tillbaka. Att normalisera citeringsdata är nödvändigt men sådana procedurer kan på intet sätt ersätta en djupare förståelse för citeringsmåttets komplexitet.

Potentiellt kan också meningsskiljaktigheter uppstå när panelerna bedömer vetenskapsområden där forskningen kommuniceras på olika sätt. Trots att citeringarna är fältnormaliserade så kan det bli svårt att jämföra mellan skilda forskningsfält, och möjligheten att bli citerad kan också variera avsevärt inom discipliner. Användandet av bibliometri kan därmed leda till att disciplinära avgränsningar stärks och bedömare kan komma att försvara den publicerings- och citeringskultur som de själva företräder.

Slutligen finns det en överhängande risk att det bibliometriska underlaget får en större betydelse än vad som initialt är avsett. När väl siffror, och därmed en implicit ranking, har introducerats så är de svåra att bortse från i vidare diskussioner. Om den kollegiala granskningen ska vara oberoende så bör citeringsdata lämpligen introduceras i slutet av bedömningsprocessen.

Om det nu är så att ett övergripande utvärderingssystem är ofrånkomligt så framstår VRs förslag, med en travestering på Churchills berömda ord om demokratin, som det sämsta förslaget undantaget alla andra förslag. Dock behöver det utvecklas ytterligare och inte minst borde det göras tydligt hur bibliometrin är tänkt att användas. De som fortfarande är kritiska kan trösta sig med att utvärderingssystemen generellt har mindre betydelse än vad vi föreställer oss, och att det säkert snart kommer bytas ut mot en ny och “bättre” modell.

Bibliometrin i forskningsbiblioteket

Bookshelf_Prunksaal_OeNB_Vienna_AT_matl00786ch

Under de senaste veckornas pendlande mellan Göteborg och Borås så har jag roat mig med att läsa Joachim Hanssons underhållande essäsamling: Att bilda en bibliotekarie. De samlade essäerna behandlar centrala frågor inom biblioteksvetenskapen på ett initierat och lättsamt sätt. För den med lite djupare kännedom kring nordisk B&I-forskning är igenkänningsfaktorn hög, och essäerna kryddas av anekdoter och iakttagelser från Hanssons professionella liv. Boken har dock mer än anekdoter att bjuda på, och här vill jag speciellt uppmärksamma kapitlet kring bibliometri.

Hansson konstaterar att bibliometrin alltmer kommit att bli en viktig del av universitetsbibliotekens verksamhet, och till stor del bygger resonemangen på en tidigare artikel samförfattad med Fredrik Åström. Här kartlägger de användningen av bibliometri på utvalda svenska lärosäten och konstaterar att biblioteket och bibliotekarien spelar en central roll. Resultat som bekräftas och stärks i en pågående studie om institutionaliseringen av bibliometrisk utvärdering vid svenska universitet och högskolor.

Åström och Hansson finner att utveckling av den bibliometriska verksamheten vid svenska forskningsbibliotek kan ha flera positiva konsekvenser; bibliotekens synlighet bland forskarna ökar, utbudet av relevanta tjänster för forskarna växer (vilket får anses viktigt i en tid när traditionella tjänster tillhandahållna av bibliotekarier automatiseras) och då bibliometrin är viktig för styrningen av lärosätet så stärks också bandet till lärosätets ledning. Bibliometrin kan alltså ha en statushöjande funktion för biblioteket. Noterbart i detta sammanhang är att bibliometrin står för skenbart ’hårda’ och objektiva ’fakta’ i form av siffror i en verksamhet som annars präglas av en mer humanistisk kunskapssyn. Att det främst är män (mig själv inräknad) som sökt sig till detta område är tydligt, och personligen tror jag att bibliometrins statushöjande potential är en orsak till den ganska skeva könsfördelning som ännu råder inom skrået.

Utvecklingen av bibliometriska funktioner vid svenska lärosäten kan också ses i ett kritiskt ljus. En potentiell risk är att biblioteket som generellt haft en stödjande roll också tar på sig en övervakande funktion. Hur reagerar forskarna på att bibliotekarier inte bara bistår dem i arbetet utan också utvärderar detsamma? Risken är att utföraren får ta skulden för illa genomförda utvärderingar trots att beslutet fattats av andra, och då kan biblioteket hamna i en vansklig situation. Åström och Hansson frågar sig också om bibliotekarierna verkligen har den kompetens som erfordras för att utföra bibliometriska studier. Det är svårt att ge något entydigt svar på denna fråga; många som arbetar med bibliometri vid svenska lärosäten är ytterst insatta och flera både följer och deltar i aktuell forskning. Dock kan vi konstatera att bibliotekarieutbildningarna i allmänhet ger mycket lite undervisning kring bibliometri och vetenskaplig kommunikation. Att forskningsbibliotekets roll, och därmed bibliotekariens, snabbt förändras från en mer passiv, förmedlande och informationssökande till en mer aktiv producerande roll har mestadels gått utbildningarna förbi. Oftast inskränks undervisningen kring bibliometri till någon enstaka föreläsning och den kompetens som finns ute i landet har ofta förvärvats på egen hand. Att bibliotekarier med bibliometrisk kompetens är efterfrågade råder det ingen tvekan om, och bara under det senaste året har flera tjänster med en sådan inriktning annonserats.

Behovet av bibliometrisk kompetens är dock inte helt förbisedd och ett tydligt exempel är kursen Bibliometri för bibliotekarier (7,5) som gavs vid Högskolan i Borås förra hösten och som riktade sig till yrkesverksamma forskningsbibliotekarier. En annan är Bibliometrins grunder (7,5) som i år ges som valbar kurs inom kandidatprogrammet. Inom dessa kurser får studenterna en grundlig introduktion till ämnet både ur praktiskt och teoretiskt hänseende. Viss fördjupning kring aktuella trender som altmetriska mått och visualisering sker också. Viktigast är dock att studenterna här får diskutera bibliometrin ur ett bredare forskningspolitiskt perspektiv där ett kritiskt förhållningssätt framhålls. Kompetensen att rent praktiskt handha bibliometriska databaser och verktyg är givetvis en komponent, men om kombinationen bibliometri/bibliotek ska framstå som fortsatt lyckad så torde det kritiska perspektivet vara av avgörande betydelse.

Bibliometri, publiceringsstöd och open access är områden där forskningsbiblioteken har en betydelsefull roll att spela. Med utgångspunkt i traditionella styrkor kring informationssökning och tillhandahållande kan dessa nya funktioner ytterligare stärka biblioteket som en central aktör i kommunikationen av vetenskapen. Bibliometrin är på goda grunder en kontroversiell verksamhet som inte bör bedrivas hur som helst, men som Hansson skriver: ”Det är kanske inte så farligt ändå, för mitt i allt står de ju där, bibliotekarierna. De kan och de vet.”. Låt oss hoppas att han har rätt.

Bild: ”Bookshelf Prunksaal OeNB Vienna AT matl00786ch” by Matl – own work (photography). Licensed under Creative Commons Attribution-Share Alike 3.0

Grattis på födelsedagen Google Scholar!

Idag för tio år sedan så introducerades Google Scholar (GS). Relativt snart etablerade sig tjänsten som ett viktigt redskap i sökandet efter litteratur; idag säger 60% av forskarna att de använder GS regelbundet och för många, inklusive mig själv, är det den viktigaste söktjänsten. GS omfattar ett stort antal publikationer; nyligen publicerades en studie som räknar till ungefär 160 miljoner indexerade dokument. Detta gör den till den överlägset största söktjänsten för vetenskaplig litteratur.

Google Scholar har inte bara revolutionerat det sätt på vilket vi söker litteratur utan tjänsten har också starkt bidragit till populäriserandet av bibliometriska mått på författarnivån. Möjligheten att skapa en så kallad Google scholar profile (numera benämnd Google scholar citations) gör att alla forskare på ett enkelt sätt kan samla sina citeringar och raskt jämföra med kollegor. Denna populära service är en starkt bidragande orsakt till h-indexets dominanta position som mått på en forskares genomslag. GS har därmed stor betydelse för bibliometrins användning på individnivå.

Användandet av data från GS i evalueringssyfte är dock problematiskt på många sätt: datan är inte rensad och innehåller ofta rena felaktigheter, GS skiljer inte på olika typer av citerande dokument då allt från vetenskapliga artiklar och studentuppsatser indexeras, GS är lätt att manipulera och forskare som vill undersöka hur sökmotorn fungerar har liten eller ingen insyn i Googles svarta låda. Ett systematiserat utforskande av Google Scholar har därför starkt begränsats och främst har forskarna studerat, och utvecklat programvara för att analysera, citeringar på individnivå. Jämförelser mellan länder, universitet och ämnen har dock varit nästintill omöjliga att genomföra.

Dock ska det framhållas att GS också har många fördelar gentemot traditionella citeringsindex. Täckningen, speciellt inom samhällsvetenskap och humaniora, är avsevärt mycket större jämfört med Web of Science och Scopus. Detta åskådliggörs i en nyligen publicerad lista över författare i Google Scholar som har ett h-index över hundra. I sammanhanget bör det beaktas att man i denna lista räknat översatta verk som unika publikationer vilket framstår som högst problematiskt när h-index ska beräknas. GS gör det också möjligt att samla citeringar till böcker och bokkapitel. Vidare är databasen inte begränsad till engelskspråkiga dokument även om dessa är dominerande.

Under min tid som forskare har Google Scholar alltid funnits där som en första, och det må erkännas, alltför ofta enda ingång till den vetenskapliga litteraturen. Det är därför svårt för mig att bedöma dess vidare inflytande på forskares sökbeteende. Jag är dock övertygad om att tjänsten haft stor betydelse för hur vi söker efter litteratur, men också på hur vi bedömer källors trovärdighet och relevans. Säkerligen har GS också haft inverkan på hur vi värderar vårt eget inflytande i forskarsamhället, och tjänster som Google Scholar Citations kan nog med rätta anklagas för att föda en viss narcissism.

Trots Google Scholars brister, och dess ibland tveksamma inflytande, så är det inte en tjänst jag skulle vilja vara utan. Så låt oss därför hoppas att GS nu växer ur sina barnsjukdomar, och öppnar sin svarta låda så att åtminstone några av de uppenbara bristerna undanröjts till 20-årsdagen.

108 bibliometriska indikatorer men ingen av dem duger

I en nyligen publicerad översikt författad av Lorna Wildgaard, Jesper Schneider och Birger Larsen så kartläggs och granskas 108 bibliometriska indikatorer utvecklade för att mäta produktivitet och genomslag på individnivå. Över hundra indikatorer — och då har de ändå bara fokuserat på författarnivån och på indikatorer som fokuserar på publikationer — ger verkligen substans till yttranden om ett överflöd av mått (A profusion of measures). Författarna konstaterat också att vi bevittnat en explosiv ökning av bibliometriska indikatorer för utvärdering av enskilda forskare under senare år, trots att många bibliometriker starkt ifrågasätter möjligheten till att överhuvudtaget använda bibliometri på individnivå. Orsaken till denna utveckling kan nästan uteslutande spåras tillbaka till fysikern Jorge Hirsch och det av honom introducerandet h-index (2005). H-indexet blev snabbt mycket populärt och orsaken till detta är troligtvis att det är så enkelt att räkna ut: h-index för en forskare är det antal publikationer (h) av forskaren som citerats minst h gånger. En forskare som författat 7 artiklar som citerats minst 7 gånger vardera ger h-index 7. Måttets genomslag förstärks också av att det automatiskt räknas ut för den som har en Google Scholar profil, och utvecklandet av program som Publish or Perish vilket kan användas för att kalkylera h-index och liknande mått har ytterligare bidragit till h-indexets populäritet. H-index fortsätter att vara det kanske mest populära måttet för att mäta forskningsproduktion på individnivå trots att ingående kritik riktats mot indikatorn. Bland annat så anses måttet vara instabilt för forskare som publicerat mindre än 50 publikationer och det bör inte användas för att jämföra forskare från olika discipliner eller forskningsfält. Vidare missgynnar det författare som publicerar selektivt, unga forskare och kvinnor. Dock verkar h-index fungera relativt bra för äldre manliga forskare som verkar i fält med hög citeringsfrekvens.

Förutom h-indexet så är Journal Impact Factor (JIF) kanske det mest välkända bibliometriska indikatorn och även denna används på individnivå. Detta trots att JIF är utformad för att mäta en tidskrifts inflytande men också i denna bemärkelse är måttet ifrågasatt och ett flertal alternativa indikatorer har föreslagits. Korfattat så anger JIF medeltalet för det antalet citeringar som artiklarna i en tidskrift får under två föregående år. Det innebär att artiklar i en tidskrift med en impact factor på 10 i medeltal citeras 10 gånger under de två år som föregår det år när mätningen görs. Dock säger detta mycket lite om kvaliteten på enskilda artiklar då vi vet att fördelningen av antalet citeringar inom en tidskrift är mycket skev — ett fåtal artiklar är högt citerade samtidigt som en stor del citeras mycket lite eller inte alls. Att en forskare publicerat i en tidskrift med hög JIF är en indikation på författarens förmågan att bli publicerad i tidskrifter med hög status, men det säger mycket lite om inflytande. Vidare finns det tecken på att betydelsen av en hög JIF börjar spela ut sin roll både för forskare och tidskrifter (The demise of the Impact Factor) och kampanjer, likt den som initierad av DORA 2013, spelar här en roll.

Men h-indexet och impact factorn är bara några i en lång rad av mått som behandlas i studien och dessa har delats in i fem grupper: indikatorer baserade på publiceringsvolym, indikatorer som bygger på tidskriftsmått (t.ex. Impact Factor), indikatorer som mäter effekt (t.ex. antalet citeringar), indikatorer som rankar publikationer inom en författares production (t.ex. h-index) samt indikatorer som rankar publikationer över tid. Alla mått har sedan granskats och bedömts utifrån två faktorer: hur svårt det är att samla data samt hur komplex indikatorn är. Mått där datan är svår att få tag på för den enskilde forskaren och där metodologin är för komplicerad bedöms därmed vara för svåra att operationalisera för slutanvändaren. Användarbarhet är således av central betydelse för att bedöma en indikators duglighet.

Givetvis har problemen med etablerade indikatorer såsom h-index och Journal Impact Factor get upphov till en rad av förslag på förbättringar, och rivaler till h-indexet såsom a-index, b-index, f-index, g-index, m-index, r-index, t-index, w-index och z-index, har föreslagits. Impact factorn har i sin tur utmanats av mått som SNIP (Source Normalized Impact Per Paper) där citeringsfrekvensen normaliserats för att bli jämförbar(are) mellan olika discipliner. Men Wildgaard och kollegor konstaterar dock att dessa mer utvecklande indikatorer ofta är för komplicerade för att verkligen vara ett alternativ till mer etablerade mått. De förordar istället att bibliometriska indikatorer, såsom impact factorn eller h-indexet, alltid ska akompanjeras av andra kompletterande mått. Detta då inget av de 108 indikatorerna på ett heltäckande sätt kan sägas representer det inflytande som en enskild forskare har. Trots alla denna möda, alla dessa beräkningar, normaliseringar och kvantifieringar så kvarstår problemet att forskare och administratörer väljer indikator baserat på användbarhet och tillgänglighet. Att utveckla mer avancerade indikatorer är alltså inte lösningen, och då det gäller att bedöma enskilda forskares bidrag till vetenskapen så går det inte att bortse från att den mest grundläggande ‘indikatorn’ fortfarande är traditionell och tidskrävande kollegial bedömning.

För den som ytterligare vill fördjupa sig i bibliometriska mått och deras användning på individnivå så rekommenderar jag att ta en titt på sidan för EU-projektet ACUMEN (Academic Careers Understood Through Measurements and Norms).

Agnes Wold, peer review och möjligheten till en subversiv bibliometri

I dagens Sommar kunde vi i lyssna till Agnes Wold, professor i klinisk bakterologi och överläkare vid Sahlgrenska akademin i Göteborg. Ett huvudtema i programmet var den studie om peer review och könsdiskriminering som hon tillsammans med kollegan Christine Wennerås publicerade 1997. Studien, med titeln ”Nepotism and sexism in peer review” (Nature, 341-3) visade att kvinnor systematiskt diskriminerades vid ansökningar till Medicinska forskningsrådet. Undersökningen motiverades av att beviljandegraden för kvinnor var under hälften av den för män. Genom att studera peer review-omdömen kunde Wennerås och Wold visa att kvinnor genomgående fick lägre poäng på alla tre kriterier; vetenskaplig kompetens, metodologi och forskningsprojektets relevans. Störst skillnad uppvisades gällande kriteriet vetenskaplig kompetens där kvinnor generellt ansågs sämre än de manliga sökande. I nästa steg av studien tittade Wennerås och Wold på de antal publikationer som de sökande författat, statusen på tidskriften de publicerat i, samt hur ofta de citerats. Sammantaget visade det sig att en kvinna behövde vara mer än 2, 5 gånger så produktiv för att betraktas som jämbördig med en manlig sökande. Studien visade också att vänskapliga kontakter med granskare ökade möjligheten att bli beviljad avsevärt.

Kombinationen av sällan åtkomligt material (peer review-utlåtanden) och bibliometrisk data möjliggjorde forskningen, som fått ett stort genomslag både inom och utanför vetenskapen. Tillsammans med Birgitta Jordansson och Ulf Sandström återkom Wold i debatten när rapporten Hans excellens publicerades 2010. I denna uppföljningsstudie kunde de visa hur senare års excellenssatsningar gynnat män framför kvinnor, och även här spelade bibliometrin en viktig roll.

Wennerås och Wolds artikel citeras ofta som exempel på de problem som finns med kollegial granskning. Den omnämns ofta i bibliometriska tidskrifter och då ofta kopplad till kritik av utvärdering med hjälp av peer review. Mer sällan framhålls studien som ett gott exempel på hur bibliometri kan användas. Ofta kritiseras bibliometriska mått och utvärderingsmetoder för att cementera och förstärka hierarkier och rankingar. Men som Wennerås och Wold förtjänstfullt visat kan ett bibliometriskt angrepssätt vara mycket effektivt även för att ifrågasätta etablerade hierarkier och normer. Studien är således ett utmärkt exempel på möjligheten till en subversiv bibliometri. Faktum är att bibliometriska metoder kan vara ett kraftfullt instrument för att utmana rådande föreställningar och kritisera etablerade system, men ett alltför stort fokus på deskriptiv och evavulerande bibliometri har starkt begränsat utrymmet för mer kritisk forskning.

På det stora hela rekommenderar jag Agnes Wolds sommarprat. Förutom att hon berättar den fascinerade historien om studien ovan så är hennes avlivande av allehanda myter kring föräldraskap – som den om att amning förebygger allergier – mycket hörvärda.

Hur reagerar forskare på bibliometrisk utvärdering?

Under senare år har bibliometrisk utvärdering, ofta med utgångspunkt i antalet citeringar eller antalet publikationer, blivit en etablerad metod för att fördela resurser mellan forskare, institutioner och lärosäten. Hur detta påverkar den enskilde forskaren är en central fråga i min forskning. I en nyligen sammanställd studie – Accountability in context – utgår Sarah de Rijcke (Leidens Universitet) och jag från publiceringsmönster och forskningspraktiker vid den historisk-filosofiska fakulteten vid Uppsala Universitet. Undersökningen, som bygger på publikationer från 2006-2013, visar att tidskriftsartiklar på engelska har ökat substantiellt (se nedan) och detsamma gäller för andelen publikationer som registreras som “referegranskade”. Dessa förändringar kan inte direkt härledas till nyligen implementerade utvärderingssystem, men det kan konstateras att den utveckling som vi iakttagit ligger helt i linje med de incitatment som finns i dessa fördelningsmodeller.

Yearly changes

Studien kompletteras av en enkät där forskare vid fakulteten besvarat frågor kring publiceringspraktiker och eventuella förändringar av dessa. Flera respondenter påtalar ett större fokus på engelskspråkiga tidskriftspublikationer. Reaktionerna på denna utveckling är delade; vissa forskare ser förändrade publiceringspraktiker som ett hot mot humanioras särart samtidigt som andra välkomnar ett större fokus på en internationell publik. Svaren indikerar att bibliometrisk evaluering, men också krav på open access, ofta hamnar i konflikt med disciplinära normer. Samtidigt rankas ‘icke-epistemisk’ påverkan lågt när forskare värderar de faktorer som påverkar valet av publikationskanal (se nedan). Vidare visar tidigare studier av utvärdering och utvärderingssystem att påverkan på praktiker och attityder inom organisationer ofta är liten; speciellt i fält där institutionella normer är starka. Således bör vi vara försiktiga med att dra för långtgående slutsatser om de effekter som utvärderingssystem har.

factors

Den aktuella studien är begränsad och ambitionen är att bredda undersökningen till att omfatta fler forskningsfält samt att titta på hur intervjuer och etnografiska metoder kan bidra till att belysa frågan. Det finns alltså all anledningen att återkomma till ämnet framöver.

Studien finns nu publicerad i Research Evaluation.