108 bibliometriska indikatorer men ingen av dem duger

I en nyligen publicerad översikt författad av Lorna Wildgaard, Jesper Schneider och Birger Larsen så kartläggs och granskas 108 bibliometriska indikatorer utvecklade för att mäta produktivitet och genomslag på individnivå. Över hundra indikatorer — och då har de ändå bara fokuserat på författarnivån och på indikatorer som fokuserar på publikationer — ger verkligen substans till yttranden om ett överflöd av mått (A profusion of measures). Författarna konstaterat också att vi bevittnat en explosiv ökning av bibliometriska indikatorer för utvärdering av enskilda forskare under senare år, trots att många bibliometriker starkt ifrågasätter möjligheten till att överhuvudtaget använda bibliometri på individnivå. Orsaken till denna utveckling kan nästan uteslutande spåras tillbaka till fysikern Jorge Hirsch och det av honom introducerandet h-index (2005). H-indexet blev snabbt mycket populärt och orsaken till detta är troligtvis att det är så enkelt att räkna ut: h-index för en forskare är det antal publikationer (h) av forskaren som citerats minst h gånger. En forskare som författat 7 artiklar som citerats minst 7 gånger vardera ger h-index 7. Måttets genomslag förstärks också av att det automatiskt räknas ut för den som har en Google Scholar profil, och utvecklandet av program som Publish or Perish vilket kan användas för att kalkylera h-index och liknande mått har ytterligare bidragit till h-indexets populäritet. H-index fortsätter att vara det kanske mest populära måttet för att mäta forskningsproduktion på individnivå trots att ingående kritik riktats mot indikatorn. Bland annat så anses måttet vara instabilt för forskare som publicerat mindre än 50 publikationer och det bör inte användas för att jämföra forskare från olika discipliner eller forskningsfält. Vidare missgynnar det författare som publicerar selektivt, unga forskare och kvinnor. Dock verkar h-index fungera relativt bra för äldre manliga forskare som verkar i fält med hög citeringsfrekvens.

Förutom h-indexet så är Journal Impact Factor (JIF) kanske det mest välkända bibliometriska indikatorn och även denna används på individnivå. Detta trots att JIF är utformad för att mäta en tidskrifts inflytande men också i denna bemärkelse är måttet ifrågasatt och ett flertal alternativa indikatorer har föreslagits. Korfattat så anger JIF medeltalet för det antalet citeringar som artiklarna i en tidskrift får under två föregående år. Det innebär att artiklar i en tidskrift med en impact factor på 10 i medeltal citeras 10 gånger under de två år som föregår det år när mätningen görs. Dock säger detta mycket lite om kvaliteten på enskilda artiklar då vi vet att fördelningen av antalet citeringar inom en tidskrift är mycket skev — ett fåtal artiklar är högt citerade samtidigt som en stor del citeras mycket lite eller inte alls. Att en forskare publicerat i en tidskrift med hög JIF är en indikation på författarens förmågan att bli publicerad i tidskrifter med hög status, men det säger mycket lite om inflytande. Vidare finns det tecken på att betydelsen av en hög JIF börjar spela ut sin roll både för forskare och tidskrifter (The demise of the Impact Factor) och kampanjer, likt den som initierad av DORA 2013, spelar här en roll.

Men h-indexet och impact factorn är bara några i en lång rad av mått som behandlas i studien och dessa har delats in i fem grupper: indikatorer baserade på publiceringsvolym, indikatorer som bygger på tidskriftsmått (t.ex. Impact Factor), indikatorer som mäter effekt (t.ex. antalet citeringar), indikatorer som rankar publikationer inom en författares production (t.ex. h-index) samt indikatorer som rankar publikationer över tid. Alla mått har sedan granskats och bedömts utifrån två faktorer: hur svårt det är att samla data samt hur komplex indikatorn är. Mått där datan är svår att få tag på för den enskilde forskaren och där metodologin är för komplicerad bedöms därmed vara för svåra att operationalisera för slutanvändaren. Användarbarhet är således av central betydelse för att bedöma en indikators duglighet.

Givetvis har problemen med etablerade indikatorer såsom h-index och Journal Impact Factor get upphov till en rad av förslag på förbättringar, och rivaler till h-indexet såsom a-index, b-index, f-index, g-index, m-index, r-index, t-index, w-index och z-index, har föreslagits. Impact factorn har i sin tur utmanats av mått som SNIP (Source Normalized Impact Per Paper) där citeringsfrekvensen normaliserats för att bli jämförbar(are) mellan olika discipliner. Men Wildgaard och kollegor konstaterar dock att dessa mer utvecklande indikatorer ofta är för komplicerade för att verkligen vara ett alternativ till mer etablerade mått. De förordar istället att bibliometriska indikatorer, såsom impact factorn eller h-indexet, alltid ska akompanjeras av andra kompletterande mått. Detta då inget av de 108 indikatorerna på ett heltäckande sätt kan sägas representer det inflytande som en enskild forskare har. Trots alla denna möda, alla dessa beräkningar, normaliseringar och kvantifieringar så kvarstår problemet att forskare och administratörer väljer indikator baserat på användbarhet och tillgänglighet. Att utveckla mer avancerade indikatorer är alltså inte lösningen, och då det gäller att bedöma enskilda forskares bidrag till vetenskapen så går det inte att bortse från att den mest grundläggande ‘indikatorn’ fortfarande är traditionell och tidskrävande kollegial bedömning.

För den som ytterligare vill fördjupa sig i bibliometriska mått och deras användning på individnivå så rekommenderar jag att ta en titt på sidan för EU-projektet ACUMEN (Academic Careers Understood Through Measurements and Norms).

Bibliometrisk etik?

sti

Förra veckan besökte jag Leiden och den nittonde Science and Technology Indicators konferensen (STI). Ett framträdande tema i diskussionerna under de tre späckade dagarna var behovet av riktlinjer (guidelines) eller standards för bibliometrisk utvärdering. En välbesökt paneldiskussion ägnades åt denna fråga och Diana Hicks förslog ett antal  allmänt hållna principer snarare än fastslagna standards. Bland dessa återfinns följande punkter (fritt tolkat och översatt):

  1. Bibliometri ska och kan inte ersätta andra typer av bedömning
  2. Låt analysen ta den tid och de resurser som krävs
  3. Var transparant då det kommer till utförandet
  4. Normalisera data när så behövs
  5. Variera och anpassa mätmetoderna beroende på det vetenskapliga fält som studeras
  6. Koppla bibliometriska indikatorer till strategiska mål
  7. Ge de som utvärderas tillgång till den data som används

Dessa principer – som ännu bara ligger på ett idéstadium – är bara ett exempel på ett ökat intresse för att etablera ett övergripande ramverk för genomförandet bibliometrisk utvärdering. Vid ISSI (International Society for Scientometrics and Informetrics) konferensen 2013 diskuterades bland annat “The do’s and don’ts of individual bibliometrics” och denna diskussion följdes sedan upp vid STI konferensen i Berlin (Se Paul Wouters inlägg på samma tema här). Försöken att etablera standards och riktlinjer är tydlig också i den nyligen publicerade boken Beyond bibliometrics: Harnessing multidimensional indicators of scholarly impact. I denna volym diskuterar Jonathan Furner etiska riktlinjer för hur bibliometri bör användas och Yves Gingras formulerar standards för bibliometriska utvärderingar. Ytterligare ett exempel på ett mer reflexivt förhållningsätt kring dessa frågor var årets keynote som hölls av Peter Dahler-Larsen från Köpenhamns universitet. Hans forskning kring framväxten av ett utvärderingssamhälle gjorde ett stort avtryck på konferensen och för alla de som är intresserade av dessa frågor kan jag varmt rekommendera hans bok på samma tema: The evaluation society.

Varför kommer då dessa inititativ nu? Enligt min mening går det att identifiera åtminstone två anledningar. Först och främst så ser jag dessa inititativ som ett tecken på att bibliometrikerna allt mer blir medvetena om det inflytande som bibliometrin har kommit att få för strategiska beslut och forskningspolitiska överväganden. Detta är också det argument som oftast framhålls när behovet av riktlinjer uttrycks. Dock tror jag även att det finns ett intresse från professionen, och kanske då inte minst från de kommersiella företag som saluför bibliometrisk utvärdering, av att etablera standards som skiljer professionellt utförd bibliometri från det som lite nedlåtande kallas ‘amatörbibliometri’. Enligt min mening vore det dock förfelat att använda sig av standards för att skilja god bibliometri från dålig, och det som lite nedlåtande kallas amatörbibliometri kan ofta vara väl så bra. Speciellt gäller detta begränsade studier där kunskap och insikt i en specifik kontext ofta är av större vikt än teknisk och metodologisk fulländning.

Snarare än standards och riktlinjer på ett mer tekniskt plan så förordar jag utvecklandet av en bibliometrisk etik. En huvudregel för en sådan borde vara att avstå från att använda bibliometri då det inte är tillämpligt; när mätmetoden inte är anpassad till det som ska mätas eller när materialet helt enkelt är för litet för att kunna behandlas statistiskt. Speciellt viktigt blir ett sådant etiskt förhållningsätt i de många situationer där oberoende forskning och kommersiell utvärderingsverksamhet möts. Om jag i egenskap av forskare underkänner en mätmetod som icke lämplig så bör jag som kontrakterad bibliometrisk analytiker förhålla mig på samma kritiska sätt när liknande metoder används i evaluveringssyfte.

Kanske är det också så att behovet av riktlinjer blir extra tydligt i ett fält där kommersiella intressen spelar en stor roll. Nästan all den data som bibliometriker använder sig av kommer från företag som Thomson Reuters (Web of Science), Elsevier (Scopus) eller Google (Google Scholar) och några av forskningsfältets tyngsta aktörer som Centre for Science and Technology Studies (CWTS)* och Science-Metrix drar in en stor del av sina intäkter genom konsultverksamhet.

Även om motivet kring utvecklandet av riktlinjer och standards inte bara kan ses som del av ett kritiskt förhållningssätt till den egna verksamheten så bör vi välkomna det ökade mått av reflexivitet som en sådan diskussion innebär. Huruvida ett auktoritativt policydokument är möjligt att enas kring, och om ett sådan ens är önskvärt, återstår att se. Att ett samtal kring dessa frågor har inletts kan dock bara ses som positivt för bibliometrins utveckling.

*CWTS firade sin 25-årsdag under konferensen och förutom en pampig signaturmelodi som inledde varje session så publicerades också en konferenstidning som kom ut två gånger per dag. Ett mycket lyckat och framförallt underhållande initiativ. Ett exempel är första numret som finns som PDF här. Resterande nummer finns att se på: http://www.dewaan.nl/