Den bästa infrastrukturen är den som man inte tänker på förrän den av någon anledning fallerar. Det hände för cirka en månad sedan med Korp, berättar Lars Borin.
– Förtvivlade språkvetare hörde av sig om att Korp ligger nere. Lyckligtvis var problemet ganska snabbt åtgärdat. Att våra användare inte vet så mycket om oss beror på att Språkbanken är öppet tillgänglig för vem som helst. Det är så vi vill ha det men det innebär ett problem: När vi ska göra den årliga redovisningen till våra finansiärer, Vetenskapsrådet och Göteborgs universitet, kan vi inte riktigt svara på hur mycket resurserna används.
Korp, Mink, Karp, Sparv och Strix
Korp är inte vilken fågel som helst utan den äldsta av Språkbanken Texts fem plattformar, berättar Markus Forsberg.
– Den startade redan 2009 och är nu inne på sin nionde version. Här kan man söka i stora språkteknologiskt analyserade textmassor, exempelvis skönlitteratur, dagstidningar, sociala medier och myndighetstexter och få information om användning av ord, fraser eller relaterade ord i språkvetenskapliga och andra kategorier. Den som vill söka i eget insamlat material kan istället använda plattformen Mink som enkelt ska kunna nyttjas utan stöd av personal. Övriga plattformar är dataredigeringsplattformen Karp, analysplattformen Sparv och textforskningsplattformen Strix.
Språkbanken består idag av fyra avdelningar, förklarar Lars Borin:
- Språkbanken Text vid GU
- Språkbanken Tal vid KTH
- Språkbanken Sam vid Institutet för språk och folkminnen, samt
- Språkbanken CLARIN vid Uppsala universitet, som innebär ett samarbete med Europa
– Vi är en distribuerad verksamhet, men användarna ska inte behöva fundera över var de olika resurserna är placerade. Som ett exempel på en aktuell svensk CLARIN-aktivitet, gör nu Stockholms universitet en fokuserad insats på att utveckla språkteknologi för teckenspråk inom Språkbanken.
Inom Göteborgs universitet hamnade de lexikografiska och språkteknologiska aktiviteterna i två skilda organisationer i början av 2000-talet, berättar Markus Forsberg.
– Men sedan fem år tillbaka är delarna samlade igen, vilket gynnar båda verksamheterna. Bland annat jobbar vi nu på den femtonde upplagan av SAOL som ska komma ut i början av nästa år,
Används av många
Språkbanken riktar sig till alla som på något sätt använder språkliga data i sin forskning. Det handlar förstås om språkforskare, men också om bland annat historiker, samhällsvetare och datavetare. Korp-mjukvaran har även gått på export, exempelvis till den finska språkbanken, och används också för att utforska samiska och andra språk inom Giellatekno i Norge.
Bland Språkbankens medarbetare inom Göteborgs universitet är drygt två tredjedelar forskare, berättar Markus Forsberg.
– Man kan säga att vi har dubbla identiteter: vi är både en forskningsinfrastruktur och en forskande enhet där den viktigaste infrastrukturen inte är den tekniska utan våra medarbetare. De arbetar med sin egen forskning men också som experter på infrastrukturen där exempelvis Elena Volodina kan stötta inom andraspråksinlärning och Dimitrios Kokkinakis inom medicinsk språkhantering. Vi har på så sätt skapat ett slags ekosystem där det är enkelt att använda oss från dag ett när ett projekt startar. Utöver att stå för den tekniska utvecklingen av våra forskningsplattformar, så bidrar våra forskningsingenjörer till forskningen på andra sätt, exempelvis genom att lära upp teknisk och forskande personal på andra lärosäten som vill använda infrastrukturen.
Firande 5 maj
Att Språkbanken firas just den 5 maj beror på att det var i början av maj 1975 som Logoteket, som resursen hette då, utlyste sina första två tjänster, berättar Lars Borin.
– Så vi tyckte att datumet passade bra som födelsedag.
Under 2025 har Språkbanken två föreståndare där Lars Borin, som går i pension vid årsskiftet, fungerar som något av en mentor för Markus Forsberg som från och med 2026 blir ensam chef.
– Markus står för framtiden medan jag försöker förvalta dåtiden, berättar Lars Borin. Tillsammans med flera av Språkbankens medarbetare håller jag bland annat på med en bok om Språkbankens historia: Sixty years of Swedish computational lexicography som snart kommer att ges ut och som alltså blickar något längre tillbaka än till 1975.
Text: Eva Lundgren
Texten publicerades ursprungligen i GU Journalen, nummer 2, 2025
I samband med att reportaget i GU Journalen gjordes skapade Språkbanken en korpus (textsamling) av GU Journalens samtliga nummer sedan 1997, som öppna och nedladdningsbara forskningsdata. Läs mer på Språkbanken Text och se vilka analyser som kan göras utifrån datan: Språkbanken Text