Feeds
Artikel
Kommentare

Auf dem diesjährigen VuFind-Anwendertreffen wird die Strategie der SUB zur Einstellung und Justierung der Relevanzsortierung bei beluga vorgestellt. Hier ist die zugehörige Beschreibung dieser Strategie als pdf-Datei herunterzuladen: Relevanzsortierung.pdf

Sie zeigt exemplarisch den Weg zur Ermittlung der maßgeblichen Parameter und beinhaltet zusätzlich Erläuterungen zu den technischen Grundlagen der Relevanzsortierung. Die Vortragsfolien sind hier zu finden: http://swop.bsz-bw.de/volltexte/2015/1247/.

Zur Ergänzung hier noch die Vortragsfolien der internen Fortbildung zum Thema Relevanzsortierung und Retrievaleffektivität von Known-Item-Suchen am 14.10.2015: Vortrag_ImkeRulik und Vortrag_HajoSeng.

Seit heute ist eine Bachelorarbeit der Hochschule für Angewandte Wissenschaften Hamburg (HAW) online verfügbar, die in Kooperation mit dem beluga-Projekt entstanden ist.

Die Autorin Frau Imke Rulik untersucht anhand von realen Suchanfragen in beluga, in wie weit Known Item-Suchen (bei denen der Nutzer/die Nutzerin ein ihm/ihr bekanntes Werk sucht) von thematischen Recherchen unterschieden werden können und entwirft einen einfachen Algorithmus zur Differenzierung der beiden Fälle. Der Algorithmus kann von einem Retrievalsystem wie beluga verwendet werden, um für die vorkommenden Suchanfragentypen unterschiedliche Relevanzrankings einzusetzen. Die individuellen Rankings können bei dem jeweiligen Suchanfragentyp bessere Ergebnisse erzielen, als ein einheitliches Ranking für alle Anfragetypen. So könnte z.B. bei einer Known Item-Suche die Sacherschließungsinformationen niedrig gewichtet werden, bei einer thematischen Suche dagegen hoch.

Die Arbeit zeigt, das durch eine solche Differenzierung bei voraussichtlich 30% aller Known Item-Suchen eine Verbesserung des Rankings zu erwarten ist.

Die Arbeit ist als Open Access-Dokument auf dem Abschlussarbeitenserver der HAW zugänglich:

http://edoc.sub.uni-hamburg.de/haw/volltexte/2015/3023/

beluga begrüßt die ZBW

Ab heute sind die Bestände der Zentralbibliothek für Wirtschaftswissenschaften (ZBW) in beluga recherchierbar. Die ZBW ist mit mehr als vier Millionen Medieneinheiten und mehr als 30.000 Zeitschriften die weltweit größte Spezialbibliothek für wirtschaftswissenschaftliche Literatur und eine der wichtigsten Bibliotheken für die überregionale Literaturversorgung (nicht nur) in Deutschland.

Durch die Einbindung der Bestände in beluga entsteht für Nutzerinnen und Nutzer in Hamburg ein sehr großer Gewinn, da knapp drei Millionen Datensätze, die bisher in beluga noch nicht recherchierbar waren, jetzt zu finden und zu nutzen sind.

Wir freuen uns sehr – herzlich willkommen!

Im ZBW Media Talk-Blog ist ein Interview zum Thema beluga 3.0 erschienen. Wir freuen uns sehr über die Veröffentlichung und bedanken uns!

Die Usability-Studien zu beluga sind ab sofort auf dem Open Access-Repository der Hochschule für Angewandte Wissenschaften Hamburg downloadbar:

Nochmals vielen Dank an alle Beteiligten für die tolle Arbeit!

beluga 3.0

Seit heute ist beluga in der Version 3.0 online. In diese Version sind zahlreiche Verbesserungen, Optimierungen und Erweiterungen eingeflossen, die wir in den letzten Monaten durchgeführt haben. Hier die wichtigsten Änderungen auf einen Blick:

  • Millionen elektronisch direkt verfügbarer Aufsätze: In beluga 3.0 ist der Primo Central-Index eingebunden, der die Recherche von mehreren hundert Millionen wissenschaftlichen Aufsätzen ermöglicht. Dabei werden aktuell nur solche Aufsätze angezeigt, die an mindestens einer der beluga-Bibliotheken verfügbar sind. Über den Linkresolver SFX kann man dann mit wenigen Klicks zu dem Aufsatz gelangen.
  • Usability-Optimierungen: In beluga sind zahlreiche Usability-Optimierungen eingeflossen, die von der Studie der Hochschule für Angewandte Wissenschaften empfohlen wurden.
  • Auswahl individueller Bibliotheken: Nutzer können jetzt einfacher die Recherche auf eine einzelne Bibliothek einschränken oder auf eine andere Bibliothek oder die Gesamtsuche umschalten. Dabei werden jeweils wichtige Informationen über die ausgewählte Bibliothek (Öffnungszeiten, Kontakt, Link zu der Homepage) präsentiert.
  • Neues Design: beluga verfügt über ein moderneres Design, das aber auf dem gewohnten Design von beluga 2.0 basiert.
  • Mein beluga: Insbesondere der Bereich „Mein beluga“ wurde stark überarbeitet, so dass die Verwaltung von Literaturlisten einfacher möglich ist.
  • VuFind 2.3: Und ganz technisch betrachtet: beluga verwendet jetzt die aktuelle Version 2.3 von VuFind als Basis.

Nutzer können sich natürlich mit ihrem bestehenden beluga 2.0-Konto auch bei der aktuellen Version von beluga anmelden und haben weiterhin Zugriff auf ihre gespeicherten Literaturlisten.

Natürlich werden wir auch weiterhin stark an beluga arbeiten, aber mit der heute veröffentlichten Version ist ein wichtiger inhaltlicher Meilenstein umgesetzt worden.

Wir wünschen allen NutzerInnen und FreundInnen von beluga viel Spaß mit der neuen Version!

beluga: Usability-Studie

Für beluga wurde in Kooperation mit der Hochschule für Angewandte Wissenschaften Hamburg (HAW) im Rahmen eines Projektseminars eine Studie zum Thema „Usability“ durchgeführt. Diese Studie ist für das Projekt von großer Bedeutung, da damit die Tradition der nutzerpartizipativen Entwicklung fortgesetzt wird.

Der erste Teil der Studie beschäftigte sich mit der Frage, wie weit das bestehende System dem Aspekt der Nutzerfreundlichkeit entspricht. Die Nutzerfreundlichkeit wurde durch zwei Methoden evaluiert: Der erste Schritt bestand aus einer heuristischen Evaluation, bei der ein Katalog von 94 anerkannten Usability-Prinzipien getestet wurde. Die in dem Katalog verwendeten Kriterien sind speziell auf die Nutzerfreundlichkeit von Suchmaschinen ausgelegt.

Zum Testen wurden mehrere Gruppen von Studierenden des Projektseminars gebildet, die unabhängig voneinander die Kriterien prüfen sollten. Auf diese Weise wurden in einer Art von Prototyping-Verfahren schnell mögliche Schwächen gefunden, auf die dann in einer anschließenden Evaluation besonderes Augenmerk gelegt werden konnte.

In dem nächsten Schritt wurden dann zwölf Testpersonen (Studierende aus natur- und geisteswissenschaftlichen Studiengängen) unter Anleitung (7 Aufgaben) zur Arbeit mit beluga aufgefordert. Zum Einsatz kam dabei unter anderem eine Think-Aloud-Methode, bei der die Nutzer während der Arbeit mit beluga ihre Gedanken äußern konnten. Weiterhin wurden die Nutzer gebeten, die für sie wichtigen Teile von beluga auf Screenshots zu markieren. Außerdem wurden die Mausbewegungen und Reaktionen der Nutzer während des Tests aufgezeichnet, um so mögliche Hindernisse während ihrer Arbeit zu finden.

Die Empfehlungen dieses Teils der Studie werden zurzeit auf ihre technische Umsetzbarkeit geprüft und werden in Kürze schrittweise in das Lifesystem eingearbeitet.

Der zweite Teil der Studie beschäftigte sich mit der Frage nach der optimalen und nutzerfreundlichen Integration des Primo Central Index in beluga – also der Frage, wie die Treffer aus den lokalen Beständen und die Treffer aus dem Primo Central-Discoveryindex am besten dargestellt werden können. Hierfür wurden mit einer speziellen Software drei Mockups erstellt, die jeweils eine mögliche Integration darstellten: Dabei kamen die bekannte Ein-Listen-Lösung zum Einsatz so wie die Reiterlösung und eine Paralleldarstellung der Listen. Interessanterweise wurden alle drei Varianten von den zehn befragten Nutzern als ähnlich gut bewertet, so dass bei der Wahl der zukünftig zum Einsatz kommenden Methode – der Reiterlösung – hauptsächlich technische Kriterien den Ausschlag gaben. Die Reiterlösung wurde von den befragten Personen tatsächlich leicht favorisiert (4:3:3), wobei aber deutlich wurde, dass die Reiter durch ein ansprechendes Webdesign deutlich gemacht werden müssen, um nicht übersehen zu werden.

Die Studien sollen perspektivisch online gestellt werden, was wir natürlich in diesem Blog erwähnen werden. Weitere Informationen zu den Studien und der geplanten Integration von Primo Central in beluga gibt es dann auf dem Bibliothekartag 2014 in dem Vortrag „beluga und Discovery“.

Ganz herzlicher Dank geht an Frau Prof. Ursula Schulz, so wie an die Studierenden des Projektseminars (alphabetisch): Anna-Lena Flügel, Stefan Funk-Haas, Christina Gieseler, Nils Goßmann, Florian Hagen, Simon Karger, Claudia Martens, Rebecca Mehl, Eva-Lotte Rother, Imke Rulik und Mara Schulze.

Obwohl hinter der in solr implementierten Relevanzbewertung recht einfache mathematische Berechnungen stecken, ist die konkrete Konfiguration nicht ganz so trivial, weil dabei viele Parameter eingehen, die optimal einzustellen sind. Weitere Schwierigkeiten ergeben sich daraus, dass es in der Regel weder möglich ist, „belastbare“ Stichproben für alle denkbaren Suchen zu definieren noch überhaupt valide allgemeingültige Kriterien für die Relevanz von bibliothekarischen Daten zu entwickeln. Dennoch gibt es – zumindest bei uns – deutlich „gefühlte“ Qualitätsbewertungen von Relevanzsortierungen. Grund genug für uns, uns mit diesem Thema etwas ausführlicher zu beschäftigen.

Wir haben bereits nach wenigen Versuchen gemerkt, dass sich mit einer „heuristischen“ Herangehensweise das Ranking signifikant verbessern lässt. Heuristisch bedeutet hier, dass wir durch jede Veränderung der Parameter sowohl – exemplarisch – die Struktur der Datengrundlage und die Auswirkungen der Ranking-Berechnungen kennen lernen. Das wiederum gibt uns Hinweise zu weiteren Anpassungen der Parameter – und so weiter. Am Ende ergibt sich hieraus ein stetiger Optimierungsprozess ohne vorab definiertem Ergebnis. Diesen Prozess werde ich hier etwas beleuchten.

An erster Stelle steht hierbei die Analyse der in den durchsuchbaren Indexfeldern vorhandenen Metadaten mit dem Ziel, diese in sinnvolle Einheiten zusammen zu fassen. Dabei kommen insbesondere die Belegungsdichte der einzelnen Felder (oder Kombinationen von ihnen) in Betracht, sowie Abhängigkeiten der Felder untereinander. So haben wir bzgl. des GBV-Index-Auszugs, den wir für Beluga verwenden, beispielsweise festgestellt, dass die Einträge der einzelnen Titelfelder (Kurz- und Langtitel, sowie Titelzusätze) sich in der Regel überschneiden und die Titelzusätze meistens auch den ersten Autorennamen beinhalten. Weiterhin können wir sehen, dass manche Bibliotheken in der Regel Schlagwörter vergeben, andere eher Klassifikationen verwenden. Für übergeordnete Werke wie Serien oder Zeitschriftenbände spielen auch andere Felder eine zentrale Rolle. Zusammen mit einigen weiteren Erkenntnissen aus der Metadatenanalyse haben wir uns entschieden, die Metadaten in die Cluster Titeldaten, Autorendaten, Schlagwörter und Klassifikationen, sowie übergeordete Werke einzuteilen. Dadurch haben wir die Möglichkeit, die Cluster zunächst in sich „auszuwiegen“, um sie dann zueinander in eine sinnvolle Beziehung zu setzen.

Beim „Auswiegen“ der Clusterteile fällt auf, dass das Ranking sich nicht kontinuierlich mit der Änderung der Boostingparameter ändert, sondern es vielmehr jeweils Schwellwerte gibt, bei deren Über- oder Unterschreitung sich das Ranking oft massiv ändert. Diese Schwellwerte hängen natürlich vom Gesamtdatenbestand und auch von den anderen Parametern ab, weshalb sie bei der internen Einstellung der Cluster bestimmt werden sollten. Unsere Strategie ist, die Boostingwerte relativ dicht an diesen Schwellwerten zu orientieren, da sonst die anderen Felder bei der Relevanzbewertung kaum oder gar nicht zu Zuge kommen. Bei der Einstellung der Boostingparameter muss natürlich auch beachtet werden, dass bedingt durch die Feldgrößen (und ggf. durch ein voreingestelltes serverseitiges Boosting) die einzelnen Felder bereits unterschiedliche Gewichte mitbringen. So sind bei unserem GBV-Ausschnitt die Kurztitel um einen Faktor ca. 3 höher bewertet als etwa die Gesamttitel. Neben den Boostingparametern haben wir auch den phrase field Parameter (für Titeldaten) und den Tiebreaker in Betracht gezogen. Während es den Anschein macht, dass der phrase field Parameter in der Regel etwas aufwertet, was aus unserer Sicht nicht unbedingt relevant erscheint (und etwa die Reihenfolge der Suchbegriffe wichtig werden lässt), scheint der Tiebreaker für eine bessere Durchmischung zu sorgen, falls beispielsweise nach Namen gesucht wird, die nicht notwendig den Autor meinen. Darüber hinaus bekommen dadurch auch Ergebnisse ein höheres Gewicht, wenn der Suchbegriff nicht nur in den Titeldaten, sondern auch beispielsweise in den Schlagwort- oder Klassifikationenfeldern vorkommt.

Um die einzelnen Bewertungen zu verstehen und nachzuvollziehen, auf welchen Rang sie die jeweiligen Einträge platzieren, arbeiten wir zunächst mit „known-entity“-Suchen, die obendrein eher kleine Ergebnismengen bringen. So lassen sich dann die Ergebnisse gut mit den eigenen Erwartungen vergleichen und ggf. kann auch beides entsprechend hinterfragt werden. Dabei versuchen wir, zunächst insgesamt ausgewogene Bewertungen zu erzielen (etwa Titel- und Schlagwortdaten), die dann mit offenen Suchen mit großen Ergebnismengen beurteilt werden. Auf der Grundlage dieser Beurteilungen und der Datenqualität der einzelnen Felder (z.B. Belegungsdichte, Qualität der Schlagwörter) werden die einzelnen Boostingparameter wieder verschoben; hier allerdings hauptsächlich in Bezug auf die Bewertung der einzelnen Cluster zueinander. Darüber hinaus ist dies die geeignete Stelle für das Feintuning des Tiebreakers und der allfields-Gewichte und ggf. anderer globaler Parameter.

Schließlich gilt es noch, globale Erwartungen an die Ergebnismengen mit zu berücksichtigen. Dazu gehört in aller Regel das Boosten aktueller Werke mittels einer Boostingfunktion. Dabei ist zu beachten, dass durch ein solches Boosting Zeitschriften benachteiligt werden, da bei ihnen als Erscheinungsjahr das Ersterscheinungsjahr katalogisiert wird. Auch darüber hinaus haben je nach Medium oder Teilbibliothek unterschiedliche Katalogisierungspraxen den Effekt, dass Medien eines bestimmten Formats oder einer bestimmten Bibliothek systematisch benachteilt oder bevorzugt werden. Auch dies sollte mit Hilfe von geeigneten Boostingfunktionen bzw. Boostingqueries abgefangen werden. Dabei können auch eigene Vorlieben (z.B. der Vorrang von Zeitschriften gegenüber einzelnen Artikeln) umgesetzt werden. Wir bevorzugen in allen Fällen additive globale Boostingmechanismen.

Da in diese Überlegungen und Betrachtungen auch Mutmaßungen über die Vorstellungen und Erwartungen der potenziellen Nutzer eingehen, wäre eine externe Evaluation von potenziellen Katalognutzern sinnvoll, um die Ergebnisse einer solchen Evaluation in die Einstellung des Rankings einfließen zu lassen.

Viele kleine Verbesserungen

In den letzen Wochen wurden viele kleine Verbesserungen in beluga eingepflegt. Hier eine Übersicht:

  • Bei vielen Werken werden die Inhaltsverzeichnisse mit indexiert – ein Buch kann also gefunden werden, wenn ein Suchbegriff nur im Inhaltsverzeichnis vorkommt.
  • Die Relevanzsortierung wurde weiter optimiert
  • In der Trefferliste werden jetzt die besitzenden Bibliotheken mit angezeigt
  • Bei Print-Artikeln werden die Ausleihinformationen des enthaltenden Buches angezeigt, sofern bekannt
  • Die Ladegeschwindigkeit der Facetten wurde weiter verbessert
  • Bei bestellten Werken wird jetzt für alle Bibliotheken ein entsprechender Hinweis eingeblendet
  • Bei Detailanzeigen sind die Angaben zur Basisklassifikation jetzt verlinkt, so dass man andere Werke zu dem Thema finden kann

 

Usability und Geschwindigkeit

In dem jetzt beginnenden Wintersemester wird im Rahmen eines Projektseminars von Frau Prof. Ursula Schulz das bestehende beluga auf seine Usability getestet. Die zahlreichen technischen Veränderungen seit Einfühung der Version 2.0 machen diese Tests extrem sinnvoll, damit beluga das erklärte Ziel – ein anwenderfreundliches und nutzerorientiertes Rechercheinstrument zu sein – auch weiterhin erfüllt. Ein weiteres Ziel des Seminars ist die Erarbeitung einer aus Nutzersicht möglichst optimalen Einbindung der Daten aus dem Discoverysystem.

Von Seiten des beluga-Projektes – namentlich der AG beluga – wurde beschlossen, die Ergebnisse des Seminars soweit technisch und finanziell machbar in beluga einfließen zu lassen, so dass die Studie auf jeden Fall nicht nur theoretischen, sondern auch praktischen Nutzen haben wird.

Das beluga-Team freut sich sehr über diese Unterstützung und möchte sich sowohl bei Frau Prof. Schulz als auch bei den Studierenden herzlich dafür bedanken, dass sie beluga als Thema des Seminars möglich gemacht haben.

Darüber hinaus hat beluga einen weiteren Meilenstein hinter sich gebracht: Die Geschwindigkeit und Stabilität des Systems wurden stark verbessert. Zum einen liegt dies an massiven Arbeiten und Verbesserungen von Seiten der Verbundzentrale Göttingen. Zum anderen unterstützt beluga jetzt nachladende Facetten/Filter. Da der Index für die Zusammenstellung der Facetten die meiste Zeit einer Suchanfrage in Anspruch nimmt, werden z.B. die Suchergebnisse jetzt schon vorher angezeigt. Dies führt zu einer gefühlten starken Beschleunigung des Systems – man kann die Treffer schon ansehen, bevor die Facetten angezeigt werden.

Nützlich für die Recherche ist auch, dass seit kurzem in der Kurziste die besitzenden Bibliotheken und die Auflage von Büchern angezeigt werden. Eine Neustrukturierung der Treffer in der Kurzliste macht diese etwas übersichtlicher.

« Neuere Artikel - Ältere Artikel »