Biblioteki cyfrowe
Zaawansowane i wielojęzyczne wyszukiwanie w bibliotekach cyfrowych i OPAC
Współczesny użytkownik bibliotek cyforwych, lub prościej - użytkownik OPAC, przyzwyczajony jest do posługiwania się wyszukiwarkami internetowymi takimi jak Google czy Yahoo, jako głównymi środkami służącymi do uzyskiwania informacji.
Interfejsy, jakimi dysponują tradycyjne OPAC nie są zaprojektowane do tego rodzaju wyszukiwania, jako że skupiają się bardziej na katalogowaniu danych niż na ich wyszukiwaniu.
CELI, dzięki współpracy z bibliotekami oraz z międzynarodowymi centrami badań (w szczególności z Wydziałem Informatyki Uniwersytetu w Bolzano) stworzyło rozwiązanie, będące w stanie zintegrować się z istniejącym już OPAC, a jednocześnie zapewnić możliwie najprostsze dotarcie do tekstów poszukiwanych przez użytkownika.
Koncepcja jest oparta na dwóch podstawowych założeniach:
-
Prostocie: jedno okienko tekstowe powinno w zupełności wystarczyć do zapewnienia użytkownikowi dotarcia do poszukiwanej informacji. Najnowsze badania wykazały, że bardziej złożone formy nawigacji czy wyszukiwania pozostają często niewykorzystane, bądź też wykorzystane w sposób nieodpowiedni.
-
Inteligentnym przetwarzaniu: w przeciwieństwie do prostoty interfejsu, system indeksowania i wyszukiwania w środowisku takim jak Biblioteki Cyfrowe czy E-Catalogues musi być oparty na awangardowych technologiach, aby móc rozwiązać takie problemy, które nie pojawiają się w przypadku normalnego wyszykiwania tekstowego.
Prostota i inteligentne przetwarzanie
Dzięki potencjałowi lingwistycznemu zawartemu w Sophia Semantic Engine, możliwe jest ulepszenie procesu wyszukiwania w katalogach cyfrowych i/lub zbiorach tekstów w formacie elektronicznym:
- sprowadzenie do formy podstawowej i analiza morfologiczna (zapytania "roślina tropikalna" i "rośliny tropikalne" dają jednakowe rezultaty)
- wykorzystanie tezaurusów w celu pogłębienia wyszukiwania (zapytanie "roślina tropikalna" daje również rezultaty zawierające słowa "drzewa tropikalne")
- automatyczne rozpoznawanie nazw własnych (na zapytanie "Róża Luksemburg" wynik pierwszej analizy wskaże teksty autorstwa lub mówiące o socjalistycznej działaczce, a nie te zawierające rzeczowniki "róża" i "Luksemburg")
- indeksowanie oparte o różne pola katalogu oraz o teksty w formacie elektronicznym
- integrowanie z różnymi formami list słów kluczowych, będących w użyciu w bibliotece
Wyszukiwanie wielojęzyczne
Większość bibliotek posiada w swoim katalogu również teksty obcojęzyczne. Pondto, obserwujemy stale zwiększającą się mobilność badaczy i ludzi nauki. W dzisiejszych warunkach wiele bibliotek musi stawiać czoła problemowi wyszukiwania wielojęzycznego.
Konieczność zapewnienia wielojęzycznego dostępu do katalogów staje się także kluczową kwestią w przypadku projektu stworzenia OPAC na poziomie europejskim.
Dzięki dziesięcioletnim doświadczeniom zebranym w dziedzinie "Cross Language Information Retrieval",
CELI jest w stanie zaoferować systemy umożliwiające wielojęzyczny dostęp do katalogów elektronicznych
i bibliotek cyfrowych, oparte na tej samej prostocie użytkowania, jaka cechuje wersję monojęzyczną.
Użytkownik wskazuje po prostu języki poszukiwanych przez siebie pozycji, po czym wpisuje zapytanie w swoim języku ojczystym.
System wyszukuje rezultaty w każdym ze wskazanych języków.
- szeroka gama słowników dwujęzycznych do tłumaczenia zapytań: włoski, angielski, francuski, niemiecki, polski
- automatyczna aktualizacja słowników dwujęzycznych na podstawie zapytań wprowadzanych przez użytkowników
- dezambiguacja w celu wskazania właściwego dla danej dziedziny tłumaczenia
- ekspansja wielojęzyczna zorientowana na identyfikację cyfrowego przedmiotu poszukiwania, nawet jeżeli nie zostałoby odnalezione dosłowne tłumaczenie słów wprowadzonych przez użytkownika
- niezależność od systemu katalogowania: system posługuje się wieloma sposobami klasyfikacji narodowych (na przykład: lista słów kluczowych, subject headings, itd.) w celu ulepszenia otrzymywanych rezultatów, przy czym strategia odpowiedzi na zapytania wielojęzyczne nie jest uzależniona od użytej listy słów kluczowych