Enterprise search 2.0
Récupération des documents plus facile avec l'analyse sémantique
CELI intègre les
technologies sémantiques dans le moteur de recherche DocDigger. DocDigger analyse le contenu des portails et les knowledge base et met à disposition de l'utilisateur final des modalités nouvelles et plus efficaces permettant de récupérer le contenus des documents.
Le point de force principal de DocDigger est apporté par sa capacité à fournir des résultats optimaux dans des domaines spécifiques. Contrairement aux moteurs de recherche généralistes, parmi ceux présents sur Internet, DocDigger est capable de comprendre en une certaine mesure les documents en désambiguant les termes en fonction de leur domaine de recherche.
Ceci permet, par exemple, de faire la distinction entre les différentes
sens du mot Cadre qui peut designer, selon le context un objet, le cadre d'un tableau ou une personne, le cadre d'une societe.
Il doit sa précision à l'intégration de technologies d'analyse sémantique qui représentent le point d'arrivée de dizaines d'années d'activités de recherche et de développement.
En particulier, conformément aux plus récentes indications provenant du monde académique, il intègre les techniques d'analyse symbolique (qui utilisent dictionnaires, grammaires, thesaurus, etc.) avec des algorithmes d'analyse statistique destinés à soutenir des processus comme la classification automatique des documents, la clusterisation, etc.
Du point de vue de l'utilisateur final, une telle intégration se concrétise en une plus grande précision dans la récupération des documents importants et une réduction des temps de recherche.
Caractéristiques de DocDigger
Grâce aux capacités linguistiques de Sophia Semantic Engine, il est possible d'améliorer la recherche sur les portails et les knowledge base.
- Recherche en texte libre (permet d'identifier les mots clés émis par l'utilisateur et en déduire la flexion morphologique).
- Identifier des concepts que l'on retrouve le plus souvent dans des documents qu'ils utilisent comme clé ultérieure de recherche.
- Résumé automatique des concepts présents dans un documents (Snapshot View).
- Expansion par ressemblance conceptuelle.
- Visualisation possible par catégories.
- Classification automatique.
- Clusterisation (regroupement de documents en classes de ressemblance non décidé a priori par l'utilisateur)
- Extraction automatique des entités et de leur utilisation en phases de recherche. (ex.: adresses email, dates, noms d'entreprise, noms de personne, chiffres, etc. )
- Multilingue (langues actuellement disponibles, avec différents niveaux de spécialisation : italien, anglais, français, espagnol, catalan, portugais, allemand, néerlandais, suédois, norvégien, finnois, danois, polonais, russe, biélorusse, estonien, letton, lituanien, ukrainien, grec, turc, arabe, hébreu, arménien, albanais, croate, serbo-croate, tchèque, slovaque, slovène, roumain, bulgare, hongrois, chinois, japonais)
Facet browsing
DocDigger est basé sur la méthodologie de classification à facettes (faceted classification) qui permet de dépasser les limites des taxonomies traditionnelles.
Cette méthodologie introduit une approche multidimensionnelle, sur la base de laquelle les contenus sont décrits en fonction de multiples "facettes", et peuvent être trouvés selon des critères multiples.
La classification multidimensionnelle augmente la facilité d'utilisation des contenus, et grâce à la taxonomie navigable, offre des suggestions implicites pour d'ultérieurs parcours de recherche, se rapprochant des besoins et attentes des utilisateurs.