Provocările cu care se confruntă serviciile moderne de bibliotecă sunt duble. Pe de o  parte, din perspectiva utilizatorului, trebuie asigurat un acces rapid la informaţia relevantă pentru acesta. De cealaltă parte, în contextul creşterii exponenţiale a fondului documentar, bibliotecile se văd nevoite să-şi optimizeze permanent procedurile de management al documentelor.  Acest subproiect asigură atât soluţii tehnice de regăsire rapidă a informaţiei, cât şi soluţii de consolidare a procedurilor de management. Gradul înalt de inovaţie este dat de utilizarea celor mai avansate tehnologii de procesare a limbajului, dar şi de noutatea tipurilor de servicii oferite, integrând într-o singură structură, inexistentă în acest moment în România, atât serviciile tehnologice de structurare a informaţiilor, cât şi serviciile publice pentru diferite comunităţi de utilizatori.

Technological services address to the library staff and offer adequate tools for document classification, cataloguing and conservation. Our project will focus on using such tools for the digital document depot of the four Central University Libraries created under project no. 2.

The public services address to the users and involve the following aspects: search assistance (full text search), new reading recommendation based on research-information needs.

The objectives of the Smart Search project are:

  • Document systematization - various algorithms will be introduced for automatic categorization and clustering of documents into similar semantic groups; furthermore, a classification model based on The Digital Library Reference Model and Dublin Core Metadata Initiative (DCMI) will be added in order to automatically label the resources per predefined categories;
  • Creation of a semantic depot for the domain onthologies made as part of the project;
  • Search of relevant documents and exploration of intertextuality links between various collections of documents, starting from semantic models of representation of knowledge (e.g. latent semantic analysis, latent Dirichlet allocation, word2vec);
  • Resources recommendations by using ontology-based algorithms or social recommendations. Thus, onthologies will be created for the 17 domains which will be used for automatic semantic annotation of the texts. Onthologies will be created either manually (by using Protege) or semi-automatically (by using Text2Onto or unsupervised trained semantic models from vast collections of texts).