Moteur de recherche d'entreprise et web, knowledge management, veille
InfoCodex récolte l'information sur le réseau interne de l'entreprise (dans des bases de données, des applications de messagerie ou des répertoires de fichiers...) et/ou sur Internet. Il repère les méta données, extrait les thèmes contenus dans les documents et réalise enfin une "carte thématique" de l'information. Tout ceci se fait de manière entièrement automatique. Les recherches se font ensuite par mots-clef, concepts, méta données ou à partir d'un texte complet par similarité de contenu.
InfoCodex récolte l'information sur Internet, sur les sites Web commerciaux (à condition que l'utilisateur soit abonné), dans les boites de messagerie (Outlook, Outlook Express, Mozilla Thunderbird, Netscape Messenger...) ou encore sur le réseau interne de l'entreprise et notamment dans des bases de données existantes (par ex. Lotus Notes) ou des répertoires de fichiers.
Il détecte la langue des documents trouvés, puis il les indexe automatiquement en 5 langues pour permettre des recherches en texte intégral. Il repère également les méta données des documents tels que auteurs, titres, dates, etc. Il extrait les concepts contenus dans les documents et classe à la volée les documents par thèmes sur deux niveaux.
Il réalise enfin une "base de données" des documents. Celle-ci est représentée graphiquement sous la forme d'une "carte thématique". Tout ceci se fait de manière entièrement automatique. Les formats des documents supportés sont extrêmement nombreux (Microsoft Office, PDF, HTML, XML, Lotus, courriels divers, etc.).
InfoCodex s'appuie sur 3 technologies : la linguistique, la statistique et les réseaux de neurones auto-organisants en liaison avec une base de données linguistique.
Dans un premier temps, le logiciel reconnaît les mots ou expressions des documents par comparaison avec la base de données. Des algorithmes linguistiques permettent d'étendre la détection des mots ou expressions. Au total le logiciel est ainsi capable de reconnaître environ 6 millions de mots. Chaque mot reconnu est relié à un groupe synonyme, ce qui permet de réduire la description d'un document à des groupes de synonymes munis d'attributs statistiques. Les groupes synonymes sont eux-mêmes reliés à une taxonomie de 4.000 termes hiérarchisés sur 7 niveaux, qui forment la base de classification par thème.
La plateforme utilise les réseaux de neurones pour effectuer une classification automatique par thème de façon dynamique sans aucun apprentissage. Le logiciel peut également réaliser à la demande des résumés automatiques des documents et regrouper les documents "quasi-identiques".
InfoCodex inclus également un séquenceur de recherche qui permet par exemple sur un sujet donné d'aller automatiquement faire des recherches sur plusieurs sources de documents à la fois (Internet, intranet, boîtes de messagerie, répertoire, etc.), à un intervalle de temps prédéfini.
A cela s'ajoute des caractéristiques de sécurité très importantes.