Propuesta de tesis doctoral

 

Titulo: Aplicación de técnicas formales de análisis de dominio a la construcción de sistemas de ayuda.

Autor: Juan Manuel Cigarrán Recuero.

Directores: Alfredo Fernández Valmayor y Baltasar Fernández Manjón.

El intercambio de información se ha hecho indispensable dentro de nuestra sociedad. La evolución tecnológica de las últimas décadas y la aplicación de la informática a tareas cotidianas han dado como resultado nuevas definiciones del término información y, en general, del acto de comunicar [Marchonini 95]. La producción de materiales almacenados en formato digital se ha incrementado notablemente y la necesidad de procesar y acceder de forma eficiente a toda esta información ha planteado una problemática cuya solución se hace cada vez más urgente.

En el conjunto de bits que representa a una colección de documentos están implícitas multitud de relaciones conceptuales que describen un dominio concreto. La organización y estructuración de estas relaciones dentro de una red o jerarquía conceptual permitiría modelar un dominio partiendo de un conjunto de documentos relacionados con dicho dominio. La aplicación de las jerarquías obtenidas a sistemas orientados al procesamiento de la información (p.e. Tutores Inteligentes, Sistemas de Ayuda, Recuperación de Información, etc.) mejoraría notablemente su eficiencia y facilitaría el acceso y utilización de dicha información por parte del usuario. El problema se plantea cuando la cantidad de relaciones identificables es potencialmente muy grande, o cuando no existe consenso entre los expertos del dominio acerca de cuáles de estas relaciones son las más relevantes. En este caso, abordar un proceso de clasificación de forma manual se convierte en una tarea muy compleja y altamente subjetiva [Cigarrán 97].

Según nuestra propuesta, la solución al problema planteado debe orientarse al procesamiento de toda esta información electrónica de forma automática o semi-automática eliminando, por lo menos en una primera aproximación, los problemas enunciados anteriormente. De este modo, el objetivo principal de este trabajo es el estudio de diferentes técnicas de análisis formal del dominio (con especial énfasis en las técnicas algebraicas) y su integración en sistemas de procesamiento automático de grandes colecciones de documentos. La idea central del trabajo se orienta a la aplicación de estas técnicas a la extracción del conocimiento implícito en grandes colecciones de documentos y a su posterior representación en forma de una red conceptual. Por otra parte, disponer de las estructuras jerárquicas proporcionadas por este tipo de técnicas permite la reutilización de la información electrónica disponible mejorando el diseño e implementación de sistemas concretos.

En nuestra hipótesis actual la técnica de análisis más importante orientada a la extracción, organización y estructuración automática del conocimiento conceptual implícito en los documentos de un dominio es el Análisis Formal de Conceptos (AFC) [Wille 82, Wille 92]. El AFC proporciona una base teórica sólida para el desarrollo de herramientas capaces de realizar una clasificación conceptual de la información, y cuya aplicación no sólo se ha centrado en dominios tecnológicos como la Informática [Fernández-Manjón 97, Burmeister 96], sino que también ha sido aplicado con éxito en otras disciplinas más descriptivas como son la biología, la psicología o la sociología [Kent 95].

El estudio del AFC y de otras técnicas similares tiene especial interés cuando es necesario trabajar con un gran número de entidades u objetos que puedan describirse mediante un amplio conjunto de propiedades o atributos. Estas técnicas permiten la clasificación y estructuración automática de toda esta información basando la jerarquía obtenida en los conceptos formales del dominio (también denominados clases conceptuales o categorías), que son pares de conjuntos de objetos y atributos [Ganter 97, Kent 95, Wille 82, Wille 92].

En la teoría del AFC se parte de una entidad matemática denominada contexto formal que se define como un conjunto de objetos y atributos relacionados entre sí mediante una relación de incidencia "tiene un". La necesidad de disponer previamente de un contexto formal para obtener los conceptos formales de un dominio restringe la aplicación directa del AFC a colecciones de documentos con unas características muy concretas en las cuales sea posible identificar de forma sencilla tanto los objetos como los atributos que caractericen al dominio. Por esta razón, en este trabajo no proponemos la aplicación del AFC como una técnica aislada sino que pensamos que su integración con otras técnicas de extracción y organización de la información (p.e. técnicas de recuperación de información) [Carpineto 95, Salton 89, Araya 90] podría mejorar el proceso de creación de las redes conceptuales ampliando el espectro de aplicación de esta técnica a dominios más complejos.

Como ya se ha expuesto anteriormente, existe una gran variedad de sistemas sobre los que la utilidad de las redes conceptuales, así como la posibilidad de reutilizar documentación electrónica disponible, mejoraría notablemente su implementación y mantenimiento y, por tanto, reduciría sus costes. Este trabajo se centrará en el estudio de la integración de estas técnicas en sistemas de ayuda. En estas aplicaciones no se pretende sustituir el papel del experto a la hora de evaluar un dominio sino obtener herramientas capaces de orientar su tarea de clasificación y estructuración del conocimiento sobre dominios complejos. Los resultados de esta propuesta podrían tener como campo de aplicación directo la organización de información dentro de entornos tan diversos como Internet, aunque también se podría orientar su utilización al desarrollo de tutores inteligentes y sistemas de ayuda.

 

 

Bibliografía

 

[Burmeister 96]

Burmeister, P. "Formal Concept Analysis with ConImp: Introduction to the Basic Features". Tech. Report, Arbeitsgruppe Allgemeine Algebra und Diskrete Mathematik, Technical University of Darmstadt, Darmstatdt, Germany, 1996.

[Carpìneto 95]

Carpineto, C., Romano, G. "Automatic Construction of Navigable Concept Networks Characterizing Text Databases". M. Gori, G. Soda (Eds.) Topics in Artificial Intelligence, Lectures Notes in Artificial Intelligence 992, Springer-Verlag, Berlin, pp. 67-78, 1995.

[Cigarrán 97]

Cigarrán, J.M., Fernandez-Manjon, B. "Desarrollo de sistemas de ayuda basados en técnicas de recuperación de información y análisis formal de conceptos". En Torres, J.C. (Ed) Actas de las III Jornadas de Informática, AEIA, pp. 167-176, 1997.

[Fernández-manjón 96]

Fernandez-Manjon, B. Desarrollo de sistemas de ayuda inteligente mediante integración de tecnologías y reutilización de información, Tesis Doctoral, Dept. de Informática y Automática, Universidad Complutense de Madrid, 1996.

[Ganter 97]

Ganter, B., Wille, R. "Applied Lattice Theory: Formal Concept Analysis". Institut für Algebra, TU Dresden, Germany, [WWW document, http://www.math.tu-dresden.de:80/~ganter/concept.ps], 1997.

[Kent 95]

Kent, R. E. "Automatic Classification". Intel Corporation surveys, March 1995.

[Salton 89]

Salton, G. Automatic Text Processing: the transformation, analysis and retrieval of information by computer, Edit. Addison Wesley, 1989.

[Wille 92]

Wille, R. "Concept Lattices and Conceptual Knowledge Systems". Computers and Mathematics with Applications, vol. 23, pp. 493-522, 1992.

[Araya 90]

Araya, J., 1990. Interactive Query Formulation and Feedback Experiments in Information Retrieval. Doctoral Dissertation, TR90-1115, Cornell University, USA.

 

[Marchionini 95]

Marchionini, G., 1995. Information Seeking in Electronic Environments. Cambridge University Press.

 

[Wille 82]

Wille, R., 1982. Restructuring lattice theory: An approach based on hierarchies of concepts. En I. Rival (Ed.), Ordered Sets, pp 445-470, Reidel.