Control de autoridades, una herramienta desaprovechada en los sistemas de recuperación.

8 dic 2011

Control de autoridades, una herramienta desaprovechada en los sistemas de recuperación.

Por:Luis Rodríguez-Yunta

El catálogo de autoridades no parece desde luego un tema de actualidad. El propósito de este artículo no es, desgraciadamente, mostrar nuevos desarrollos o aplicaciones de esta herramienta tradicional, sino por el contrario, utilizarlo de ejemplo para subrayar cómo bibliotecas y bases de datos documentales no han sabido o aún no han logrado poner en juego todas sus potencialidades en la sociedad del conocimiento.

Aparentemente, el fichero de autoridades es exclusivamente una herramienta de uso profesional, de uso interno o bien de demanda internacional, como los elaborados por laLibrary of Congress o las diferentes bibliotecas nacionales. Su difusión en los sitios web de las bibliotecas a menudo se presenta como una opción de consulta independiente del catálogo. Cuando se aplica a la recuperación, su implementación se limita a la búsqueda a través de los índices de materias, no en el formulario principal de consulta. Y sin embargo, su utilidad potencial podría ser mucho mayor para facilitar la orientación al usuario y la desambiguación de términos dentro de la búsqueda libre. De igual modo, la filosofía del control de autoridades está presente en los recursos terminológicos como los tesauros, y podría aplicarse en el mismo sentido para la búsqueda libre dentro de las bases de datos documentales.

La desambiguación es una cuestión clave en la recuperación de información. Numerosas palabras cambian de sentido según el contexto, y es imprescindible aclarar con el usuario qué sentido le otorga al buscar un término. El concepto es clave para el desarrollo de la web semántica, pero su aplicación es dificultosa, exigiría por ejemplo el uso sistemático de un sistema de metadatos de materia en los recursos web (Granados-Colillas, 2009). También es un concepto clave para los sistemas de inteligencia artificial; un campo con varias líneas de investigación para informáticos y lingüistas desde 1950 (Sanderson, 2000). El problema está aún lejos de resolverse en los programas de procesamiento de lenguaje natural, y una de las estrategias que se proponen radica en su aplicación selectiva, ya que sólo algunas palabras deben ser desambiguadas en función de su capacidad de discriminación (Perea-Ortega et al., 2011).

Pero a niveles sencillos y prácticos, la desambiguación se aplica con éxito en sistemas concretos desde los inicios de internet. Nadie entendería un buscador de compra de vuelos donde al solicitar que quiero ir de Miami a Barcelona el programa me ofreciera indistintamente viajes a España y otros a Venezuela en la misma respuesta. La solución es clara, cuando se teclea un término ambiguo, el sistema obliga a que el usuario se defina, a través de una tabla de valores válidos, pero que también se puede enriquecer con sinónimos y relaciones. Y funciona perfectamente, porque hay un campo de búsqueda con una utilidad concreta que se contrasta con una tabla construida con coherencia.

Otro ejemplo de uso generalizado en donde funciona perfectamente la desambiguación es la Wikipedia. Como en el caso del buscador de vuelos, el sistema de recuperación en este producto no intenta localizar simplemente registros que contengan la palabra tecleada, sino que devuelve al usuario una lista de valores posibles que responden a su búsqueda, basada exclusivamente en las entradas principales de la enciclopedia y sus relaciones de equivalencia (use–usado por). Y esto ocurre sólo si hay necesidad, cuando hay varias opciones, no se obliga a este paso por defecto, pero tampoco se mezclan resultados de dudosa pertinencia en la respuesta al usuario.

Por el contrario, si busco Rubén Darío en el catálogo de la Biblioteca Nacional de España, en la respuesta se mezcla “Azul” con un título tan poco poético como “Estado de bienestar y trabajo social” (de un tal Rubén Darío Torres). ¿Sería mucho pedir que el Opac me preguntase a qué Rubén Darío me refiero? Si no admitiríamos un fallo de este tipo en un buscador de vuelos, ¿por qué admitirlo en un catálogo bibliográfico, que además sí dispone de herramientas para ofrecerme mayor precisión?

Efectivamente, es posible localizar las obras de o sobre el poeta Rubén Darío con una eficacia del 100%, pero exclusivamente a través de la consulta de los índices y la selección de la entrada adecuada. La herramienta existe en la mayor parte de los recursos documentales, salvo en las bases de sumarios, pero en ocasiones no se ofrece al usuario o bien queda oculta y no va a ser utilizada. Por ejemplo en las bases documentales del Csic (ISOC–ICYT–IME) sí se ofrece la consulta de índices por campos, la única opción que puede resolver eficazmente las búsquedas que tienen problemas de ambigüedad. Pero sabemos que el usuario apenas utiliza este recurso e incluso algunos compañeros de trabajo opinan que deberíamos quitar los índices de campo porque también muestran los errores tipográficos o las inconsistencias que intentamos evitar pero no siempre conseguimos corregir.

Durante los últimos años es recurrente que la profesión convoque jornadas y conferencias para hablar de innovación y adaptación continua al cambio. Sin embargo, hay dos factores que dificultan que estos principios pasen de meras etiquetas a realidades tangibles:

1. Las bibliotecas y centros de documentación, en general, no son creadores sino consumidores de software. Se limitan a instalar un paquete con un diseño meramente “razonable” y conviven con ese nivel para siempre. Carecen de capacidad para la mejora continua que muestran otros sectores. No pueden perseguir la excelencia porque no viene en el diseño estándar del programa. Y el resultado es una multitud de presentaciones casi idénticas que repiten las mismas limitaciones, sin que los errores de uno puedan servir de alerta para otros.

2 – Se confunde el modelo con el que debe compararse el sistema de recuperación de los catálogos y bases de datos documentales. Se ha buscado asemejarse con los buscadores de objetivo genérico como Google, cuando debería compararse con sistemas de objetivo específico como el buscador de vuelos o la Wikipedia. El usuario de un recurso bibliográfico no busca “cualquier cosa que contenga X”, utiliza un catálogo o una base de datos para un número de posibles utilidades muy reducido que pueden ofrecerse en un menú sencillo. ¿Por qué entonces la insistencia en ofrecer un formulario simple que parece servir para todo y en consecuencia ignora los objetivos del usuario? Por supuesto, el impacto de Google sobre los hábitos de búsqueda es incuestionable. Pero ello no quiere decir que sólo puedan ser apreciados aquellos programas que muestren un funcionamiento similar. ¿Para qué parecerse a un producto si el usuario no va a preferir otro por el criterio de similitud? ¿No sería preferible no parecerse y reforzar utilidades diferenciadoras? ¿Es que algún usuario utiliza Google para contratar un viaje, alquilar un piso o buscar pareja? Lo utiliza para localizar páginas diseñadas para estos usos específicos pero una vez dentro de ellas no espera que su diseño sea el mismo que el del buscador, sólo desea un producto que le de precisión y eficacia en la selección de resultados.

En el contexto actual, la pertinencia en los primeros registros que se muestran es fundamental para ofrecer una imagen de eficacia. Los buscadores de objetivo genérico han procurado solucionar este problema en base a algoritmos complejos de ordenación que buscan atinar con las demandas más generalizadas de un término (que pueden variar según el país). Los productos bibliográficos, o más bien, los programadores de software para vender a las bibliotecas y centros de documentación, han añadido este concepto de ordenación por relevancia, como una opción que podemos implementar por defecto o no, pero que tiene bastante poco que ver con aprovechar las herramientas de normalización e indización con las que cuentan estas instituciones. Y además sus resultados son bastante menos eficaces que en Google, porque se carece de la capacidad de adaptación y mejora continua del programa. La búsqueda por índices y el control de autoridades, que podrían garantizar la máxima eficacia, han quedado marginados en el diseño.

Las listas de autoridades se citan entre las herramientas susceptibles de incorporarse en proyectos de Open data y Linked open data (Peset, Ferrer-Sapena y Subirats-Coll, 2011). Podría darse la paradoja de que haya aplicaciones ajenas al sector de la biblioteconomía y documentación que implementen estas fuentes bajo la filosofía de compartir datos, y sin embargo los recursos bibliotecarios y documentales continúen desaprovechando su potencial.

Referencias bibliográficas

Granados-Colillas, Mariàngels. “Tratamiento de los metadatos de contenido en la web semántica o cuando la lógica se hace evidente”. En: Nuevas perspectivas para la difusión y organización del conocimiento. IX Congreso ISKO-España. Valencia: Universidad Politécnica, 2009, pp. 1043-1054.
http://eprints.rclis.org/handle/10760/13223

Perea-Ortega, José M.; Martínez-Santiago, Fernando; García-Cumbreras,Miguel A.; Montejo-Ráez, Arturo (2011). “Desambiguación de términos basada en IDF aplicada a recuperación de información”. Procesamiento del Lenguaje Natural, 2011, marzo, n. 46, pp. 99-106.
http://sinai.ujaen.es/sepln/ojs/ojs-2.3.5/index.php/pln/article/view/849/704

Peset, Fernanda; Ferrer-Sapena, Antonia; Subirats-Coll, Imma. “Open data y Linked open data: su impacto en el área de bibliotecas y documentación”. El profesional de la información, 2011, marzo-abril, v. 20, n. 2, pp. 165-173.
http://www.elprofesionaldelainformacion.com/contenidos/2011/marzo/06.pdf

Sanderson, Mark. “Retrieving with good sense”. Information Retrieval, 2000, n. 2, pp. 47-67.
http://www.springerlink.com/content/hw74t942tl72w265

Fuente: http://www.thinkepi.net/control-de-autoridades-una-herramienta-desaprovechada-en-los-sistemas-de-recuperacion