Descripcion

procesamiento del lenguaje natural - Introduccin

Por Jose Ramon Perez Aguilera, 28 November 2005

En los ultimos tiempos el procesamiento lenguaje natural, y la la recuperacion y organizacion de la informacion es uno de los terminos mas utilizados cuando nos referimos a la Web es la Web Semantica. Como si de Harry Potter se tratara, todo experto en Internet que se precie, debe conocer estas dos palabras magicas simbolo del futuro de una Internet mas ordenada, mas organizada, mas catalogada, en definitiva mas bibliotecaria (esta frase es de la insigne entre las insignes: Eva Mendez).

No es miobjetivo definir ni discutir el significado del termino Web Semantica, ni el procesamiento lenguaje natural ya que insignes cientificos y pensadores se han encargado de hacerlo con mucha mayor claridad de lo que yo podra hacerlo jamas. Sin embargo, como persona pragmatica que soy, si voy a entrar a comentar en esta breve nota thinkepiana cuales son los elementos, herramientas y utilidades que son necesarias para que la Web Semantica deje de ser un concepto y se convierta en una realidad. Por supuesto, toda originalidad en mis planteamientos queda descartada, y no pretendo mas que convertirme en un mero compilador de evidencias existentes como la la recuperacion y organizacion de la informacion en el panorama investigador que en la actualidad se encuentra en torno al concepto de Web Semantica.

En el ultimo congreso internacional sobre Web Semntica, celebrado en Osaka, del 18 al 21 del mes pasado, la presencia de aplicaciones centradas en Procesamiento de Lenguaje Natural (PLN) fue ms que notable. De hecho, Gate, una conocida aplicacin para ingeniera lingstica diseada en la universidad de Sheffield, fue una de las estrellas invitadas (de forma no oficial) al figurar referenciada en un buen nmero de los trabajos presentados al congreso.

Ahora bien, Procesamiento del Lenguaje Natural es la utilidad para la implementacin de una Web ms Semntica, no es un descubrimiento de este ao. En el pasado 2004, Ricardo Baeza-Yates firmo un interesante trabajo (otro mas) sobre la aplicacin de tcnicas de Recuperacion y Organizacion de la Informacion (RI) donde propona a la Web Semntica como una de las principales aplicaciones prcticas de tcnicas convidadas de PLN y RI.

Sin duda deben existir informacion, Procesamiento del Lenguaje Natural y bastantes ms referencias a la vinculacin entre procesamiento lenguaje natural, RI y Web Semntica que ahora mismo se me escapan. Pero mi objetivo aqui no es el de presentar una relacion exhaustiva de la vinculacin entre estos tres elementos, sino, mas bien, y continuando con mi proselitismo tecnologico en el area de ByD, animar a todos aquellos atrevidos documentalistas que se introducen en la Web Semntica como area de investigacion, a bucear en la literatura de procesamiento del lenguaje natural y RI que ya existe y que es fundamental para hacer realidad el sueo de Tim Berners-Lee. Animarles tambin a manejar las herramientas necesarias para implementar la Web Semantica, tales como Gate,Protege, Lucene, Nutch, o tantas otras, aunque para ello haya que aprender a programar, ya que esta es la unica forma de hacer que, realmente, la Web Semantica sea una Web ms bibliotecaria, y no solamente ms informtica.

Muchos pueden argumentar que el propio padre de la idea defiende que la Web Semntica no es una Web basada en tcnicas pertenecientes al rea de Inteligencia Artificial (IA), pero esto no significa que nos podamos utilizar estas tcnicas como base y apoyo para la implementacin de su idea, ya que, ms all de rencillas de carcter acadmico, todo lo que nos ayude a hacer realidad una nueva Web es til independientemente de conceptualizaciones de carcter terico.

Hay que tener en cuenta que, hoy por hoy la Web Semntica no existe como tal, la recuperacion y organizacion de la informacion mas alla de implementaciones puntuales de caracter experimental. El hecho de que exista pasa inexorablemente por la generacin de contenidos web semanticos que den cuerpo a la idea de una web mas organizada. La generacion de contenidos de caracter semantico no es asimilable de forma manual por lo usuarios y autores de la Web, por lo que es necesario la automatizacin de todas, o por lo menos parte de las tareas de generacion de contenidos web semanticos. Es aqui donde el procesamiento lenguaje natural y la RI tienen mucho que aportar, ya que permiten la implementacion de aplicaciones capaces de generar informacion de tipo semantico que dote de cuerpo a la Web Semantica y la conviertan en una realidad.

Analizadores sintacticos, que permitan comprender la estructura de las frases de forma automatica, procesamiento lenguaje natural, etiquetadores lxicos, reconocedores de entidades como nombres, fechas lugares, todas ellas son herramientas automticas esenciales para la generacion de contenidos web semanticos, es mas, me atrevo a decir que sin ellas no es posible una web semntica real, ya que el coste de elaboracin manual de contenidos semnticos no es asimilable desde ningn punto de vista.

Una buena forma de ver en practica las ideas a las que brevemente hago referencia en esta nota es acudir a la jornada organizada por el grupo Normaweb de SEDIC el prximo da 12 de diciembre en madrid, donde hablarn Asuncin Gmez y Richard Bejamins a los cuales merece mucho la pena escuchar cuando hablan de estos temas (tambien hay otros ponentes cuyo interes es mucho menor, pero claro, no se puede tener todo).

Lo aqui expuesto no invalida ni mucho menos otras ideas sobre la implementacion de la Web Semantica, pero si se acerca, o al menos ese es el objetivo, a lo que supone la implementacion real de la idea, lo cual es desde mi punto de vista la mejor forma de acallar a aquellos que opinan que la Web Semantica es un concepto vacio, una entelequia sin sentido o una utopa irrealizable.

Esto es la recuperacion y organizacion de la informacion.

Links Externos y documentacion

Victor Sanchez Alonso, alumno de cuarto curso en Ingenieria Superior Informatica, en la Universidad Carlos III de Madrid

1