Qué es el procesamiento del lenguaje natural
El Procesamiento del Lenguaje Natural (PLN) es una disciplina muy amplia que, además de la Recuperación y organización de la Información incluye campos como la traducción automática, reconocimiento del habla, corrección ortográfica de textos, etc. En sus comienzos, la Recuperación de Información utilizaba simples algoritmos de búsqueda de palabras (secuencias de caracteres entre separadores) y métodos estadísticos puros, algoritmos que podrían calificarse de fuerza bruta. La tendencia es que cada vez se introduzca más conocimiento lingüístico y algoritmos propios del PLN, de varios niveles: Bases léxicas, segmentadores, analizadores morfológicos y lematizadores, tesauros (jerarquías de conceptos organizados en torno a ciertas relaciones semánticas: meronimia/holonimia, hiperonimia/hiponimia, sinonimia, etc.).
Éstas técnicas de procesamiento de lenguaje natural pueden introducirse principalmente en dos puntos del proceso de Recuperación y organización la Información. En primer lugar, pueden utilizarse para crear una descripción de un documento más rica al elaborar la vista lógica del documento. La segunda posibilidad es utilizar el conocimiento lingüístico para transformar una consulta en otra que exprese mejor la necesidad del usuario.
Las principales técnicas para el procesamiento del lenguaje natural son: