representa dar los primeros pasos rumbo al text mining
Características y objetivos del tratamiento de textos El tratamiento de archivos de texto persigue varios objetivos y presenta varias características, de entre las que destacan:
Objetivos ✔
Explorar los datos almacenados en los archivos de texto
✔
Manipular y/o procesar el contenido de los archivos de texto.
✔
Realizar un análisis de los datos almacenados
Expresión regular Una expresión regular es un modelo o una forma de comparar con una cadena de caracteres. Esta comparación es conocida con el nombre de pattern matching o reconocimiento de patrónes, permite identificar las ocurrencias del modelo en los datos tratados. La utilización principal de las expresiones regulares en Perl consiste en la identificación de cadenas de caracteres para la búsqueda, modificación y extracción de palabras clave.
Características ✔
Permite realizar recorridos exhaustivos del contenido de uno o varios archivos de texto
✔
Permite realizar búsquedas de coincidencias y reemplazos de patrónes de texto bajo ciertos criterios.
Forma de hacerlo Existen varias formás de hacer el tratamiento de archivos de texto, una de las más sencillas y prácticas es utilizar el poder de las expresiones regulares de algún lenguaje de programación, para nuestro caso de estudio haremos uso del lenguaje Perl.
Tipos de expresiones regulares ✔
Expresiones regulares de búsqueda y/ o comparación
✔
Expresiones regulares de sustitución
✔
Expresiones regulares de traducción.
Requisitos Para cumplir el objetivo inicial de este artículo, precisaremos: ✔
Tener instalado el lenguaje Perl.
✔
Tener una programación
idea
básica
de