ATIX20

Page 39

representa dar los primeros pasos rumbo al text mining

Características y objetivos del tratamiento de textos El tratamiento de archivos de texto persigue varios objetivos y presenta varias características, de entre las que destacan:

Objetivos ✔

Explorar los datos almacenados en los archivos de texto

Manipular y/o procesar el contenido de los archivos de texto.

Realizar un análisis de los datos almacenados

Expresión regular Una expresión regular es un modelo o una forma de comparar con una cadena de caracteres. Esta comparación es conocida con el nombre de pattern matching o reconocimiento de patrónes, permite identificar las ocurrencias del modelo en los datos tratados. La utilización principal de las expresiones regulares en Perl consiste en la identificación de cadenas de caracteres para la búsqueda, modificación y extracción de palabras clave.

Características ✔

Permite realizar recorridos exhaustivos del contenido de uno o varios archivos de texto

Permite realizar búsquedas de coincidencias y reemplazos de patrónes de texto bajo ciertos criterios.

Forma de hacerlo Existen varias formás de hacer el tratamiento de archivos de texto, una de las más sencillas y prácticas es utilizar el poder de las expresiones regulares de algún lenguaje de programación, para nuestro caso de estudio haremos uso del lenguaje Perl.

Tipos de expresiones regulares ✔

Expresiones regulares de búsqueda y/ o comparación

Expresiones regulares de sustitución

Expresiones regulares de traducción.

Requisitos Para cumplir el objetivo inicial de este artículo, precisaremos: ✔

Tener instalado el lenguaje Perl.

Tener una programación

idea

básica

de


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.