sábado, 5 de diciembre de 2009

Introducción

 

Minería de Datos

La minería de Datos es la mezcla de disciplinas, concretamente Estadística y aprendizaje de computadoras la cual se encarga de la extracción de patrones y de información valiosa oculta en los datos almacenados para que estos sean útiles, todo esto mediante la aplicación de algoritmos específicos.



Herramienta con la cual se adecuan modelos de los datos en observación, los cuales poseerán formalismos Lógicos y Estadísticos y los resultados podrán ser descriptivos (simplemente como descubrimiento de patrones de los datos) o predictivos (para la clasificación de datos nuevos a partir de los resultados de los anteriores datos.

Métodos de la Minería de Datos

Para el proceso de la minería de datos se cuenta con 5 métodos, descritos a continuación:

1. Modelos Predictivos: Predecir algunos campos de la BD tomando como base otros campos.

i) Si la variable es numérica continua, la predicción es un problema de regresión.

ii) Si el campo es categórico es un problema de clasificación.

La regresión lineal combinada con la no lineal resuelven una gran cantidad de problemas. La transformación de las entradas representa una dificultad ya que se requiere de un conocimiento del problema y algo de sentido común.

El objetivo de la clasificación es predecir el estado más parecido a la variable categórica (estimación de densidad), en problemas de este tipo, lo que se requiere es la extracción de elementos útiles.

2. Clustering o Segmentación: Se generan subconjuntos con datos que son similares en cuanto a valores. En este caso no se especifican campos para predecirlos. Dado que no se sabe con precisión cuantos clúster se debe tener, los algoritmos emplean técnicas de búsqueda de dos fases: 1) Un loop externo sobre posibles clúster y 2) Un loop externo para localizar el mejor clúster.

Dado el número de clúster los métodos pueden ser 3:

I. Metric Distance based Methods (Métodos basados en Distancia Métrica): La medida de la distancia es definida y el objetivo se convierte en encontrar la mejor forma de partición, en los casos en los que el bloque de partición están cerca unos de otros clúster (centroide).

II. Model Based Methods (Métodos basados en el modelo): Se hace una hipótesis del modelo de cada uno de los clúster, la idea es encontrar la que mejor le encaje a los clúster.

III. Partition Based Methods (Métodos basados en partición): Básicamente enumera varias particiones y los anota bajo algún criterio.

El problema es fundamentalmente estadístico por naturaleza y el clustering se transforma en un problema de determinación de modos en la función de densidad



3. Sumarización: El objetivo es la extracción de patrones compactos que describan conjuntos de datos. Hay dos clases de métodos que representan los cortes verticales (campos) u horizontales (casos) de los datos. Lo que se desea a final de cuentas es poder predecir las relaciones entre los atributos. El método determina las reglas de asociación; ciertas combinaciones de valores que ocurren con otras combinaciones con cierta frecuencia y exactitud.



4. Modelado de Dependencias (Change and deviation Detection): La vista interna se gana al derivar la estructura casual con los datos. Los modelos de causalidad pueden ser probabilísticos o pueden ser deterministicos al derivar las dependencias funcionales entre los campos de los datos. Los métodos de estimación de la densidad en general caen en esta categoría, así como los métodos de modelaje explicito causal.



5. Detección de cambios y variaciones (Change an deviation detection): Estos métodos son utilizados para la secuencia de información, para el ordenamiento. El rasgo que distingue a estos métodos es que el ordenamiento de la observación es muy importante. Los métodos escalables para encontrar las secuencias frecuentes en las BD, que en el peor de los casos es complejamente exponencial, parece ejecutarse eficientemente en las bases de datos transaccionales del mundo real.





1 comentario:

  1. Es bastante clara la identificación de los tipos y modos de la minería de datos.

    ResponderEliminar