La minería de datos es el proceso de análisis desde diferentes perspectivas y su resumen de información útil (información que se puede utilizar para aumentar ingresos, reducir costos, o ambos). Por lo general, el software que se usa para la minería de datos es uno de una serie de instrumentos analíticos integrales para el análisis de datos. Este software permite analizar los datos desde diversas dimensiones o ángulos, clasificar, y resumir las relaciones identificadas.
Técnicamente la minería de datos (o data mining) surge para facilitar la comprensión de contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas -y en algunos casos- de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.
En el momento que se le atribuye algún significado especial a la data (como materia prima bruta) pasa a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que esa interpretación que surge entre la información y ese modelo, represente un valor agregado, entonces nos referimos al conocimiento.
Etapas de la minería de datos
Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común se suele componer de cuatro etapas principales:
- Determinación de objetivos. Es la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining.
- Preprocesamiento de datos. Se refiere a la selección, limpieza, enriquecimiento, reducción y transformación de las bases de datos (esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining).
- Determinación de modelos. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
- Análisis de los resultados. Verificación de resultados obtenidos y cotejo con los obtenidos por los análisis estadísticos y de visualización gráfica. Aquí, el analista de riesgos determina si aportan un nuevo conocimiento que le permita considerar decisiones de cambio a la organización.
La generación de un modelo de minería de datos forma parte de un proceso integral que incluye: desde la formulación de preguntas acerca de los datos y la creación de un modelo para responderlas, hasta la implementación del modelo de mitigación de riesgos en un entorno de trabajo.
Técnicas de la minería de datos
La tecnología de información a gran escala ha ido evolucionando, gracias a esto, un software de minería de datos eficaz analiza las relaciones y patrones en los datos de transacción almacenados sobre la base de consultas de los usuarios de composición abierta.
Conozca a continuación 4 técnicas de la minería de datos altamente eficientes y que podrá aplicar en su organización para la mitigación de riesgos:
- Algoritmos genéticos. Los algoritmos genéticos además de imitar la evolución de las especies mediante la mutación, reproducción y selección, también proporcionan programas y optimizaciones que pueden ser usadas en la construcción y entrenamiento de otras estructuras (como las redes neuronales). Estos algoritmos permiten, de una forma más ordenada y eficaz la consecución de información.
- Árboles de decisión. Las estructuras en forma de árbol representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos, y constituyen un conjunto de reglas que se pueden aplicar a un nuevo conjunto de datos; todo esto para predecir cuáles registros tendrán un mejor resultado.
- Visualización de datos. Las herramientas de gráficos se utilizan para ilustrar las relaciones de datos.
En muchos casos las empresas son muy celosas de sus datos y resultados en minería de datos. Por eso es frecuente que rechacen contratar trabajos de minería de datos con empresas especializadas en tecnología integral aplicada a la seguridad. Sin embargo, hay que entender que la minería de datos va más allá de la estadística tradicional.
La minería de datos está en pleno auge y aún muchas organizaciones no son conscientes de la importancia que tiene. Su avance se constata en la generación de empleo, el desarrollo organizacional y la seguridad electrónica.