Minería de Datos y Minería de Textos
MINERÍA DE DATOS
La gestión del conocimiento es un concepto
actualmente muy utilizado por las organizaciones que procura transferir el
conocimiento y la experiencia de sus recursos humanos, de tal manera que sea
disponible y pueda ser utilizado por
otros miemnros de la organización
El
crecimiento de los almacenes de datos ha creado montañas de datos, que
representan un recurso de gran valor para la organización. No obstante para
extraer lo valioso de la montaña se debe excavar, o practicar la minería, para
llegar a las pepitas de metal precioso, en nuestro caso el conocimiento (Fayyad
y otros, 1996).
La
gestión del conocimiento, entonces se refiere
al conjunto de procesos que se hacen en una organización para crear,
almacenar, y transferir y aplicar el conocimiento. Incluye una gran variedad de
técnicas entre klas que se encuentra la Minería de Datos o Data Mining.
La minería de datos (también llamada extracción de datos), es la práctica
(por medios automáticos o semiautomáticos) de buscar y explorar en grandes
almacenes de datos organizacionales dando por resultado el descubrimiento de
patrones. Para hacer esto, la minería de datos utiliza técnicas de cómputo de estadística, de automatización de conocimientos y reconocimiento. En resumen, la minería de datos prepara, sondea y
explora los datos para sacar la información oculta en ellos.
Una
de las definiciones aceptables de la minería de datos afirma que es una
metodología de análisis de datos tradicional enriquecida con las técnicas más
avanzadas aplicadas al descubrimiento de patrones desconocidos.
Bajo el
nombre de minería de datos, también
podemos englobar todo un conjunto de técnicas encaminadas a la
extracción de conocimiento que se encuentra
implícito en las bases de datos, comúnmente usadas en todo tipo de
institución educativa o empresarial.
Las
Tecnologías de la Información (TI) se vuelven el factor clave en el proceso de
creación y aplicación del modelo de Gestión del Conocimiento y Minería de Datos.
Para llegar a este fin los recursos TI deben ser adecuados, tanto de
computación como de comunicaciones. El esfuerzo de cada departamento debe
acentuarse de manera tal que l información disponible sea transformada en conocimiento útil.
Los
siguientes pasos pueden considerase generales para cualquier proyecto de minería de datos:
1.
Descubrimiento, Captura y Creación del Conocimiento.
Los docentes, investigadores y
administrativos comparten en reuniones presenciales donde se debaten las ideas
y opiniones sobre el conocimiento disponible.
Es importante conocer cuáles pueden ser
fuentes potenciales: clientes, correos
electrónicos, competidores, suscripciones., bases de datos, agencias de
información, etc…
En Minería de datos, el primer nivel de
conocimiento son los datos. Posteriormente de ellos podemos hacer información
ya sea oral o escrita y en donde se requiere de un receptor que reciba dicha
información. Los datos se convierten en información cuando se les añade un
sentido.
En el tercer nivel se tiene el conocimiento
que consiste en una aprensión de hechos, verdades o principios como resultados
del estudio o investigación. Implica familiaridad con el tema. El conocimiento
deriva de la información.
El conocimiento tácito es el conocimiento personal o implícito, almacenado en los
cerebros de la organización. El conocimiento explícito es el conocimeinto
almacenado en distintos soportes o medios físicos.
El conocimiento se transfiere por medio
estructurados de comunicación : documentos, libros, revistas, redes digitales,
etc. Es aquí donde las tecnologías de la
información deben facilitar el conocimiento.
En el último nivel de la pirámide se
encuentra la sabiduría o inteligencia, cuya acumulación puede dar origen al
capital intelectual de una organización.
2. Clasificación y Representación.
Selección del conjunto de datos, tanto en lo que se
refiere a las variables dependientes, como a las variables objetivo
(independientes). Se elabora un muestreo
de los registros de la base de datos.
Generalmente los datos disponibles en las bases de
datos no se encuentran disponibles tal y como se requieren por lo que es
necesario hacer una operación de filtrado.
Teniendo ya los datos, se analizan sus propiedades,
por medio de histogramas, diagramas de dispersión, presencia de valores
atípicos y ausencia de datos (valores nulos).
- Recuperación
de Información.
Transformación del conjunto de
datos de entrada, considerando las diversas formas de proceder en función del
análisis de la técnica de minería de
datos que mejor se adapte a los datos y al problema.
En esta fase intervienen motores
de búsqueda , agentes inteligentes, competencia del browsing. Se debe seleccionar y aplicar la técnica de minería de datos, con el propósito de
obtener un modelo predictivo, de clasificación o segmentación.
4. Diseminación
de la Información: Comunicación interna y/o externa por medio de publicaciones
o por medios electrónicos como internet e intranet.
Si el
modelo final no superara esta evaluación el proceso se podría repetir desde el
principio o, si el experto lo considera oportuno, a partir de cualquiera de los
pasos anteriores. Esta retroalimentación se podrá repetir cuantas veces se
considere necesario hasta obtener un modelo válido.
Una vez
validado el modelo, (proporciona salidas adecuadas y/o con márgenes de error
admisibles) éste ya está listo para su uso y explotación.
Los
modelos obtenidos por técnicas de minería
de datos se aplican incorporándolos en los sistemas de análisis de
información de las organizaciones.
Tradicionalmente,
las técnicas de minería de datos
se aplicaban sobre información contenida en almacenes de datos. De hecho,
muchas grandes empresas e instituciones han creado y alimentan bases de datos
especialmente diseñadas para proyectos de minería de datos en las que centralizan información potencialmente
útil de todas sus áreas de negocio.
No
obstante, actualmente está cobrando una importancia cada vez mayor la minería de datos desestructurados como
información contenida en ficheros de texto, en Internet, etc.
En este
sentido cabe destacar los esfuerzos del Data Mining Group, que está
estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera
que los modelos de minería de datos
sean interoperables en distintas plataformas, con independencia del sistema con
el que han sido construidos. Los principales fabricantes de sistemas de bases
de datos y programas de análisis de la información hacen uso de este estándar.
MINERÍA DE TEXTOS
El reto
para la gestión del conocimiento es convertir el conocimiento tácito que es
personal y difícil de comunicar en un conocimiento explicito que es formal,
sistemático y que puede compartirse.
La
gestión del conocimiento se cita con frecuencia como la capacidad clave para
adquirir una ventaja competitiva.
Las
aplicaciones de la minería de textos se utilizan principalmente para:
·
Extraer información relevante de
un documento.
·
Agregar y comparar información
automáticamente.
·
Clasificar y organizar
documentos.
·
Organizar depósitos para búsqueda
y recuperación.
·
Clasificar textos e indizarlos en
la web.
La
minería de textos se centra en encontrar
normas de asociación que sean útiles y significativas de manera tal que
permita la recogida y condensación de hechos.
La
minería de textos debe permitir procesar rápidamente grandes cantidades de texto y dar la
posibilidad de automatizar las laboriosas tareas de rutina, dejando únicamente
las tareas más exigentes para los lectores humanos.
La rápida
difusión de las tecnologías de redes y telecomunicaciones contribuye a
facilitar el acceso a las fuentes de información. El aumento de la potencia de los ordenadores y
la disponibilidad de software más inteligente permite el procesado rápido y la adaptación de técnicas de inteligencia
artificial.
Por todo
esto, es importante no despreciar las normalizaciones en las tecnologías
relacionadas con las TIC incluyendo como explotan las organizaciones la
información y el conocimiento adquirido y los mecanismos de seguridad para los
individuos que tienen registrados sus datos personales.
CONCLUSIONES
Las técnicas de
minería de datos se aplicaban sobre información contenida en bases de de
datos. Sin embargo, está cobrando una gran importancia la minería de datos
desestructurados como es la información contenida en Internet , que se enfoca a
la minería de textos.
En general, la minería
de datos se emplea para mejorar el rendimiento de procesos de negocio o
industriales en los que se manejan grandes volúmenes de información
estructurada y almacenada en bases de datos.
La minería de textos por su parte,m utiliza motores de búsqueda,
lectores con inteligencia artificial que permiten la búsqueda de información por
medio de frases y palabras clave.
La minería de datos y la minería de textos hace
uso de todas las técnicas que puedan aportar información útil, desde un
sencillo análisis gráfico, pasando por métodos estadísticos más o menos
complejos, así como algoritmos del campo
de la inteligencia artificia, que ayuden a la clasificación, predicción de valores y
detección de patrones.
BIBLIOGRAFÍA
Bordoni L. Perspectivas para la
Integración de Minería de Textos y la Gestión del Conocimiento. Documento
recuperado desde https://unidep.blackboard.com/bbcswebdav/courses/UDP2012903EDM506G4/SEMANA%203/SEM3%20R2%20MINER%EF%BF%BDA%20DE%20TEXTOS%20Y%20GC.pdf
Puente, M. (2010). Gestión del
Conocimiento y Minería de Datos. Consultora Ciencias de la Información. Recuperado
desde: https://unidep.blackboard.com/bbcswebdav/courses/UDP2012903EDM506G4/SEMANA%203/SEM3%20R1%20MINER%EF%BF%BDA%20DE%20DATOS%20Y%20GC2.pdf
Rodríguez D. Modelos para la Creación y Gestión del
Conocimiento. Universidad Autónoma de
Barcelona. Depto. de Pedagogia. Recuperado de
https://unidep.blackboard.com/bbcswebdav/courses/UDP2012903EDM506G4/SEMANA%202/SEM2%20R1%20MODELOS%20PARA%20LA%20CREACI%EF%BF%BDN%20Y%20GC.pdf
Passoni L. MODELO DE GESTION DE CONOCIMIENTO EN LOS
DEPARTAMENTOS ACADEMICOS. Centro de Investigación de la Creación Universitaria.
http://rapes.unsl.edu.ar/Congresos_realizados/Congresos/III%20Encuentro/Completos/PASSONI.pdf
Seguimos en contacto =)
Matepedia