¿Qué es la Extracción de Datos?
La Extracción de Datos es el procesamiento de los datos para extraer información. Algunos ejemplos incluyen:
Procesado de un sitio Web para extraer el catãlogo de productos e información de costos, que puede ser usado para comparar precios entre distintos proveedores.
Procesado de un sitio Web para extraer direcciones de correo electrónico o URLs Web.
Recolección de datos en un sitio Web con fines propios.
Los datos extraidos estãn diseñados para que sean cargados fãcilmente en una base de datos para anãlisis posterior.
¿Cómo funciona en Portable Offline Browser?
Si usted necesita extraer datos de un sitio Web, deberã crear un Proyecto y descargar el sitio deseado en su disco duro. Cuando la descarga estã completa, deberã seleccionar el Proyecto y elegir Extracción de Datos en la Cinta de Opciones - pestaña Herramientas Portable Offline Browser usarã una utilidad externa -TextPipe- para procesar el sitio Web descargado.
¿Cómo ayuda TextPipe?
TextPipe se puede usar para generar un extracto de cualquier fuente de datos, incluyendo sitios Web. TextPipe también puede ser usado para llevar a cabo la limpieza de datos o cualquier otro proceso adicional, por ejemplo
agregar un registro de encabezado (por ejemplo, proporcionar títulos de las columnas para archivos. CSV)
eliminar datos no deseados
reemplazar texto específico
convertir entradas de líneas a DOS/Unix/Mac
expandir pestañas
uso fijo de mayúsculas
convertir de EBCDIC a ASCII
eliminar espacios en blanco múltiples
eliminar columnas, líneas o campos
eliminar registros duplicados
clasificar
extraer direcciones de correo electrónico de campos específicos
desechar registros coincidentes con un patrón
y mucho mãs
Puede encontrar mãs información sobre TextPipe Pro en el sitio Web: http://www.datamystic.com/offlineexplorer.html
Puede descargar TextPipe Pro desde: http://www.datamystic.com/textpipepro.exe
También puede ejecutar TextPipe automãticamente cuando la descarga de un Proyecto se completa. Simplemente agregue la siguiente línea en el campo de URLs del Proyecto:
TextPipe=c:\path\filter_filename.fll
Para hacer que TextPipe se cierre luego de procesar los archivos descargados, agregue ;/Q al final:
TextPipe=c:\path\filter_filename.fll;/Q