Что такое извлечение данных?
Извлечение данных - это обработка данных для извлечения информации. Примеры включают:
Обработка web-сайта для извлечения каталога продуктов и информации о стоимости, которая может использоваться для сравнения цен разных поставщиков.
Обработка web-сайтов для извлечения адресов электронной почты и URL.
Сбор данных с web-сайта для Ваших собственных нужд.
Извлечённые данные представляются в удобном виде для загрузки в базу данных и дальнейшего анализа.
Как это работает в Offline Explorer Pro?
Если Вы нуждаетесь в извлечении данных из web-сайта, Вы должны создать Проект и загрузить нужный сайт на Ваш жёсткий диск. Когда загрузка завершена, Вы должны выделить Проект и далее выбрать Извлечение данных на Ленте - вкладка Инструменты. Offline Explorer Pro будет использовать внешнюю утилиту - TextPipe - для обработки загруженного web-сайта.
Чем может помочь TextPipe?
TextPipe может использоваться для генерации извлечения данных из любого источника, включая web-сайты. TextPipe также может применяться для выполнения очистки данных или любой дополнительной обработки, как то:
добавление записи в заголовок (например, обеспечение столбцов заголовками для .CSV-файлов)
удаление ненужных данных
замена определённого текста
преобразование переводов строк в DOS/Unix/Mac
развёртка вкладок
преобразование заглавных букв в прописные
преобразование из EBCDIC в ASCII
удаление пустых мест
удаление столбцов, строк или полей
удаление дублирующихся записей
сортировка
извлечение email-адресов из определённых полей
сброс записей, соответствующих образцу
и многое другое
Вы можете найти дополнительную информацию о TextPipe на web-сайте: http://www.datamystic.com/offlineexplorer.html
Вы можете загрузить TextPipe отсюда: http://www.datamystic.com/textpipepro.exe
Вы также можете автоматически запустить TextPipe по окончании загрузки Проекта. Просто добавьте следующую строку в поле URL Проекта:
TextPipe=c:\path\filter_filename.fll
Для выхода из TextPipe после обработки загруженных файлов добавьте ;/Q в конец:
TextPipe=c:\path\filter_filename.fll;/Q