- 数据采集与预处理技术应用
- 安俊秀 唐聃等编著
- 1477字
- 2025-02-26 12:10:11
前言
随着大数据技术研究和应用的快速发展,全球数据呈爆炸性增长,信息技术产业和应用格局正发生着重大变革,人们采集、存储和处理数据的能力也大幅提升。数据作为一种新的战略资源,对社会各个领域产生了深刻影响。“用数据来说话、用数据来管理、用数据来决策、用数据来创新”是这个时代的鲜明特征,对数据从产生、采集、分析到利用都提出了前所未有的新要求。
数据分析的全流程包括数据采集与预处理、数据存储与管理、数据处理与分析、数据可视化等。从市场上现有的教材来看,数据采集与预处理相关领域的教材还非常缺乏。这是编者撰写本书的原因。
本书侧重于介绍大数据关键技术中的数据采集和数据预处理技术。本书可作为入门教材,用于高年级本科生和研究生的大数据课程,以及供从事相关工作、对这些技术的应用感兴趣的技术人员参考。在学习本书的内容之前,读者需要具备一定的计算机体系结构和计算机编程语言的基础知识。
本书为了尽量完整地介绍数据采集和数据预处理的相关理论与技术,同时考虑到课程内容应精简、凝练,编者将本书划分为9章,各章节主要内容如下。
第1章数据采集与预处理概述,概要性地介绍大数据、数据分析、数据采集以及数据预处理,并对本书内容进行了概述。
第2章大数据开发环境的搭建,包括Python、JDK、MySQL、Hadoop的安装和使用方法,为后续章节提供了实验操作基础。
第3章使用Flume采集系统日志数据,介绍日志采集系统Flume的原理、安装和使用方法,最后通过实践案例—使用Flume采集数据上传到HDFS帮助读者更好地学习和掌握。
第4章使用Kafka采集系统日志数据,介绍分布式消息系统Kafka的原理、安装和使用方法,最后通过实践案例—Kafka与Flume结合采集日志数据帮助读者更好地学习和掌握。
第5章其他常用的系统日志数据采集工具,介绍其他常用的系统日志数据采集工具的安装与配置,如Scribe、Chukwa、Splunk等,介绍了具有代表性的优秀国产日志管理工具日志易,每种系统日志数据采集工具都通过实践案例帮助读者更好地学习和掌握。
第6章使用网络爬虫采集Web数据,介绍网络数据采集,包括网络爬虫的概念、网页爬取与解析方法、Scrapy框架等,最后通过实践案例—使用Scrapy爬取某电商网站数据帮助读者更好地学习和掌握。
第7章Python数据预处理库的使用,介绍了如何使用Python进行数据预处理,并通过实践案例—使用Python预处理旅游路线数据来展示Python的应用。
第8章使用ETL工具Kettle进行数据预处理,介绍Kettle工具的安装和使用方法,通过实践案例—使用Kettle处理某电商网站数据帮助读者更好地学习和掌握。
第9章其他常用的数据预处理工具,介绍其他常用的数据预处理工具的安装与配置,如Pig、OpenRefine。每种数据预处理工具都通过实践案例帮助读者更好地学习和掌握。
本书由成都信息工程大学安俊秀教授、唐聃教授及成都信息工程大学的研究生柳源、杨林旺、万里浪、田茂云、戴宇睿共同编著。其中第1章、第9章由杨林旺、安俊秀编写,第2章、第4章由柳源、安俊秀编写,第3章由戴宇睿、柳源编写,第5章、第7章由万里浪、唐聃编写,第6章、第8章由田茂云、唐聃编写。安俊秀、柳源、杨林旺对全书进行了审校。
本书的编写和出版还得到了国家社会科学基金项目(21BSH016)的支持,同时也是四川省社会科学高水平团队“旅游大数据可视化决策研究团队”的阶段性成果。
本书还得到了信息技术应用创新工作委员会大数据工作组的支持,以及国产软件企业北京优特捷信息技术有限公司(日志易)的大力支持。在此对大数据工作组的尤晓燕、郑阳,以及优特捷公司的郝香山表示感谢!
尽管在本书的编写过程中,编者力求严谨、准确,但由于技术的发展日新月异,加之编者水平有限,书中难免存在错误和不足之处,敬请广大读者批评指正。
安俊秀
2023年5月于成都信息工程大学