本书内容分为三个部分,第一部分为互联网大数据的概述;第二部分为互联网大数据的获取与存储,包括了静态或动态WEB页面内容获取技术、结构化或非结构化数据的存储、常见的开源系统等;第二部分为处理与分析技术,包括了文本数据预处理、数据内容的语义分析技术、文本内容分类技术、聚类分析、大数据中的隐私保护、大数据可视化等内容;第三部分为综合应用。
基础篇:HTTP协议、WEB服务器原理、网络协议、HTML规范、编码 技术原理篇:普通爬虫、主题爬虫、微博、礼貌型爬虫、分布式爬虫、协议数据还原、ETL、大数据交易技术:平台、技术支持、难点 工具与应用篇:从零开始、开源系统/Java、Python 工具应用:爬虫用于抓取论坛、用于舆情监测
本书对人工智能安全的理论与实践技术进行了梳理,全面完整地覆盖了人工智能安全技术的主要方面,把相关知识体系划分为五部分,即人工智能的安全观、人工智能安全的数据处理、人工智能用于网络安全的攻击与防御、人工智能模型的对抗攻击与防御以及人工智能平台的安全与工具。第一部分对人工智能安全问题、基本属性、技术体系等进行了归纳梳理。第二部分介绍人工智能安全数据处理的三个主要方法,即非平衡数据分类、噪声数据处理和小样本学习方法。第三部分从人工智能技术赋能网络空间安全的攻击与防御问题角度出发,从三个典型实例及攻击图的角度介绍典型人工智能方法在攻击与防御中的应用。第四部分围绕机器学习模型的安全问题,对攻击者、对抗攻击的理论与方法、典型的对抗攻击方法、隐私安全、聚类模型的攻击以及对抗攻击的防御方法进行了梳理。第五部分介绍人工智能平台的安全与工具,以及基于阿里云天池AI学习平台的若干案例与实验。 本书可以作为高等院校网络空间安全、人工智能、大数据、计算机以及电子信息等相关专业研究生和高年级本科生的教材,也可以作为网络空间安全、人工智能安全、大数据、计算机等领域研究人员、专业技术人员和管理人员的参考书。
本书围绕大数据采集与挖掘,对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了45个与爬虫技术和应用相关的Python程序。全书共分为四部分,即概述、基础篇、技术与实现篇、大数据挖掘与应用篇。第一部分 (第1章)是概述,指出利用Python采集互联网大数据的重要性,介绍了相关技术研究、技术体系、 采集技术的合规性及应用现状等 ,分析了大模型对互联网大数据技术的影响; 第二部分 (第2、3章)是基础篇,包括Web服务器的应用架构以及HTTP、Robots、HTML、页面编码等相关协议和规范; 第三部分 (第4~10章)是技术与实现篇,全面介绍普通网络爬虫技术、动态页面采集方法、主题爬虫技术、Deep Web爬虫、微博信息采集、Web信息提取以及反爬虫技术等,内容涵盖各种爬虫技术实现方法及Python实例; 第四部分 (第11、12章)是大数据挖掘与应用篇,介绍 文本、情感、社交网络和时间序列等典型大数据处理与挖掘技术 及应用模式,并以新闻舆情监测、 Web自动化测试、酒店评论文本挖掘 为例介绍Python爬虫应用构建方法,将本书介绍的一些关键技术、模型和工具贯穿在一起。