2021-12-28发表2021-12-29更新 Lxuan 学习11 分钟读完 (大约1673个字)0次访问

大数据概论

……

数据和信息：信息是较为宏观的概念，它由数据的有序排列组合而成，传达给读者某个概念方法等；而数据则是构成信息的基本单位，离散的数据没有任何使用价值
数据类型：文本、图片、音频、视频
数据组织形式：文件（word文档、图片文件）数据库
大数据的概念：数据量大、数据类型繁多、处理速度快、价值密度低
大数据处理流程：数据采集与预处理 -> 数据存储与管理 -> 数据处理与分析 -> 数据可视化
云计算特点：初期零成本，后期免维护，在供应IT资源量方面”予取予求“

简答题

云计算服务模式：软件及服务（SaaS）、平台即服务（PaaS）、基础设施及服务（IaaS）

云类型：公有云、私有云、混合云

物联网四个层次

感知层进行信号采集

通过网络层进行传输

传输到指定位置后经过处理层处理

最后达到应用层

RFID原理：RFID 技术的基本工作原理并不复杂，电子标签进入磁场后，接收解读器发出的射频信号，凭借感应电流所获得的能量发送出存储在芯片中的产品信息，或者主动发送某频率的信号。解读器读取信息并解码后，送至中央信息系统进行有关数据处理

硬件：输入设备、输出设备、运算器、控制器、存储器

CPU处理指令：CPU 从缓存中取出指令放入指令寄存器，并对指令译码。把指令分解成一系列的微操作，然后发出各种控制命令执行微操作系列，从而完成条指令的执行
计算机网络三个功能

硬件资源共享：硬件资源共享。可以在全网范围内提供对处理资源、存储资源、输入输出资源等昂贵设备的共享，使用户节省投资也便于集中管理和均衡分担负荷

软件资源共享：软件资源共享。允许互联网上的用户远程访问各类大型数据库，可以得到网络文件传送服务、远地进程管理服务和远程文件访问服务，从而避免软件研制上的重复劳动及数据资源的重复存贮，也便于集中管理。

用户间信息交换：用户间信息交换。计算机网络为分布在各地的用户提供了强有力的通信手段。用户可以通过计算机网络传送电子邮件、发布新闻消息和进行电子商务活动。

常见的网络互联设备：中继器、网桥、路由器、网关、集线器、交换机

OSI参考模型对应TCP/IP五层模型

OSI参考模型	TCP/IP五层模型
应用层	应用层
表示层	应用层
会话层	应用层
传输层	传输层
网络层	网络层
数据链路层数据链路层	数据链路层数据链路层
物理层	物理层

数据采集的三大要点：全面性、多维性、高效性

1、调度器	5、下载器
2、引擎	6、互联网
3、项目管道	7、爬虫中间件
4、爬虫	8、下载器中间件

Scrapy工作流也叫作“运行流程’呈”或叫作“数据处理流程’整个数据处理流程由Scrapy引擎进行控制，其主要的运行步骤如下:

①Scrapy引擎从调度器中取出一个链接（URL）用于接下来的抓取;

②Scrapy引擎把URL封装成一个请求并传给下载器;

③下载器把资源下载下来，并封装成应答包;

④爬虫解析应答包;

⑤如果解析出的是项目，则交给项目管道进行进一步的处理;

⑥如果解析出的是链接( URL )则把URL交给调度器等待抓取。
数据转换策略

平滑处理：帮助除去数据中的噪声

聚集处理：对数据进行汇总操作

数据泛化处理：用更抽象（更高层次）的概念来取代低层次的数据对象

规范化处理：将属性值按比例缩放，使之落入一个特定的区间

属性构造处理：根据已有属性集构造新的属性
基于内存的分布式计算框架Spark

在实际应用中，大数据处理主要包括以下三个类型：

复杂的批量数据处理：通常时间跨度在数十分钟到数小时之间

基于历史数据的交互式查询：通常时间跨度在数十秒到数分钟之间

基于实时数据流的数据处理：通常时间跨度在数百毫秒到数秒之间

计算题

支持度：（X^Y）/D

置信度：（X^Y）/X

论述题

电影推荐系统如何实现？

搭建环境，安装 Linux系统、JDK、关系型数据库 MySQL、大数据软件 Hadoop、大数据软件Spark、开发工具 IntelliJ IDEA、ETL 工具Kettle 和 Node.js;
数据采集，编写 Scrapy爬虫从网络上获取电影评分数据;
加载数据，使用ETL 工具Kettle 对数据进行清洗后加载到分布式文件系统 HDFS中。
数据存储和管理，使用分布式文件系统 HDFS和关系数据库 MySQL 对数据进行存储和管理。
数据分析和处理，使用 Scala语言和开发工具IntelliJ IDEA，编写Spark MLlib 程序，根据 HDFS中的大量数据进行模型训练，然后使用训练得到的模型进行电影评分预测，并为用户推荐评分高的电影。
可视化，使用Node.js 搭建网站，接受用户访问，并以可视化方式呈现电影推荐结果。

大数据概论

https://lxiuaunng.github.io/大数据概论/

作者

Lxuan

发布于

2021-12-28

更新于

2021-12-29

许可协议

#知识大数据概论

大数据概论

简答题

计算题

论述题

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

评论

目录

最新文章