大数据概论

……

  1. 数据和信息:信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等;而数据则是构成信息的基本单位,离散的数据没有任何使用价值
  2. 数据类型:文本、图片、音频、视频
  3. 数据组织形式:文件(word文档、图片文件)数据库
  4. 大数据的概念:数据量大、数据类型繁多、处理速度快、价值密度低
  5. 大数据处理流程:数据采集与预处理 -> 数据存储与管理 -> 数据处理与分析 -> 数据可视化
  6. 云计算特点:初期零成本,后期免维护,在供应IT资源量方面”予取予求“

简答题

  1. 云计算服务模式:软件及服务(SaaS)、平台即服务(PaaS)、基础设施及服务(IaaS)

    云类型:公有云、私有云、混合云

    物联网四个层次

    感知层进行信号采集

    通过网络层进行传输

    传输到指定位置后经过处理层处理

    最后达到应用层

    RFID原理:RFID 技术的基本工作原理并不复杂,电子标签进入磁场后,接收解读器发出的射频信号,凭借感应电流所获得的能量发送出存储在芯片中的产品信息,或者主动发送某频率的信号。解读器读取信息并解码后,送至中央信息系统进行有关数据处理

    硬件:输入设备、输出设备、运算器、控制器、存储器

    填空

    CPU处理指令:CPU 从缓存中取出指令放入指令寄存器,并对指令译码。把指令分解成一系列的微操作,然后发出各种控制命令执行微操作系列,从而完成条指令的执行

  2. 计算机网络三个功能

    硬件资源共享:硬件资源共享。可以在全网范围内提供对处理资源、存储资源、输入输出资源等昂贵设备的共享,使用户节省投资也便于集中管理和均衡分担负荷

    软件资源共享:软件资源共享。允许互联网上的用户远程访问各类大型数据库,可以得到网络文件传送服务、远地进程管理服务和远程文件访问服务,从而避免软件研制上的重复劳动及数据资源的重复存贮,也便于集中管理。

    用户间信息交换:用户间信息交换。计算机网络为分布在各地的用户提供了强有力的通信手段。用户可以通过计算机网络传送电子邮件、发布新闻消息和进行电子商务活动。

    常见的网络互联设备:中继器、网桥、路由器、网关、集线器、交换机

    OSI参考模型对应TCP/IP五层模型

OSI参考模型 TCP/IP五层模型
应用层 应用层
表示层 应用层
会话层 应用层
传输层 传输层
网络层 网络层
数据链路层数据链路层 数据链路层数据链路层
物理层 物理层
  1. 数据采集的三大要点:全面性、多维性、高效性

1、调度器 5、下载器
2、引擎 6、互联网
3、项目管道 7、爬虫中间件
4、爬虫 8、下载器中间件
  1. Scrapy工作流也叫作“运行流程’呈”或叫作“数据处理流程’整个数据处理流程由Scrapy引擎进行控制,其主要的运行步骤如下:

    ①Scrapy引擎从调度器中取出一个链接(URL)用于接下来的抓取;

    ②Scrapy引擎把URL封装成一个请求并传给下载器;

    ③下载器把资源下载下来,并封装成应答包;

    ④爬虫解析应答包;

    ⑤如果解析出的是项目,则交给项目管道进行进一步的处理;

    ⑥如果解析出的是链接( URL )则把URL交给调度器等待抓取。

  2. 数据转换策略

    平滑处理:帮助除去数据中的噪声

    聚集处理:对数据进行汇总操作

    数据泛化处理:用更抽象(更高层次)的概念来取代低层次的数据对象

    规范化处理:将属性值按比例缩放,使之落入一个特定的区间

    属性构造处理:根据已有属性集构造新的属性

  3. 基于内存的分布式计算框架Spark

    在实际应用中,大数据处理主要包括以下三个类型:

    复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间

    基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间

    基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间


计算题

支持度:(X^Y)/D

置信度:(X^Y)/X

论述题

电影推荐系统如何实现?

  1. 搭建环境,安装 Linux系统、JDK、关系型数据库 MySQL、大数据软件 Hadoop、大数据软件Spark、开发工具 IntelliJ IDEA、ETL 工具Kettle 和 Node.js;
  2. 数据采集,编写 Scrapy爬虫从网络上获取电影评分数据;
  3. 加载数据,使用ETL 工具Kettle 对数据进行清洗后加载到分布式文件系统 HDFS中。
  4. 数据存储和管理,使用分布式文件系统 HDFS和关系数据库 MySQL 对数据进行存储和管理 。
  5. 数据分析和处理,使用 Scala语言和开发工具IntelliJ IDEA,编写Spark MLlib 程序,根据 HDFS中的大量数据进行模型训练,然后使用训练得到的模型进行电影评分预测,并为用户推荐评分高的电影。
  6. 可视化,使用Node.js 搭建网站,接受用户访问,并以可视化方式呈现电影推荐结果。
作者

Lxuan

发布于

2021-12-28

更新于

2021-12-29

许可协议

评论