背景

最近的一段时间，用了5年的联想笔记本经常出现掉网卡现象。估计快要寿终正寝了。在此之前要及时备份出里面的资料。里面有5年间（大二到现在从学校到工作间不同的项目，各种资料等）借此网易期间的机会，打算迁移项目文件到台式机器上。一方面是台式机性能好，可以跑得快。二是回顾下以前做的项目。

开始

事情从某一个深夜刷 Bilibili 说起。那天晚上，想起过年从家里带上来的 1GB SD 卡，用来完成 K210 系列的最后一课：录音并保存文件到 SD 卡和播放录音的功能，于是将最后一课的代码编译，烧录一气呵成。然后运行发现，sd card init fail…

最近元宇宙火了起来，主要是几个互联网公司的几个布局大操作。然后媒体疯狂炒热度，再加上前些年很火的人工智能、区块链、量子力学、5G通信技术、VR/AR

只是一下想法罢了，思维过于散乱~

现在是凌晨 01:18 分，趁着今天还没有睡觉，赶紧逼自己更新一下博客，因为再不更新，我感觉自己就要继续拖到明年了。。。

想想好久都没有更新博客了吧，距离上一次，还是3月。转眼见，一拖就是大半年。

CDH搭建涉及到太多东西，有关硬件软件、也有关系统。之前总结时写了一份，自以为是较为完整的。但是后来发现，还是缺漏了好多东西，也有好多知识是点到为止，知其然不知其所以然，所以此次打算在先前的基础上补齐缺漏的知识点，然后争取一次性全部搞懂，避免下次花时间再复习N遍。

（一）中提到

参考阿里巴巴美团的OneData方法论

由于前期缺少规划，随着集团业务发展，暴露的问题越来越多，给数据治理工作带来了很大的挑战，在数据仓库建设过程中，主要发现了以下几个问题：

模型设计的三个阶段
1. 概念模型：将业务划分成几个主题
2. 逻辑模型：定义各种实体、属性、关系
3. 物理模型：设计数据对象的物理实现，比如表的命名规范、字段的命名规范、字段类型等
数据库建模有 维度建模 和 范式建模.

后记：这篇是搭建Spark单机开发环境。这里花了亿点点时间准备单机环境。而且各种报错和没截上图，自己把自己搞混乱了，不过最终还是把Spark跑起来了。后面重新整理时，将步骤和踩坑点全部填回来了。

先了解一波专有名词，再去看教程或者文档，应该会比较容易理解吧~~~
大概包含 Worker，Driver，Executor，Stage，Task，DAGScheduler，TaskScheduler，RDD，Stage，Shuffle,算子…