背景
最近的一段时间,用了5年的联想笔记本经常出现掉网卡现象。估计快要寿终正寝了。在此之前要及时备份出里面的资料。里面有5年间(大二到现在从学校到工作间不同的项目,各种资料等)借此网易期间的机会,打算迁移项目文件到台式机器上。一方面是台式机性能好,可以跑得快。二是回顾下以前做的项目。
最近的一段时间,用了5年的联想笔记本经常出现掉网卡现象。估计快要寿终正寝了。在此之前要及时备份出里面的资料。里面有5年间(大二到现在从学校到工作间不同的项目,各种资料等)借此网易期间的机会,打算迁移项目文件到台式机器上。一方面是台式机性能好,可以跑得快。二是回顾下以前做的项目。
事情从某一个深夜刷 Bilibili 说起。那天晚上,想起过年从家里带上来的 1GB SD 卡,用来完成 K210 系列的最后一课:录音并保存文件到 SD 卡和播放录音的功能,于是将最后一课的代码编译,烧录一气呵成。然后运行发现,sd card init fail…
最近元宇宙火了起来,主要是几个互联网公司的几个布局大操作。然后媒体疯狂炒热度,再加上前些年很火的人工智能、区块链、量子力学、5G通信技术、VR/AR
只是一下想法罢了,思维过于散乱~
现在是凌晨 01:18
分,趁着今天还没有睡觉,赶紧逼自己更新一下博客,因为再不更新,我感觉自己就要继续拖到明年了。。。
想想好久都没有更新博客了吧,距离上一次,还是3月。转眼见,一拖就是大半年。
CDH搭建涉及到太多东西,有关硬件软件、也有关系统。之前总结时写了一份,自以为是较为完整的。但是后来发现,还是缺漏了好多东西,也有好多知识是点到为止,知其然不知其所以然,所以此次打算在先前的基础上补齐缺漏的知识点,然后争取一次性全部搞懂,避免下次花时间再复习N
遍。
参考阿里巴巴美团的OneData方法论
由于前期缺少规划,随着集团业务发展,暴露的问题越来越多,给数据治理工作带来了很大的挑战,在数据仓库建设过程中,主要发现了以下几个问题:
开发规范
、指标口径
等。维度建模
和 范式建模
.后记:这篇是搭建Spark单机开发环境。这里花了亿点点时间准备单机环境。而且各种报错和没截上图,自己把自己搞混乱了,不过最终还是把Spark跑起来了。后面重新整理时,将步骤和踩坑点全部填回来了。
先了解一波专有名词,再去看教程或者文档,应该会比较容易理解吧~~~
大概包含Worker
,Driver
,Executor
,Stage
,Task
,DAGScheduler
,TaskScheduler
,RDD
,Stage
,Shuffle
,算子
…