开始
事情从某一个深夜刷 Bilibili 说起。那天晚上,想起过年从家里带上来的 1GB SD 卡,用来完成 K210 系列的最后一课:录音并保存文件到 SD 卡和播放录音的功能,于是将最后一课的代码编译,烧录一气呵成。然后运行发现,sd card init fail…
事情从某一个深夜刷 Bilibili 说起。那天晚上,想起过年从家里带上来的 1GB SD 卡,用来完成 K210 系列的最后一课:录音并保存文件到 SD 卡和播放录音的功能,于是将最后一课的代码编译,烧录一气呵成。然后运行发现,sd card init fail…
最近元宇宙火了起来,主要是几个互联网公司的几个布局大操作。然后媒体疯狂炒热度,再加上前些年很火的人工智能、区块链、量子力学、5G通信技术、VR/AR
只是一下想法罢了,思维过于散乱~
现在是凌晨 01:18
分,趁着今天还没有睡觉,赶紧逼自己更新一下博客,因为再不更新,我感觉自己就要继续拖到明年了。。。
想想好久都没有更新博客了吧,距离上一次,还是3月。转眼见,一拖就是大半年。
CDH搭建涉及到太多东西,有关硬件软件、也有关系统。之前总结时写了一份,自以为是较为完整的。但是后来发现,还是缺漏了好多东西,也有好多知识是点到为止,知其然不知其所以然,所以此次打算在先前的基础上补齐缺漏的知识点,然后争取一次性全部搞懂,避免下次花时间再复习N
遍。
参考阿里巴巴美团的OneData方法论
由于前期缺少规划,随着集团业务发展,暴露的问题越来越多,给数据治理工作带来了很大的挑战,在数据仓库建设过程中,主要发现了以下几个问题:
开发规范
、指标口径
等。维度建模
和 范式建模
.后记:这篇是搭建Spark单机开发环境。这里花了亿点点时间准备单机环境。而且各种报错和没截上图,自己把自己搞混乱了,不过最终还是把Spark跑起来了。后面重新整理时,将步骤和踩坑点全部填回来了。
先了解一波专有名词,再去看教程或者文档,应该会比较容易理解吧~~~
大概包含Worker
,Driver
,Executor
,Stage
,Task
,DAGScheduler
,TaskScheduler
,RDD
,Stage
,Shuffle
,算子
…
这段时间真的是忙,但大多数是自己给自己加戏,但是呢?感觉也没多少进步,一会想刷题,一会想看书,一会想娱乐…
最后一事无成,惭愧惭愧。
所以,想找一个时机,专注于学一样东西,Spark是不二之选。