kuhuo
kuhuo
发布于 2024-08-09 / 102 阅读
0
0

从硬件组装开始搞一套预生产的 Doris 集群(一)组装服务器

引言

真的很爽

很多看官老爷对于 Doris 的听闻总大于实践,总听说这玩意很厉害,但是应景的能让自己上手实操的环境是少之又少。

所以在大部分场景下都没有真正的去实际搞过主流规格的集群去玩 Doris,公司的集群又不能随便拿来玩耍,万一鼓捣坏了那岂不是得提桶跑路了。

应一些看官老爷的要求,也应我自己想有一套能从 TP 到 AP 再到数据应用的全链路预生产环境的想法,我准备用有限的金钱购买尽可能具备性价比的硬件来自己组装一台服务器,然后虚拟化成若干节点,实现全链路预生产环境搭建的构思。

如果有同学问我为啥不买虚机实例,那我只能告诉你,从自己购买云产品,与自己组建服务器的整体对比而言,后者非常适合我这种长期持有、长期使用、费用有限三项诉求的价格敏感型消费者,所以话不多说,开搞。

前期规划

既然要搞这么一件事,那肯定要全方位思考明白这件事要付出什么?希望得到什么?需要攻克哪些痛点难点?

机器硬件规划

既然要自己搞,那成本一定是最大影响因素,和我投资人(我老婆)经过仔细沟通后,决定为该项目投资 10000 RMB(斥巨资~很多个月的零花钱 QAQ),所以后续的硬件选配规划需要在这一万的预算里做仔细的划分。

经过仔细的思考和规划,最终希望这台服务器可划分为 7-8 台 16C64G 的虚机,来实现全链路应用场景的模拟,其中:

  • • Apache Doris 使用 4 台(1FE 3BE)

  • • TP 库以及业务应用 1 台

  • • 调度工具、同步工具、数据应用(BI等)1台

  • • 其他数据湖基座 1-2 台

那逆推回来,服务器四大件应该具备以下硬件要求:

  • • CPU:44-48C(88-96线程,2.2GHz 及以上,可打鸡血到 3.5GHz 及以上)

  • • 内存:512G(DDR4 2133 及以上)

  • • 硬盘:

    • • NVMe 2TB(6500MB/s) * 2

    • • HDD 4TB(7200转) * 4

  • • 网卡:万兆网卡 1 或 千兆网卡 1(因为不跨物理节点通讯,故此对网卡要求暂不需要很高)

应用部署规划

有了以上机器节点的初步规划以后,那接下来就是确定模拟集群要去构建怎样的业务场景,以及实践完整实时数据平台下的各种能力,在我的考虑中,应有如下事项:

  • • 整体处理数据规模在1-10TB左右

  • • 暂定完整数据链路应为:

    1. 1. 实时数据生成器

    2. 2. 业务TP库、日志采集工具

    3. 3. 数据同步组件

    4. 4. Apache Doris、数据湖产品(调度工具配合)

    5. 5. 前端BI应用、Web服务、数据科学等

      • 暂定要评测和实操录制 Doris 玩法的大板块有:

      Apache Doris 的使用场景

      当然还有常规的导入方式和其他功能项的实践,诸如 Kafka 的 RoutineLoad,S3 的 TVF 等,如果哪位看官老爷在后续的时间里有更好玩更想关注的板块,可以私聊或者留言,我会择优选择。

    • • 联邦查询(统一网关及离线加速)

    • • 报表展示(驾驶舱实时指标或分层加工指标)

    • • BI 引擎(AdHoc 探索式查询)

    • • 高并发点查(维表关联/API调用/用户画像)

    • • 湖仓一体化(四类湖仓演进架构)

    • • 离在线一体化(ETL/ELT)

    • • 日志检索(对比 ELK 日志解决方案)

    • • Doris On Docker(All In One 及常规模式)

    • • 存算分离(基于对象存储和 HDFS 的方案)

  • • 同时 PS 一下:如果有相关上下游组件的大佬希望一起来玩,一起做这件事,也可以私聊我。因为当前所有的组件都还暂未确定使用哪一个落地,后续选定方案里将以开源产品作为绝对主力(我真没钱买许可证了QAQ),所以很欢迎大佬们共建该项目。

购买硬件

既然预算有限,那就好钢用在刀刃上,我对整体硬件了解远不如对 Doris 的了解,所以在充分请教了 PowerData-追风者、PowerData-小狼 等硬件大佬以后,从物理环境要求、使用成本、购买成本、维护成本以及兼容性成本等各方面评估以后,得出了一份物理硬件清单(仅供参考):

  • • 主板:华南金牌 X99 双路 T8D Plus ¥918

  • • CPU:Xeon E5 v4(22C44线程 2.2GHz-3.6GHz) * 2 ¥1819

  • • 内存:三星服务器内存 DDR4 2133MHz 64G * 8 ¥3358

  • • 硬盘:

    • • HDD:西数企业级黑盘 4TB 7200 * 4 ¥1400

    • • NVMe:储技长江 2TB 7580MB/s * 2 ¥1758

  • • 机箱:16盘位塔式机箱 EATX ¥195.11

  • • 风扇:

    • CPU风扇:2011针风冷 X99 磁浮风扇 * 2 ¥115

    • • 机箱风扇:4D供电 12CM * 4 ¥31.37

  • • 电源:长城巨龙金牌全模组 1000W ¥599

  • • 显卡:英伟达 2070 Super(原本个人PC上配的,一直没咋用,拆了当亮机卡)¥ 0

共花费 10193.48 元,超预算 193.48 元(个人零花钱补贴 QAQ)

在这里需要强调的一点,就是大部分组件都是淘的二手货,俗称洋垃圾,因为如果按上述要求买新,这点预算是真的不可能,当然图吧十二级的垃圾佬从不在意别人的眼光的,能点亮能使用且具备超高性价比的组装产品,是一个图吧战士最大的精神慰藉!

同时建议在购买这类产品时,一定要让有经验的来操刀,不然很容易受骗。

我在购买这台机器的时候,还考虑到了机器的静音、散热、耗能等方面因素,因为这玩意是要放在卧室的,一般又不会关机,如果非常吵且对自然环境造成很大影响的话,那这个也不符合购置诉求,所以综合下来选择了塔式机箱。

后记

在苦苦等待一周左右,所有的组件都陆续到齐了,同时花了差不多三四额个小时时间,完成了零部件归一化(装机)的常规工作,当插上电看到它成功点亮的那一瞬间,诶,你别说,你还真别说~(水果手机抠的图……)

这部分没啥可记录的,就略过不记了,下一篇把服务器虚拟化的踩坑旅程给各位看官老爷好好梳理一下,这一块可是让我有了不少实践经验,毕竟折磨了我四五天时间……

最后部署完成 Doris 集群的截图:

好了,看官老爷们,点赞在看就是我更新的最大动力了,看到这了不得来一下?

还有就是B站的课程,后续随着服务器集群搭建好,视工作繁忙程度决定重启的时间(不是我懒,真的不是我懒,如果真的可以抽出空来的话,一定会继续录制的),如果有小伙伴想加入录制也可以私信我,我们一起搞点事情来做~

以上~


评论