当前位置: 首页> 教育> 大学 > 最新疫情最新消息2023年7月份_小程序制作免费吗_网络企业推广_凡科建站的免费使用

最新疫情最新消息2023年7月份_小程序制作免费吗_网络企业推广_凡科建站的免费使用

时间:2025/7/11 18:20:57来源:https://blog.csdn.net/J56793/article/details/142687306 浏览次数:0次
最新疫情最新消息2023年7月份_小程序制作免费吗_网络企业推广_凡科建站的免费使用

 💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。

本人主要分享计算机核心技术:系统维护、数据库、网络安全、自动化运维、容器技术、云计算、人工智能、运维开发、算法结构、物联网、JAVA 、Python、PHP、C、C++等。
不同类型针对性训练,提升逻辑思维,剑指大厂,非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。

Hadoop的元数据的作用

Hadoop的元数据‌是指关于文件或目录的描述信息,包括文件所在路径、文件名称、文件类型、生成时间、副本、权限等。这些信息对于文件系统的管理和维护至关重要‌。

元数据的存储形式

Hadoop的元数据主要存储在HDFS中的两个主要文件中:

  1. FSlmage:这是HDFS元数据的镜像文件,将NameNode内存中的数据落入磁盘生成的文件,保存了文件系统目录树信息以及文件、块、DataNode的映射关系‌。
  2. ‌Edits Log:‌这‌是HDFS编辑日志文件,保存客户端对HDFS的所有更改记录,如增、删、重命名文件(目录)等操作,这些操作会修改HDFS目录树‌。

元数据的作用

元数据在Hadoop中扮演着重要的角色:

  • ‌管理文件系统‌:元数据帮助管理文件系统的命名空间,包括文件和目录的层级结构‌。
  • ‌恢复系统‌:在系统故障时,可以从Edits Log和FSImage中恢复数据,保证系统的稳定性和数据的完整性‌。

元数据的生成和维护

NameNode负责管理HDFS的命名空间,并在内存中维护数据块的映射信息。当集群启动时,NameNode会加载预先生成的FSImage和未完成的Edit Log文件,等待DataNode注册和汇报其所包含的block数据,校验meta信息和block数据是否一致‌3。DataNode会周期性地向NameNode报告自己所存储的所有block块的信息,包括block ID、所属文件、存储位置等,以确保数据的一致性和完整性‌。

大数据

什么是大数据,实实在在的说大学快上完了我真的没有搞清楚什么是大数据,学大数据是用来干什么的,学大数据到底学什么,如何学好大数据,如今面临着找工作我才想起来恍恍惚惚已经四年这样碌碌无为的过去了,我在大数据这个问题上到现在还是问号没有变成句号,看了很多大佬的解说,各抒己见。

什么是大数据?

指不能够在指定的时间内使用常规的软件工具进行挖掘、分析以及处理的大型数据集合。通俗讲:

·拥有海量的数据

·对海量数据的挖掘分析数据需求

·使用什么工具对海量数据进行挖掘分析

大数据解决的问题

大数据解决了海量数据的存储,查询以及数据的综合分析,了解用户的兴趣爱好,挖掘出共同的特点,挖掘出隐含的价值信息。比如:很多平台会根据自生的日常爱好特点,给你制定你自己的一个范围爱好。例如你刷视频,今明天刷一样类型的视频,渐渐的这类视频将在你打开时自动呈现出来,屏蔽了一些其他的视频。

学习大数据必须掌握的内容
海量数据的存储

Hdfs、Hive、Hbase、Es

hdfs(分布式文件系统):实现将文件分布在很多的服务器之上

hdfs的工作原理:

1、客户将文件存入hdfs中,hdfs会将其进行切块处理,然后分散到很多台的linux机器系统中(data node——>主要负责存储文件的角色)

2、切块之后必须要有一个记录用户的每一个文件切块信息的机制(name node ——>主节点)

3、为了安全起见,hdfs可以将每个文件块在集群中存放到多个副本中(副本的多少由客户端决定)

海量数据的分析和处理

MapReduce、Spark、SQL

MapReduce(分布式运算编程框架——分而治之思想)

Map:主要负责分的任务

·数据的规模相对于原任务要大大的缩小

·要选择就近原则,将任务要分配到存放着所需数据的节点上计算

·使的这些分后的小任务之间能够并行计算,彼此之间几乎不存在依赖的关系

Reduce:是对map的阶段的结果进行汇总处理

对Map过程中输出的键值对(k;

v)进行合并处理,后reduce传入中间结果列表数据进行某种处理,最终输出(k1;v1)

海量数据的(MapReduce)分析调度资源

YARN(分布式资源调度平台):帮助用户协调大量的运算资源,是一个资源管理、任务调度的框架。主要模块:RM、NM、AM

RM(ResourManager)负责所有资源的监控、分配和管理

NM(NodeManager)负责每一个节点的维护

AM(ApplicationMaster)负责每一个具体应用程序的调度和协调

YARN的特征

· yarn 并不清楚用户提交的程序的运行机制

· yarn 只提供运算资源的调度(用户程序向 yarn 申请资源,yarn 就负责分配资源)

· yarn 中的主管角色叫ResourceManager

· yarn 中具体提供运算资源的角色叫 NodeManager

· yarn 与运行的用户程序完全解耦,意味着 yarn 上可以运行各种类型的分布式运算程序

· spark、storm 等运算框架都可以整合在 yarn 上运行,只要他们各自的框架中有符合 yarn 规范的资源请求机制即可

· yarn 成为一个通用的资源调度平台,提高资源利用率,方便数据共享

学好Hadoop=学好了大数据

Hadoop主要核心组成:(HDFS——>文件系统 +MapReduce——>编程框架 +YARN——>资源调度平台)

关键字:最新疫情最新消息2023年7月份_小程序制作免费吗_网络企业推广_凡科建站的免费使用

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: