关于大数据学习之hadoop的安装

news/2024/6/18 22:02:07 标签: 大数据, 学习, hadoop

前部安装提示:

建议先将电脑中基础内容进行清洁,维持基础的极简主义, 通过这样的方式可以快速帮助我们完成软件的安装,同时也是符合计算机的基础网络结构,

什么是hadoop

处理大数据的分布式存储和计算框架是hadoophadoop有三大核心组件:hdfs(分布式文件管理系统),mapreduce(分布式运算程序的编程框架,基于hadoop的数据分析应用的核心框架)和yarn(hadoop的资源管理器,提高资源在集群中间的利用率,可以提高执行速率);本质:分布式系统基础框架。

hadoop的设计思想?

同理,对于单机无法解决的问题,综合利用多个普通机器的做法比打造一台超级计算机的做法更加具有可行性。

可以有效解决处理tb,pb级别的数据量,现在数据增量是一个前所没有的高度:

2014年是我们国家的大数据政策的元年,当年3月份大数据首次写入政府工作报告中,2021年市场规模接近900亿元

hadoop的特点:

  1. 开源的
  2. 可靠的
  3. 可扩展的
  4. 用于分布式计算的

关于大数据学习hadoop的安装

配置一个虚拟环境:

好处:

  1. 安全性会有很高的保障
  2. 可以通过xshell工具来对虚拟机进行远程访问

所采用的基础软件:

vmware这个基础的软件对其进行配置(功能:搭建一个基础的虚拟环境)推荐采用的镜像文件:centos7

使用vmare进行基础的环境搭建和配置:

  1. 点击创建新的虚拟机
  2. 点击其中的典型或者自定义安装
  3. 在安装客户机操作系统,点击稍后安装操作系统

因其正在创建配置。选择稍后安装操作系统选项是因为此时正在创建虚拟机的配置,而实际的Linux操作系统安装过程需要在该配置上运行。(360问答)

  1. 注意,由于在完成点击稍后安装操作系统之后,我们需要再次点击硬盘中的内容,点击自定义中的内容,找到所属自身的镜像文件,创建属于自身的虚拟环境,至于为什么上面一段引用当中已经对于这个问题进行了回答,

个人理解:

linux的操作系统需要在完成vmware所提供的基础计算机配置的基础上开始进行运行,类似于一个基础的先后顺序,所以在这一步的时候,自己一定要尽可能对其注意和调试。

配置ip地址

前言:

基于hadoop集群完全分布集群的特点,所采用的接入网络的方式是:nat(Network Address Translation,网络地址转换)

什么是nat模式?

让虚拟系统借助NAT(网络地址转换)功能,通过宿主机器所在的网络来访问公网。

nat网络的好处是什么?
  1. 两者相互隔离,
  2. 原系统不受影响,
  3. 包括用户的一切操作,不受影响,
  4. 安装程序、不受影响,
  5. 甚至运行病毒不受影响,

在运行最开始的时候,要去删除Linux操作系统本身自带jdk,这个jdk会和自身的jdk产生冲突,所以务必对其进行删除,

rpm -qa |grep -i java

其运行结果:

如果有就会显示,如果没有将不会显示

输入基本的命令行开始配置IP地址:

重启网卡的命令:

service network restart

‘开始编辑其基础的网络配置文件:

vi /etc/sysconfig/network-scripts/ifcfg-ens33

开始进行知识的科普:

onboot:系统启动时候是否激活了该网卡

bootproto:指定方式获取ip地址

在这个地方,我们将制定的地方调整为static这种静态的方式(需要自己给自己进行手动的配置)

在完成了基础的ip的配置之后,我们将迎来对于远程连接虚拟机的配置流程:

使用xshell来帮助我们进行完成命令的粘贴和复制

配置虚拟机的网络

配置基础ip地址为:192.168.128.0(在这个地方进行改动)

开始下载xshell

进入到官网中进行下载

XSHELL - NetSarang Website


参考教材:

Hadoop大数据开发基础(第2版)(微课版)|中国工信出版集团|人民邮电出版社

书中的教材有些许老旧,这里也粘贴以下自己参考其他博主的链接和其内容:

https://zhuanlan.zhihu.com/p/558067519
#帖子:Hadoop入门(二):手把手带你从零基础到完整安装配置


http://www.niftyadmin.cn/n/5397073.html

相关文章

Rust 交叉编译 macOS 为 Linux 和 Windows

文章目录 前言环境案例macOS 编译为 Linux 和 Windows 可用二进制程序编译为 Linux 平台编译为Windows平台 最后 前言 鉴于 rust 中文资料较少,遇到问题的解决方案更少。这里记录遇到的一些问题。 Rust 支持交叉编译,可以在 macOS 平台编译出 Linux 或者…

MAC | linux | SSH 密钥验证

SSH密钥登陆过程 客户端通过ssh-keygen生成自己的公钥和私钥。手动将客户端的公钥放入远程服务器的指定位置。客户端向服务器发起 SSH 登录的请求。服务器收到用户 SSH 登录的请求,发送一些随机数据给用户,要求用户证明自己的身份。客户端收到服务器发来…

分布式代理IP的优势及用途有哪些?

在当今的数字化时代,代理IP已经成为许多企业和个人的必备工具。其中,分布式代理IP因其独特优势在各种场景中广泛应用。本文将详细介绍分布式代理IP的优势及用途。 1、分布式代理IP的概念 分布式代理IP是指通过多台服务器组成的分布式网络,为…

【行业科普】常见的边缘计算产品有哪些?主要应用于哪些场景?

之前的几期科普文给大家介绍了什么是边缘计算,以及它的优势、应用场景等内容。有兴趣的可以戳链接再了解一下。(【行业科普】边缘计算有多强?一起了解它的优势及其5大典型应用!)今天我们再来了解一下常见的边缘计算产品…

大数据分布式计算工具Spark数据计算实战讲解(map方法,flatmap方法,reducebykey方法)

数据计算 map方法 PySpark的数据计算,都是基于RDD对象来进行的,那么如何进行呢? 自然是依赖,RDD对象内置丰富的:成员方法(算子) 功能:map算子,是将rdd的数据一条条处…

visio、ppt、office等另存图片,如何设置更清晰

visio、ppt、office等另存图片,如何设置更清晰 选中要另存为的部分——文件——另存为——选好位置——格式选jpg——保存——按下图设置:质量100%,分辨率选打印机,大小选屏幕——确定

spark的保姆级配置教程

目录 前提准备 (一) Hadoop集群搭建 (二)Anaconda环境搭建 (三)创建pyspark环境 (四)Spark Local模式搭建 1.Spark下载、上传和解压 2.上传Spark压缩包 3.解压上传好的压缩包…

ThreadLocal“你”真的了解吗?(二)

《ThreadLocal“你”真的了解吗?(一)》这篇文章梳理了ThreadLocal的基础知识,同时还梳理了java中线程的创建方法以及这两者之间的关系,本篇文章我们将继续梳理与ThreadLocal相关,在上一节也提过的另一组件T…