浮点数在内存中的存储 - 北京网站建设

一.引言

二.浮点数的存储

1.1 浮点数的存储规则

1.2 举例：将5.5转化成IEEE754标准

1.将5.5转化为二进制：

整数部分（5）的转换

小数部分（0.5）的转换

合并整数部分和小数部分

2. 将二进制数转化为科学计数法

3.找出公式中的S，M，E

4.S，M，E在内存中的存储

1.3 浮点数存的过程

1.4 浮点数取的过程

E不全为0或不全为1

E全为0

E全为1

三.题目解析

后记

我们之前学习了整数在内存中的存储，那么浮点数在内存中是怎样存储的呢？

下面我们来研究浮点数在内存中的存储

一.引言

首先我们来看一段代码

它的输出是什么呢？

那么为什么会出现这样的结果呢？下面我们来研究浮点数在内存中的存储

二.浮点数的存储

上面的代码中， num 和 *pFloat 在内存中明明是同⼀个数，为什么浮点数和整数的解读结果会差别这么大？

要理解这个结果，⼀定要搞懂浮点数在计算机内部的表示方法。

1.1 浮点数的存储规则

根据国际标准IEEE（电气和电子工程协会） 754，任意⼀个⼆进制浮点数V可以表示成下面的形式：

IEEE 754规定：

对于32位的浮点数，最高的1位存储符号位S，接着的8位存储指数E，剩下的23位存储有效数字M

对于64位的浮点数，最高的1位存储符号位S，接着的11位存储指数E，剩下的52位存储有效数字M

我们一时肯定难以理解和看懂，我们举例来帮助大家理解

1.2 举例：将5.5转化成IEEE754标准

1.将5.5转化为二进制：

整数部分（5）的转换

整数部分5转换为二进制相对简单，可以使用“除2取余”的方法：

将5除以2，商为2，余数为1，记下余数1。
将商2再次除以2，商为1，余数为0，记下余数0。
将商1再次除以2，商为0，余数为1，记下余数1。此时商为0，转换结束。

将记下的余数从下到上排列，得到整数部分5的二进制表示为101。

小数部分（0.5）的转换

小数部分0.5转换为二进制则是一个无限循环的过程，但我们可以根据需要取到足够的精度。这里我们使用“乘2取整”的方法：

将0.5乘以2，得到1，整数部分为1，记下这个1。
将上一步得到的小数部分（这里是0，因为0.5乘以2等于1，没有小数部分）再次乘以2，但在这个例子中，我们其实已经转换完了，因为0.5的二进制表示就是0.1

合并整数部分和小数部分

将整数部分101和小数部分0.1（注意，这里我们假设只取到小数点后一位，实际上0.5的二进制表示是0.1后面跟着无限个0，但在计算机中我们通常只取有限位）合并，得到5.5的二进制表示为101.1。

2. 将二进制数转化为科学计数法

1024在十进制下转化为科学计数法为1.024 * 10 ^ 3

同理101.1在二进制下转化为科学计数法为1.011 * 2 ^ 2

3.找出公式中的S，M，E

由于5.5是正数，则S=0

通过上述的科学计数法格式下二进制数与IEEE754标准下的对比可知：M=1.011，E=2

综上可得，5.5 = （-1）^ 0 * 1.011 * 2 ^ 2

但由于IEEE 754标准中，指数部分存储的是偏移量（对于单精度是127），所以实际存储的指数是2+127=129。

4.S，M，E在内存中的存储

确定符号位（S）：

因为5.5是正数，所以符号位是0

确定指数部分（E）：

这里的指数是2，但由于IEEE 754标准中，指数部分存储的是偏移量（对于单精度是127），所以实际存储的指数是2+127=129。

将129转换为二进制，即10000001。

确定尾数部分（M）：

尾数部分是规格化后的小数部分，即011（由于IEEE 754标准中隐含了一个最前面的1，所以只存储011）。

但由于尾数部分实际上是23位，而我们的011只有3位，所以需要在右边补0，直到达到23位，即01100000000000000000000。

组合各部分：

将符号位、指数部分和尾数部分组合起来，得到最终的32位二进制数。

对于5.5，这个数是0 10000001 01100000000000000000000。

1.3 浮点数存的过程

IEEE 754 对有效数字M和指数E，还有⼀些特别规定。

前面说过， 1≤M<2 ，也就是说，M可以写成 1.xxxxxx 的形式，其中 xxxxxx 表示小数部分。 IEEE 754 规定，在计算机内部保存M时，默认这个数的第⼀位总是1，因此可以被舍去，只保存后面的 xxxxxx部分。比如保存1.01的时候，只保存01，等到读取的时候，再把第⼀位的1加上去。这样做的目的，是节省1位有效数字。以32位浮点数为例，留给M只有23位，将第⼀位的1舍去以后，等于可以保存24位有效数字。

至于指数E，情况就比较复杂

首先，E为⼀个无符号整数（unsigned int）

这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE 754规定，存入内存时E的真实值必须再加上⼀个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。比如，2^10的E是 10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。

1.4 浮点数取的过程

指数E从内存中取出还可以再分成三种情况：

E不全为0或不全为1

这时，浮点数就采用下面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第⼀位的1。

比如：0.5 的二进制形式为0.1，由于规定正数部分必须为1，即将小数点右移1位，则为1.0*2^(-1)，其阶码为-1+127(中间值)=126，表示为01111110

而尾数1.0去掉整数部分为0，补齐0到23位 00000000000000000000000，则其⼆进制表示形式为: 0 01111110 00000000000000000000000

E全为0

这时，浮点数的指数E等于1-127（或者1-1023）即为真实值，有效数字M不再加上第一位的1，而是还原为0.xxxxxx的小数。这样做是为了表示±0，以及接近于0的很小的数字。

0 00000000 00100000000000000000000

E全为1

这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位s）

0 11111111 00010000000000000000000

好了，关于浮点数的表示规则，就说到这里。大家学会了吗？

三.题目解析

下面，让我们回到⼀开始的练习

先看第1环节，为什么 9 还原成浮点数，就成了 0.000000 ？

9以整型的形式存储在内存中，得到如下⼆进制序列：

0000 0000 0000 0000 0000 0000 0000 1001

下面我们将其还原为浮点数：

首先，将 9 的二进制序列按照浮点数的形式拆分，得到第⼀位符号位S=0，后面8位的指数 E=00000000 ，最后23位的有效数字M=000 0000 0000 0000 0000 1001。

则它在浮点数的视角下的二进制存储为：

0 00000000 00000000000000000001001

由于指数E全为0，所以符合E为全0的情况。

因此，浮点数V就写成： V=(-1)^0 × 0.00000000000000000001001×2^(-126)=1.001×2^(-146) 显然，V是⼀个很小的接近于0的正数，所以用十进制小数表示就是0.000000。

再看第2环节，浮点数9.0，为什么整数打印是 1091567616

首先，浮点数9.0 等于⼆进制的1001.0，即换算成科学计数法是：1.001×2^3 所以： 9.0 = (−1) ∗ 0 (1.001) ∗ 23

那么，第一位的符号位S=0

有效数字M等于001后面再加20个0，凑满23位，001 0000 0000 0000 0000 0000

指数E等于3+127=130，即10000010 所以，写成二进制形式，应该是S+E+M

即 0 10000010 001 0000 0000 0000 0000 0000

这个32位的二进制数，被当做整数来解析的时，它的二进制数为：

0100 0001 0001 0000 0000 0000 0000 0000

该二进制数就是整数在内存中的补码。

则它的原码所表示的数正是：1091567616 。

int main()
{int n = 9;//占4个字节//00000000 00000000 00000000 00001001(原码)//00000000 00000000 00000000 00001001(反码)//00000000 00000000 00000000 00001001(补码)////00000000 00000000 00000000 00001001 - n int视角下的内存//0 00000000 00000000000000000001001 float视角下的内存//S   E                M//E ——> 1-127 = -126//M = 0.00000000000000000001001//(-1)^0 * 0.00000000000000000001001 * 2 ^ -126//因为E全是0,所以表示一个无限接近于0的数float* pFloat = (float*)&n;printf("n的值为：%d\n", n);//9printf("*pFloat的值为:%f\n", *pFloat);//0.000000*pFloat = 9.0;//9.0//1001.0//1.001*2^3//(-1)^0 * 1.001 * 2 ^ 3//S = 0//M = 1.001//E = 3   3 + 127 = 130 其二进制序列为10000010//则9.0的二进制序列为：0 10000010 00100000000000000000000//该二进制序列在整形的视角下为：0100 0001 0001 0000 0000 0000 0000 0000//该二进制序列的原码所表示的数为：1091567616printf("n的值为：%d\n", n);//1091567616printf("*pFloat的值为:%f\n", *pFloat);//9.000000return 0;
}

后记

好好学习，天天向上！！！

喜欢这篇文章的小伙伴们点点赞，点点关注哈，感谢各位大佬们！！！

共勉！！！