位元組序

標籤: 暫無標籤

246

更新時間: 2013-09-04

廣告

位元組序,即位元組在電腦中存放時的序列與輸入(輸出)時的序列是先到的在前還是後到的在前。

廣告

1 位元組序 -簡介

  位元組序是指多位元組數據在計算機內存中存儲或者網路傳輸時各位元組的存儲順序。

2 位元組序 -常見主機序

  1. Little endian:將低序位元組存儲在起始地址
  2. Big endian:將高序位元組存儲在起始地址
  LE little-endian
  最符合人的思維的位元組序
  地址低位存儲值的低位
  地址高位存儲值的高位
  怎麼講是最符合人的思維的位元組序,是因為從人的第一觀感來說
  低位值小,就應該放在內存地址小的地方,也即內存地址低位
  反之,高位值就應該放在內存地址大的地方,也即內存地址高位
  BE big-endian
  最直觀的位元組序
  地址低位存儲值的高位
  地址高位存儲值的低位
  為什麼說直觀,不要考慮對應關係
  只需要把內存地址從左到右按照由低到高的順序寫出
  把值按照通常的高位到低位的順序寫出
  兩者對照,一個位元組一個位元組的填充進去
  例子:在內存中雙字0x01020304(DWORD)的存儲方式
  內存地址
  4000 4001 4002 4003
  LE 04 03 02 01
  BE 01 02 03 04
  例子:如果我們將0x1234abcd寫入到以0x0000開始的內存中,則結果為
  big-endian little-endian
  0x0000 0x12 0xcd
  0x0001 0x34 0xab
  0x0002 0xab 0x34
  0x0003 0xcd 0x12
  x86系列CPU都是little-endian的位元組序.

3 位元組序 -網路位元組序

廣告

  網路位元組順序是TCP/IP中規定好的一種數據表示格式,它與具體的CPU類型、操作系統等無關,從而可以保證數據在不同主機之間傳輸時能夠被正確解釋。網路位元組順序採用big endian排序方式。
  為了進行轉換 bsd socket提供了轉換的函數 有下面四個
  htons 把unsigned short類型從主機序轉換到網路序
  htonl 把unsigned long類型從主機序轉換到網路序
  ntohs 把unsigned short類型從網路序轉換到主機序
  ntohl 把unsigned long類型從網路序轉換到主機序
  在使用little endian的系統中 這些函數會把位元組序進行轉換
  在使用big endian類型的系統中 這些函數會定義成空宏
  同樣 在網路程序開發時 或是跨平台開發時 也應該注意保證只用一種位元組序 不然兩方的解釋不一樣就會產生bug.
  註:
  1、網路與主機位元組轉換函數:htons ntohs htonl ntohl (s 就是short l是long h是host n是network)
  2、不同的CPU上運行不同的操作系統,位元組序也是不同的,參見下表。
  處理器 操作系統 位元組排序
  Alpha 全部 Little endian
  HP-PA NT Little endian
  HP-PA UNIX Big endian
  Intelx86 全部 Little endian <-----x86系統是小端位元組序系統
  Motorola680x() 全部 Big endian
  MIPS NT Little endian
  MIPS UNIX Big endian
  PowerPC NT Little endian
  PowerPC 非NT Big endian <-----PPC系統是大端位元組序系統
  RS/6000 UNIX Big endian
  SPARC UNIX Big endian
  IXP1200 ARM核心 全部 Little endian

4 位元組序 -單位元組數據

廣告

  1.BIG-ENDIAN、LITTLE-ENDIAN跟多位元組類型的數據有關的比如int,short,long型,而對單位元組數據byte卻沒有影響。
  比如 int a = 0x05060708
  在BIG-ENDIAN的情況下存放為:
  位元組號 0 1 2 3
  數據 05 06 07 08
  在LITTLE-ENDIAN的情況下存放為:
  位元組號 0 1 2 3
  數據 08 07 06 05
  又比如數字0x12345678,在兩種不同位元組序CPU中,其存儲順序如下所示:
  Big Endian
  低地址 高地址
  ----------------------------------------->
  +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
  | 12 | 34 | 56 | 78 |
  +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
  Little Endian
  低地址 高地址
  ----------------------------------------->
  +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
  | 78 | 56 | 34 | 12 |
  +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
  從上面兩圖可以看出,採用BIG-ENDIAN方式存儲數據方便人類從字面理解數據,LITTLE-ENDIAN的數據較難理解,因為LITTLE-ENDIAN主要是方便CPU處理數據,提高計算機效率。

5 位元組序 -IA架構

廣告

  2.BIG-ENDIAN、LITTLE-ENDIAN、跟CPU有關的,每一種CPU不是BIG-ENDIAN就是LITTLE-ENDIAN、。IA架構(Intel、AMD)的CPU中是Little-Endian,而PowerPC 、SPARC和Motorola處理器是Big-Endian。這其實就是所謂的主機位元組序。而網路位元組序是指數據在網路上傳輸時是大頭還是小頭的,在Internet的網路位元組序是BIG-ENDIAN。所謂的JAVA位元組序指的是在JAVA虛擬機中多位元組類型數據的存放順序,JAVA位元組序也是BIG-ENDIAN。

6 位元組序 -網路位元組序轉換

  3.所以在用C/C++寫通信程序時,在發送數據前務必用htonl和htons去把整型和短整型的數據進行從主機位元組序到網路位元組序的轉換,而接收數據后對於整型和短整型數據則必須調用ntohl和ntohs實現從網路位元組序到主機位元組序的轉換,在Visual C++中,這四個函數被包含在頭文件Winsock2.h裡面,鏈接時需要鏈入Ws2_32.lib。如果通信的一方是JAVA程序、一方是C/C++程序時,則需要在C/C++一側使用以上幾個方法進行位元組序的轉換,而JAVA一側,則不需要做任何處理,因為JAVA位元組序與網路位元組序都是BIG-ENDIAN,只要C/C++一側能正確進行轉換即可(發送前從主機序到網路序,接收時反變換)。如果通信的雙方都是JAVA,則根本不用考慮位元組序的問題了。
  4.如果網路上全部是相同位元組序的計算機那麼不會出現任何問題,但由於實際有大量不同位元組序的計算機,所以如果不對數據進行轉換,就會出現大量的錯誤。

7 位元組序 -數據解釋出錯

  5.文章開頭所提出的問題,就是因為程序運行在X86架構的PC SERVER上,發送數據的一端用C實現的,接收一端是用JAVA實現的,而發送端在發送數據前未進行從主機位元組序到網路位元組序的轉換,這樣接收端接收到的是LITTLE-ENDIAN的數據,數據解釋自然出錯。
  具體數據如下,實際發送的數據為23578
  發送端發送數據: 1A 5C
  接收端接收到數據后,按BIG-ENDIAN進行解釋得到的則是6748,顯然不是正確的數據。

廣告