一、內核行數
Linux內核分為CPU調度、內存管理、網絡和存儲四大子系統,針對硬件的驅動成百上千。代碼的數量更是大的驚人。
先說說最早的內核linux 0.11,下面這本書可以說很多驅動工程師都學習過,我花了大概1個半月,勉強看了一遍。
再來看看內核代碼量的統計。
2020年1月1日,Linux內核Git源碼樹中的代碼達到了2780萬行。
phoronix網站統計了Linux內核在進入2020年時的一些源碼數據并作了總結。
從統計數據來看,Linux內核源碼樹共有:
27852148行(包括文檔、Kconfig文件、樹中的用戶空間實用程序等)、
887925次commit
21074位不同的作者
2780萬行代碼分布在66492個文件中。
Linux內核從最初的10000行代碼到現在的2780萬行代碼就是全球精英共同貢獻的結果。
按照一天一萬行的速度,也需要2700天,也需要7年多。
這還是建立在所有單次都認識,
所有代碼邏輯看了的都懂,
而且都不忘記的基礎上。
實際上即使我們真的看完了,
幾年后內核又會有非常大的變化,
可以說一輩子都看不完Linux內核的代碼。
Linux內核Git源碼樹中的代碼達到了2780萬行,核心代碼只有2%是由李納斯?托瓦茲自己編寫的,其他均是其他個人和組織貢獻的,李納斯?托瓦茲公開了Linux但保留了選擇新代碼和需要合并的新方法的最終裁定權。
除了Linus Torvalds,對內核貢獻最多的是David S.Miller、 Mark Brown、Takashi Iwai、Arnd Bergmann、Al Viro和Mauro Carvalho Chehab。
而參與貢獻的公司,從域名統計來看,谷歌、Intel與Red Hat排在了最前列。
二、內核目錄文件大小
然而,現在的內核已經膨脹的不成樣子了,以還不算最新的linux-4.1.15為例:
整個內核源碼一共約 793M:
驅動代碼占了大概一半,大約380M:
體系相關的代碼大約134M:
網路子系統相關的代碼26M:
文件系統相關的代碼37M:
linux內核核心代碼大約6.8M:
這些目錄任意一個目錄想完全看明白都非常不容易。
三、內核子系統
什么是內核:
在計算機科學中是一個用來管理軟件發出的數據I/O(輸入與輸出)要求的計算機程序,將這些要求轉譯為數據處理的指令并交由中央處理器(CPU)及計算機中其他電子組件進行處理,是現代操作系統中最基本的部分。
它是為眾多應用程序提供對計算機硬件的安全訪問的一部分軟件,這種訪問是有限的,并由內核決定一個程序在什么時候對某部分硬件操作多長時間。
linux內核代碼涉及知識點包括匯編指令、c語言、硬件組成原理、操作系統、數據結構和算法、各種外設總線、驅動、網絡協議棧。
直接對硬件操作是非常復雜的。所以內核通常提供一種硬件抽象的方法,來完成這些操作。
通過進程間通信機制及系統調用,應用進程可間接控制所需的硬件資源(特別是處理器及IO設備)。
最上面是用戶(或應用程序)空間。這是用戶應用程序執行的地方。用戶空間之下是內核空間,Linux 內核正是位于這里。
GNU C Library (glibc)也在這里。它提供了連接內核的系統調用接口,還提供了在用戶空間應用程序和內核之間進行轉換的機制。
內核和用戶空間的應用程序使用的是不同的保護地址空間。
每個用戶空間的進程都使用自己的虛擬地址空間,而內核則占用單獨的地址空間。
Linux 內核可以進一步劃分成 3 層。最上面是系統調用接口,它實現了一些基本的功能,例如 read 和 write。
系統調用接口之下是內核代碼,可以更精確地定義為獨立于體系結構的內核代碼。這些代碼是 Linux 所支持的所有處理器體系結構所通用的。
在這些代碼之下是依賴于體系結構的代碼,構成了通常稱為 BSP(Board Support Package)的部分。這些代碼用作給定體系結構的處理器和特定于平臺的代碼。
內核主要系統包括:SCI:系統調用接口 PM:進程管理 VFS:虛擬文件系統 MM:內存管理 Network Stack:內核協議棧 Arch:體系架構 DD:設備驅動
1 系統調用接口
SCI 層提供了某些機制執行從用戶空間到內核的函數調用。這個接口依賴于體系結構,甚至在相同的處理器家族內也是如此。
SCI 實際上是一個非常有用的函數調用多路復用和多路分解服務。
在 ./linux/kernel 中您可以找到 SCI 的實現,并在 ./linux/arch 中找到依賴于體系結構的部分。
2 進程管理
進程管理的重點是進程的執行。
在內核中,這些進程稱為線程,代表了單獨的處理器虛擬化(線程代碼、數據、堆棧和 CPU 寄存器)。
在用戶空間,通常使用進程 這個術語,不過 Linux 實現并沒有區分這兩個概念(進程和線程)。
內核通過 SCI 提供了一個應用程序編程接口(API)來創建一個新進程(fork、exec 或 Portable Operating System Interface [POSIX] 函數),停止進程(kill、exit),并在它們之間進行通信和同步(signal 或者 POSIX 機制)。
3 內存管理
內核所管理的另外一個重要資源是內存。為了提高效率,如果由硬件管理虛擬內存,內存是按照所謂的內存頁方式進行管理的(對于大部分體系結構來說都是 4KB)。
Linux 包括了管理可用內存的方式,以及物理和虛擬映射所使用的硬件機制。
4 虛擬文件系統
虛擬文件系統(VFS)是 Linux 內核中非常有用的一個方面,因為它為文件系統提供了一個通用的接口抽象。VFS 在 SCI 和內核所支持的文件系統之間提供了一個交換層。
在 VFS 上面,是對諸如 open、close、read 和 write 之類的函數的一個通用 API 抽象。在 VFS 下面是文件系統抽象,它定義了上層函數的實現方式。
它們是給定文件系統(超過 50 個)的插件。文件系統的源代碼可以在 ./linux/fs 中找到。
文件系統層之下是緩沖區緩存,它為文件系統層提供了一個通用函數集(與具體文件系統無關)。
這個緩存層通過將數據保留一段時間(或者隨即預先讀取數據以便在需要是就可用)優化了對物理設備的訪問。緩沖區緩存之下是設備驅動程序,它實現了特定物理設備的接口。
5 網絡堆棧
網絡堆棧在設計上遵循模擬協議本身的分層體系結構。
回想一下,Internet Protocol (IP) 是傳輸協議(通常稱為傳輸控制協議或 TCP)下面的核心網絡層協議。TCP 上面是 socket 層,它是通過 SCI 進行調用的。
socket 層是網絡子系統的標準 API,它為各種網絡協議提供了一個用戶接口。
從原始幀訪問到 IP 協議數據單元(PDU),再到 TCP 和 User Datagram Protocol (UDP),socket 層提供了一種標準化的方法來管理連接,并在各個終點之間移動數據。內核中網絡源代碼可以在 ./linux/net 中找到。
6 設備驅動程序
Linux 內核中有大量代碼都在設備驅動程序中,它們能夠運轉特定的硬件設備。
Linux 源碼樹提供了一個驅動程序子目錄,這個目錄又進一步劃分為各種支持設備,例如 Bluetooth、I2C、serial 等。設備驅動程序的代碼可以在 ./linux/drivers 中找到。
下面這個圖形象的講解了Linux內核都有哪些東西!
四、如何學習內核?
1. 學習主線
linux內核源碼大而全,一個人,即使再聰明、再有精力,也不可能完全看完、看懂所有的linux內核源碼。
一口君建議按照以下主線進行深入研究:
- linux驅動架構
- linux網絡子系統
linux內核啟動過程
- linux內存管理機制
- linux調度器
- linux進程管理
- linux虛擬機制(kvm)
- linux內核實時化技術
沿著某一個主線,深入進去,在研究清楚這個主線的同時,向其他的主線擴展、滲透和學習。
此處之所以將驅動列為學習內核的入口,是因為內核為很多外設驅動實現了架構, 比如I2C、SPI、UART、PCIE、字符設備、網絡設備、塊設備, 我們可以從最基本的字符設備學起, 學習如何編寫一個簡單的模塊 學習如何如何為一些簡單的設備比如LED、KEY、ADC等編寫驅動 可以說驅動是我們學習內核最簡單的入口,
由點到線、由線到面、由面到體,層層深入、不斷精進,是學習linux內核源碼的一個有效的方法。
2. 代碼閱讀工具
對于代碼閱讀方法從兩個角度來介紹,一個方面是需要選擇一個比較有效閱讀代碼的工具。
一口君強烈推薦:source insight這款閱讀代碼神器!
也可以使用vscode或者vim+ctags的組合。
不過一口君十幾年的從業經驗,
99%以上的開發人員都選擇SI閱讀內核代碼。
代碼并不是寫給人看的,而是交給機器運行的。
所以我們去理解別人的代碼時,并不能像看小說一樣去通篇的閱讀代碼,而應該是像研究化石一樣去調查它,解密它。
有時我們往往也需要把對方的一段代碼親手的實現一遍,然后自己舉一反三看自己會怎么去實現它,才能真正的理解。
3. 學習的內核版本
有些人推薦先閱讀一些低版本的內核,比如0.01版的,總代碼量才1萬行左右。
閱讀這個代碼大概一個月應該能比較清晰了。
但是,改代碼與現在的代碼差異巨大,閱讀后可以理解基本思想,但對理解現有代碼的幫助不是特別明顯。
3.10版本之后的內核都支持設備樹!
所以一口君建議是盡量選擇3.10版本之后的代碼閱讀學習。
最好選擇一款開發板學習!
開發板的選擇一定要選擇資料比較全,
售后比較好的品牌!
否則學習中遇到的一個小問題都可能被卡個一兩周。
無形中增加了學習的成本,
要知道時間就是金錢!
對于初學者來說,
強烈推薦正點原子的開發板!
4. 學習Linux最重要的是培養自己寫代碼的能力和對Linux框架結構的了解
Linux內核中絕大部分代碼都是由這個地球上頂尖的技術大牛所編寫,
這些代碼的高內聚低耦合,
其精準度,簡潔度、質量都相當的高,
每每看到一段高質量的代碼,
一口君都會被那一行行枯燥的代碼背后隱藏的設計思想所震撼,所折服!
閱讀內核的代碼簡直就是在欣賞藝術品!
很多粉絲問我如何提高自己的C語言編程水平, 一口君不厭其煩的 重復著同樣一句話:看Linux內核!
代碼中自由顏如玉!代碼中自有黃金屋!
我們一定要像泡妞一樣來泡內核!
時刻保持激情,任性和耐性!
耐住寂寞,天天讀它,泡她!
從量變到質變!
水滴石穿!
愿各位都能夠熟練掌握Linux
本文轉載自微信公眾號「一口Linux」
原文鏈接:https://mp.weixin.qq.com/s/K_Ix6C9d_03cb1Hfpz461g