超執行緒

超執行緒（英語：Hyper-Threading，縮寫HT）^[1]是英特爾專有的同時多執行緒技術，於2002年發布，用來改進x86微處理器執行平行計算（一次執行多個任務）的能力。超執行緒技術原先只應用於英特爾 Xeon 處理器中，當時稱為「Super-Threading」。之後陸續應用在Pentium 4 HT中，早期代號為Jackson。

通過此技術，英特爾實現在一個實體 CPU中，提供兩個邏輯線程。之後的Pentium D雖不支援超執行緒技術，但集成了兩個實體核心，所以仍會見到兩個線程。超執行緒的未來發展，是提升處理器的邏輯線程。英特爾於2016年發布的Core i7-6950X便是將10核心的處理器，加上超執行緒技術，使之成為20個邏輯線程的產品。

英特爾表示，超執行緒技術讓Pentium 4 HT處理器增加5%的裸晶面積，就可以換來15%~30%的效能提升。但實際上，在某些程式或未對多執行緒編譯的程式而言，超執行緒反而會降低效能。除此之外，超執行緒技術亦要作業系統的配合，普通支援多處理器技術的系統亦未必能充分發揮該技術。例如Windows 2000，英特爾並不鼓勵使用者在此系統中利用超執行緒。原先不支援多核心的Windows XP Home Edition卻支援超執行緒技術。

運作方式

每個單位時間內，一個單執行管線的CPU只能處理一個執行緒（作業系統：thread），以這樣的單位進行，如果想要在一單位時間內處理超過一個執行緒是不可能的，除非是有兩個CPU的實體單元。雙核心技術是將兩個一樣的CPU放置於一個封裝內（或直接將兩個CPU做成一個晶片），而英特爾的HT技術是在CPU內部僅複製必要的資源、讓兩個執行緒可同時執行；在一單位時間內處理兩個執行緒的工作，模擬實體雙核心、雙執行緒運作。

Intel自Pentium開始引入超純量、亂序執行、大量的暫存器及寄存器重命名、多指令解碼器、預測執行等特性；這些特性的原理是讓CPU擁有大量資源，並可以預先執行及平行執行指令，以增加指令執行效率，可是在現實中這些資源經常閒置；為了有效利用這些資源，就乾脆再增加一些資源來執行第二個執行緒，讓這些閒置資源可執行另一個執行緒，而且CPU只要增加少數資源就可以模擬成兩個執行緒運作。

P4處理器需多加一個Logical CPU Pointer（邏輯處理單元）。因此P4 HT的die的面積比以往的P4增大了5%。而其餘部分如ALU（整數運算單元）、FPU（浮點運算單元）、L2 Cache（二級快取）並未增加，且是共享的。

使用HT技術的CPU

Pentium 4 CPU中，Northwood及其之後推出的版本內建超執行緒技術；而雙核心的Pentium D中也只有EE版提供HT技術。英特爾的Core 2處理器則沒有HT技術。^[2]

而在2008年推出的Intel Core i7處理器又支援HT技術，在Nehalem微架構中，Hyper-Threading大舉捲土重來。Intel的Hyper-Threading（又稱同步多線程）是善用執行緒平行性的方法，讓單一核心在應用軟體層能執行兩個邏輯線程。超線程技術在部分型號Intel Core i3/i5/i7/i9處理器中可用。從Kaby Lake Pentium開始，定位低階的Pentium（部分型號）也支援超執行緒技術。

顧慮

把執行管線的狀態，想像成流水線，資源A→資源B→資源C，來了兩條資料要計算，一條需要消耗A的100%→B的50%→C的50%，另一條一樣需要消耗A的100%→B的50%→C的50%，一條單純的（無HT）的執行管線的資源A需要先運用100%效能把第一條運算完才能再運算下一條，但後面的資源B跟C卻都有50%效能的浪費；如果把執行管線的資源A，變成兩個，資源B跟C依然只有一個，那這條管線就可以變成「兩個資源A同時消耗100%效能運算兩條資料，到了資源B跟C階段時，兩條資料再各自消耗50%的效能」，即達成「不必增加一條完整的執行管線，卻能在一樣時間運算兩條執行緒」。

但實際應用時，執行管線不會都是收到這麼完美的需運算資料，可能會是需消耗「A的10%→B的70%→C的70%」+「A的30%→B的50%→C的70%」+......等多種不同效能需求的需運算資料，依照文件的統計數字，整體能夠提升的效能約為5~15%左右，且萬一發生資源互搶的情形時，整體效能反而會下降。

要令電腦支持超執行緒技術，通常需作業系統和硬體的配合。晶片組需要支援具有HT技術之處理器。為此，當時的Intel推出了新的晶片組，i865PE和i875P。要充分發揮超執行緒的效能，使用者要使用Windows 2000之後的作業系統，而Windows XP家用版亦支援超執行緒技術。除了微軟的Windows外，Linux kernel 2.4.x亦開始支援該技術。軟體方面，通常優化多執行緒的程式都可以支援到。早期，遊戲軟體的支援是比較少。但隨著多核心技術的普及，愈來愈多遊戲軟體支援多執行緒的處理器。^[3]

安全

2005 年 5 月，Colin Percival 演示了 Pentium 4 上的超線程可以使用基於時間的側信道攻擊來監控與其共享緩存的另一個線程的內存訪問模式，從而竊取密碼信息。這實際上不是計時攻擊，因為惡意線程只測量自己執行的時間。對此的潛在解決方案包括處理器更改其緩存逐出策略或操作系統阻止在同一物理內核上同時執行具有不同權限的線程。2018 年，OpenBSD 操作系統禁用了超線程，以避免數據可能從應用程序泄漏到其他軟件，原因是 Foreshadow/L1TF 漏洞。2019 年，一系列漏洞導致安全專家建議在所有設備上禁用超線程。

示例：獲取物理核心數與邏輯核心數

Windows API的GetLogicalProcessorInformation可獲取當前計算機的物理核心數邏輯核心數：

DWORD GetProcessorCoreCount(DWORD &PhysicalProcessorCoreCount,DWORD &LogicalProcessorCoreCount )
{
	typedef BOOL(WINAPI *LPFN_GLPI)(
		PSYSTEM_LOGICAL_PROCESSOR_INFORMATION,
		PDWORD);

	LPFN_GLPI glpi = (LPFN_GLPI)GetProcAddress(GetModuleHandle(TEXT("kernel32")), "GetLogicalProcessorInformation");

	if (NULL == glpi)
		return 0;

	PSYSTEM_LOGICAL_PROCESSOR_INFORMATION buffer = NULL;
	DWORD returnLength = 0;
	 PhysicalProcessorCoreCount = 0;
	 LogicalProcessorCoreCount = 0;
	while (true)
	{
		DWORD rc = glpi(buffer, &returnLength);

		if (FALSE == rc)
		{
			if (GetLastError() == ERROR_INSUFFICIENT_BUFFER)
			{
				if (buffer)
					free(buffer);

				buffer = (PSYSTEM_LOGICAL_PROCESSOR_INFORMATION)malloc(
					returnLength);

				if (NULL == buffer)
					return 0;
			}
			else
			{
				return 0;
			}
		}
		else
		{
			break;
		}
	}

	PSYSTEM_LOGICAL_PROCESSOR_INFORMATION ptr = buffer;

	DWORD byteOffset = 0;
	while (byteOffset + sizeof(SYSTEM_LOGICAL_PROCESSOR_INFORMATION) <= returnLength)
	{
		switch (ptr->Relationship)
		{
		case RelationProcessorCore:
		{
			++PhysicalProcessorCoreCount;

			// count the logical processor, which is equal the count of digital 1's of ptr->ProcessorMask
			ULONG_PTR   ProcessorMask = ptr->ProcessorMask;
			while (ProcessorMask != 0)
			{
				ProcessorMask &= ProcessorMask - 1;
				LogicalProcessorCoreCount++;
			}
			break;
		}
		default:
			break;
		}
		byteOffset += sizeof(SYSTEM_LOGICAL_PROCESSOR_INFORMATION);
		++ptr;
	}
	free(buffer);
	return -1;
}

上述程式碼在32位編譯時最多能枚舉32個邏輯核心，在64位編譯時最多枚舉64個邏輯核心。如果超過64，應該使用 processor group.

另見

註腳

^ 超執行緒 (HT) 技術網際網路檔案館的存檔，存檔日期2011-03-17.
^ 支援超執行緒技術的 Intel® Pentium® 4 處理器 640. [2020-06-06]. （原始內容存檔於2020-10-23）.
^ 筆記型電腦－我可以升級我的系統並使用 Intel® HT 技術嗎？. [2011-07-12]. （原始內容存檔於2012-05-18）.

外部連結

（英文） Intel® Hyper-Threading Technology (Intel® HT Technology) （頁面存檔備份，存於網際網路檔案館）
（繁體中文） Hyper-Threading 捲土重來
（簡體中文） CPU : 超線程技術HT （頁面存檔備份，存於網際網路檔案館）

[1] 超執行緒 (HT) 技術網際網路檔案館的存檔，存檔日期2011-03-17.

[2] 支援超執行緒技術的 Intel® Pentium® 4 處理器 640. [2020-06-06]. （原始內容存檔於2020-10-23）.

[3] 筆記型電腦－我可以升級我的系統並使用 Intel® HT 技術嗎？. [2011-07-12]. （原始內容存檔於2012-05-18）.

[1]

[2]

[3]

閱論編英特爾
人物	高登·摩爾安迪·格羅夫羅伯特·諾伊斯克瑞格·貝瑞特保羅·歐德寧
處理器平台	迅馳（Centrino）歡悅（Viiv）博銳（VPro）奔騰（Pentium）酷睿（Core） i3 i5 i7 i9 安騰（Itanium）至強（Xeon）賽揚（Celeron）凌動 (Atom)
技術	x86 MMX SSE AVX FMA Intel 64 超執行緒核芯顯卡 3D XPoint 英特爾睿頻加速 SpeedStep Xe
子公司	3DLABS Altera Comneon（英語：Comneon） Intel Security Mobileye Virtutech（英語：Virtutech） Recon Instruments（英語：Recon Instruments） Wind River Systems（英語：Wind River Systems） 4Group Holdings (50% owned by Technicolor SA)
其他產品	Intel AZ210手機 Accounts & SSO Amplify Tablet Advanced Programmable Interrupt Controller Cache Acceleration Software Client Initiated Remote Access Direct Media Interface Flexible Display Interface Hella Zippy Intel 1103 Intel Display Power Saving Technology Intel Modular Server System Intel Reader Intel SPSH4 Intel System Development Kit Intel Upgrade Service Intel740 InTru3D IXP1200 Next Unit of Computing OFono Omni-Path Performance acceleration technology Shooting Star Smart Cache SSD 網路卡無線網卡晶片組 Stable Image Platform Wi-Di Intel Clear Video Intel Quick Sync Video Clear Linux OS
官司訴訟	AMD訴訟英特爾高科技公司職員反壟斷訴訟 Intel訴訟AMD 英特爾訴訟職員哈米迪英特爾訴訟英國CPM Silvaco數據系統訴訟英特爾
相關	英特爾極限高手盃製程-架構-優化模型

閱論編並行計算
概論	並發計算分布式計算並行計算大規模並行處理機雲端運算超級計算機高性能計算多元處理大規模多核心處理器（英語：Manycore processor） GPGPU 計算機網絡 Systolic array（英語：Systolic array）
層級	位元指令線程任務數據內存循環（英語：Loop-level parallelism）流水線
多線程	時間（英語：Temporal multithreading）同時多線程（SMT）投機（英語：Speculative multithreading）（SpMT）搶占式協作集群多線程（CMT）硬件偵測
理論	PRAM模型並行算法分析（英語：Analysis of parallel algorithms）阿姆達爾定律 Gustafson's law（英語：Gustafson's law） Cost efficiency（英語：Cost efficiency） Karp–Flatt metric（英語：Karp–Flatt metric）減速（英語：Parallel slowdown）加速比
元素	行程線程纖程指令窗口（英語：Instruction window）
協調	多元處理內存一致性（英語：Memory coherence）快取一致性高速緩存失效（英語：Cache invalidation）屏障同步應用程序檢查點（英語：Application checkpointing）
編程	串流處理數據流處理（英語：Dataflow programming）模型隱式並行（英語：Implicit parallelism）顯式並行（英語：Explicit parallelism）並發性非阻塞算法（英語：Non-blocking algorithm）
硬件	費林分類法單指令流單數據流單指令流多數據流單指令多線程（英語：Single instruction, multiple threads）（SIMT）多指令流單數據流多指令流多數據流數據流架構（英語：Dataflow architecture）指令管線化超純量並行向量處理機多處理器對稱非對稱內存共享分布式內存（英語：Distributed memory）分布式共享 UMA NUMA COMA（英語：Cache-only memory architecture）大規模並行處理機計算機集群網格計算
API	Ateji PX（英語：Ateji PX） Boost.Thread Charm++（英語：Charm%2B%2B） Cilk Coarray Fortran（英語：Coarray Fortran） CUDA Dryad（英語：Dryad (programming)） C++ AMP Global Arrays（英語：Global Arrays） MPI OpenMP OpenCL HMPP開放標準 OpenACC TPL（英語：Parallel Extensions#Task Parallel Library） PLINQ（英語：Parallel Extensions#PLINQ）並行虛擬機（英語：Parallel Virtual Machine）（PVM） POSIX線程 RaftLib（英語：RaftLib） UPC TBB（英語：Threading Building Blocks）
問題	軟件閉鎖（英語：Software lockout）可縮放性競爭危害死鎖活鎖飢餓（英語：Starvation (computer science)）確定性算法並行變慢（英語：Parallel slowdown）
分類：並行計算