鋼軌鋼

[拼音]:xinyuan

[英文]:information source

產生訊息(符號)、訊息序列和連續訊息的源,在數學上可以用隨機變數、隨機序列和隨機過程來表示。資訊是抽象的,信源則是具體的。例如人們談話,人的發聲系統就是語聲信源;觀看電視,被攝製的客觀物體和人物就是影象信源。另外還有文字信源、資料信源、遙感信源等。

分類

最基本的信源是單個訊息(符號)信源,它可以用隨機變數X及其概率分佈P來表示。通常寫成(X,P)。根據信源輸出的隨機變數的取值集合,信源可以分為離散信源和連續信源兩類。對於離散信源

式中X為隨機變數,其取值集合為A={x1,x2,…,xn},X 取xi的概率為Pi。例如當

時,二進位制資料信源可表示為

對於連續信源

式中隨機變數X取值於區間(ɑ,b),對應的概率密度為p(x)。

實際信源是由最基本的單個訊息信源組合而成的。離散時,它是由一系列訊息串組成的隨機序列

X

1,

X

2,…,

X

j,…,

X

L來表示。電報、資料、數字等信源均屬此類。連續時,它是由連續訊息所組成的隨機過程X(t)來表示。語聲、影象等信源屬於這類。對於離散隨機序列信源,訊息序列

X

的取值集合為AL,概率分佈為PX(

),記為(

X

,PX(

))。

離散序列信源又分為無記憶和有記憶兩類。當序列信源中的各個訊息相互統計獨立時,稱信源為離散無記憶信源。若同時具有相同的分佈,則稱信源為離散平穩無記憶信源。例如最簡單的(設L=3)脈衝編碼信源,當P0=P1=1/2時,

當序列信源中各個訊息前後有關聯時,稱信源為離散有記憶信源。描述它一般比較困難,尤其當記憶長度很大時。但在很多實際問題中僅須考慮有限記憶長度,特別是當信源系列中的任一訊息僅與其前面的一個訊息有關聯,數學上稱它為一階馬爾科夫鏈。在馬爾科夫鏈中,若其轉移概率與所在位置無關,則稱為齊次馬爾科夫鏈。若同時還滿足當轉移步數充分大時與起始狀態無關,則稱它為齊次遍歷馬爾科夫鏈。例如數字影象信源常採用這一模型。

連續的隨機過程信源,一般很複雜且很難統一描述。但在實際問題中往往可採用以下兩類方法。最常見的處理方法是將連續的隨機過程信源在一定的條件下轉化為離散的隨機序列信源;另一種方法則是把連續的隨機過程信源按易於分析的已知連續過程信源處理。實際上,絕大多數連續隨機過程信源都近似地滿足限時(T)、限頻(F)的條件。這時,連續的隨機過程可以轉化為有限項傅立葉級數或抽樣函式的隨機序列,而抽樣函式表示式尤為常用。但這兩種方式在一般情況下其轉化後的離散隨機序列是相關的,即信源是有記憶的。這給進一步分析帶來一定的困難。另外一種是將連續隨機過程展開成相互線性無關的隨機變數序列,這種展開稱為卡休寧-勒維展開。由於實現困難,這種展開除具有一定理論價值外,實際上很少被採用。直接按隨機過程來處理信源受到分析方法的限制,人們還主要限於研究平穩遍歷信源和簡單的馬爾科夫信源。

上述信源都是單一信源,又稱為單使用者信源。70年代以來又進一步引入多個相互不獨立或相關的信源,稱為多使用者信源,其目的是研究多使用者信源編碼,以進一步壓縮信源的資訊率或達到某些其他目的。但這方面的研究還僅限於離散無記憶信源,這類問題是一個正在探索中的課題。

主要性質

信源輸出是隨機的,因而它是概率性的。從概率統計觀點看,概率分佈是信源最基本、最完整的統計特性。對離散無記憶信源,信源訊息序列是統計獨立的,因此只要知道單個訊息的概率分佈就能完全決定整個訊息序列的聯合概率分佈。對離散有記憶信源情況就不同了,它必須知道整個訊息序列的聯合分佈,而求有記憶信源的聯合分佈是很困難的。只是在一些很特殊的情況下,已知分佈型別和某些統計參量,如均值、協方差,才能求出分佈。最典型的例子是具有有限維的正態分佈,其概率分佈唯一地決定於均值和協方差。

實際信源分佈即使是一維的也往往是未知的,通常採用直方圖統計量,以便為實際信源尋找出一個近似的概率分佈。在求實際語聲、影象分佈時,常採用這種方法。

利用概率分佈,可以進一步引用資訊熵

H

(X)來描述信源的統計特性。根據資訊理論可得出以下結論:對離散信源,當信源訊息序列獨立、等概率分佈時,資訊熵最大。對連續信源,只有在一定約束條件下才具有最大熵。例如當訊號峰值功率受限制時,均勻分佈信源的資訊熵最大;而當訊號平均功率受限制時,正態分佈信源的資訊熵最大。利用資訊熵還可以很方便地描述有記憶信源的統計特性。根據熵的性質,無記憶的單個訊息熵大於有記憶的單個訊息熵,且記憶越長,單個訊息熵就越小。實際信源多數是有記憶的,但是在傳送信源訊息時往往按無記憶考慮,因此信源存在著壓縮的可能性。

實際信源

影象和語聲是最常用的兩類主要信源。要充分描述一幅活動的立體彩色影象,須用一個四元的隨機向量場

X

(x,y,z,t),其中x,y,z為空間座標;t為時間座標;而

X

是六維向量,即表示左、右眼的亮度、色度和飽和度。然而通常的黑白電視訊號是對平面圖像經過線性掃描而形成。這樣,上述四元隨機向量場可簡化為一個隨機過程

X

(t)。影象信源的最主要客觀統計特性是信源的幅度概率分佈、自相關函式或功率譜。關於影象信源的幅度概率分佈,雖然人們已經作了大量的統計和分析,但尚未得出比較一致的結論。至於影象的自相關函式,實驗證明它大體上遵從負指數型分佈。其指數的衰減速度完全取決於影象型別與影象的細節結構。實際上,由於信源的訊號處理往往是在頻域上進行,這時可以通過傅立葉變換將信源的自相關函式轉換為功率譜密度。功率譜密度也可以直接測試。

語聲訊號一般也可以用一個隨機過程

X

(t)來表示。語聲信源的統計特性主要有語聲的幅度概率分佈、自相關函式、語聲平均功率譜以及語聲共振峰頻率分佈等。實驗結果表明語聲的幅度概率分佈可用伽瑪(γ)分佈或拉普拉斯分佈來近似。語聲訊號的自相關函式,根據實驗也可以大致認為屬於負指數分佈型別,且樣點間相關性很強,一般高達0.9以上。語聲訊號的平均功率譜的測試表明,語聲主要能量集中在 1千赫以下。語聲的共振峰頻率是語聲功率譜的主要峰值。這樣的峰值並非一個,而且它的值隨音調的變化有一定的變動範圍。人們對漢語、英語的共振峰分佈已獲得一定的測試結果。

參考書目

周炯槃:《資訊理論基礎》,人民郵電出版社,北京,1983。