熵的多种表达式

[题图为Liliana Vess和Chandra Nara。均为MTG中的Planeswalker。本图比较好的体现了N. Bohr的互斥互补思想。]

读书笔记:A. Wehrl, The many facets of entropy, Rep. Mat. Phys. (1991) 30, 119

最近备课研究了一下统计物理中体现物理的地方。最重要的地方自然是熵的计算。

(0)注意到热力学第二定律里已经定义了一个熵了:

dS=\frac{đ Q}{T} (0)

这是熵最原始的定义,来自于Clausius (1850)。1865年他给这个新的热力学量取了名字,来源于古代希腊语τροπή,change。这样定义的熵叫做热力学熵

这里有一个更进一步的说明,貌似更加合理。因为τροπή读作/tro’pi/,看上去只是后半段。

entropy – Wiktionary

(1)首先就是利用Boltzmann统计法,根据约束条件得到配分函数的表达式,之后计算热力学量,就需要把热力学的一些公式作为基本假设用上,再把热力学0-3四个定律应用上,才能讨论出热力学量的表达式。

(1.1)在Boltzmann统计法中,这个基本假设是热力学的基本公式

dU=SdT-pdV

从这里出发实际上已经可以得到熵的基于配分函数的表达式

(参考曹烈兆、周子舫的教材p.28-31)

dS=Nk_Bd(lnZ-\beta \frac{\partial lnZ}{\partial \beta}) ( \aleph )

基于热力学第三定律,选择积分常数为0,可得

S=Nk_BlnZ+\frac{U}{T} (定域子系)

(1.2)还可以从热力学第一定律出发:

dU=đ Q+đ W

再加上热力学第二定律的思想,寻找đ Q=dU-đ W 的积分因子。在热力学第二定律中,人们已经找到一个积分因子 \frac{1}{T} ;根据常微方程中的相关理论,讨论出引入的 \beta 也是积分因子,只能跟上边那个 \frac{1}{T} 差一个常数,即 k_B (看了近年的实验文献,原来测量 k_{\rm{B}} 是从特殊找到一般,即测量近似于理想气体的系统的P、V、T,然后应用理想气体方程确定Boltzmann常数)。

Darwin-Fowler最速下降法得到的是每个能级的粒子数平均值
\bar{n_i}=\frac{Nw_ie^{-\beta \epsilon_i}}{Z}
后续讨论跟上边相同。

搞这么一圈复杂的讨论,是为了把Boltzmann的基本假设

S=k_B \ln W (1)

整出来。此处的 W 是一个大的整数,称为热力学概率(因为没有归一化),也叫状态数,或者complexions(Tolman的书里喜欢用complexion)。

公式(1)是Boltzmann在1877年发现的,但是显然,式(1)不是其原始形式。因为Boltzmann常数是他的小迷弟Planck在1902年命名的(又一次,带人名的东西里边那个人名,不是开发者自己取的)。后来,Einstein在1907年给式(1)取名为:Boltzmann定理。所以这个式子并非一个定义,但是现在的教材,特别是汪志诚,先把它拿出来了。这是因为从Boltzmann统计法最容易先得到这个关系式。笔者认为,这个思路既不适合理解统计力学,也不符合历史进程。

从(1)出发,假设没有简并,或者说,把能量简并但是能通过其他手段去简并的态区分开来,比如对于一个n=2的氢原子, 虽然能级相同,但是把l=0,1; m=-1,0,1; ms = +1/2, -1/2几个态分别区分开来,还可推出另一个重要的熵定理

S=-Nk_B\sum p_s ln p_s (1b)

(1b)式其实有点不伦不类的意思,因为它是一个变形的Shannon 熵,即“经典离散情况的熵”。这里边(1b)和(1)在特定条件下才是互相等价的定义,是汪志诚的教材里的第一道习题:微正则系综中,对微观状态而不是能级求和,(1b)才等价于(1)。

而Boltzmann最早定义的、所谓的Boltzmann熵,其实是定义在 \mu- 空间里的单粒子熵(1872年,比(1)早5年):

S = -k_{B} \int F \ln F \, {\rm{d}}^3x \, {\rm{d}}^3v (2)

其中 F=F(\vec{x},\vec{v},t) 单粒子分布函数,也是1阶关联函数。是所谓注意积分不是在严格的相空间里,而是坐标-速度空间。当时相空间的想法还没有很严格。

这几个公式提出的时间不一样。历史上先有(0),后有(2),最后有(1)。而(1b)就不知道什么时候才出现了。

(2)是Boltzmann研究统计力学和气体动力论时提出的(必须注意!统计力学的基础包含两大块:统计法和动力论。动力论国内讲的非常不好,推荐两本参考书:《稀薄气体的数学理论》、《非均匀气体的数学理论》,还有Zwanzig的名著《nonequilibrium statistical mechanics》)。这个定义提出来之后,立即用于讨论非平衡过程,即只对速度积分,就有所谓的局域熵,再讨论其随时间变化,就很容易得到Boltzmann碰撞方程,进而得到 H- 定理。

时间终于来到了20世纪,1902年Gibbs的巨著(指历史意义,实际的书很薄,100多页)引入了Gibbs熵(显然又是后世给命名的,他本人给熵取名极为隐晦:average index of the probability-in-phase)

S(\rho) = -k_{\rm{B}} \int \rho \ln \rho \, {\rm{d}}\Gamma (4)

这才是真正定义在相空间( \Gamma- 空间, \mu- 空间和 \Gamma- 空间都是Boltzmann的高足,Ehrenfest取的名字,首次面世于1911年,The conceptual foundations of the statistical approach in mechanics,是M. Klein编纂的数学大百科全书里的一章,现在可以买到单独出版的Dover版)里的熵。

系综法是采用分离子系统,讨论子系统的热力学量和总系统的热力学量之间关系(需要讨论子系统的涨落造成的某些热力学量的变化,再假设其中一个子系统,一般是热源,由于特别大,涨落可以小到能省略展开式二阶以上的项),得出热力学量基于相空间中密度的或者配分函数的表达式,进而得到熵。

不管历史,建立统计力学的理论框架的话,这三个结论就必须拿一个出来做为基本假设。沈惠川觉得(4)是最根本的。但是,真的如此吗?

顺带提一下,Boltzmann的H-定理和Gibbs的熵,当时都为人们诟病。因为根据H-定理,H永远不增( H=k\int F \ln F \, {\rm{d}}^3v ,是负的局域熵),体系永远到达不了平衡;而根据Gibbs的定义,熵永远不变,平衡的体系永远平衡,不平衡的体系用不平衡。1911年Paul Ehrenfest提出了一个“粗粒化”方案,解决了上述矛盾。后来量子力学的发展,才发现相空间积分必须要除以单位相格体积,即 h^{Nf} 。这也是“分子混沌”的另一个版本。有趣的是Boltzmann早已意识到了这一点。体系的无规律性只能作为一个基本假设,(截至1991年)很难从力学推出。细节可参考Lanford, Dynamic systems, 1975.

Shannon在1949年,受到von Neumann的鼓惑,把本来命名为“measure of information”的一个测度,命名为了熵。这就是所谓的Shannon熵,又被称为经典离散熵,因为它基于某种经典理论,又是离散的。

S_{H} = -\sum_i p_i \log_2 p_i (5)

(5)和(1b)只相差一个常数。

至此我们已经有了所有的经典的跟统计有关的熵:Boltzmann熵、Gibbs熵、Shannon熵。

前两者是连续的,后者是离散的。它们都可以统一在Baron-Jauch 熵的框架里。

请先阅读下边的数学,数学之后更精彩:

======

咱们来聊点数学(孙文祥《遍历论》)。

一、设有概率测度空间 (X,\mathcal{B},m) ,其中:

X为一集合,

\mathcal{B} 为X中一些子集构成的集,且为\sigma- 代数

(1) X\in\mathcal{B}

(2) B\in\mathcal{B} 蕴涵 X\setminus B\in\mathcal{B}

(3) B_n \in \mathcal{B} ( n \in \mathbb{R}) 蕴涵 \bigcup^{\infty}_{n=1}B_{n} \in \mathcal{B}

m为 (X,\mathcal{B}) 上的概率测度

m: \mathcal{B}\to[0,1] ,且

(1) m( \phi )=0

(2) m(X)=1

(3)若 \{B_n\}_{1}^{\infty}\subset \mathcal{B} 为互不相交的子集序列时,则

m(\bigcup^{\infty}_{n=1}B_n)=\sum^{\infty}_{n=1}m(B_n)

二、 (X,\mathcal{B},m) 上定义有限可测分解

\xi=\{A_1,A_2,A_3,\cdots,A_k\}k\in \mathbb{N} ,

即k个互不相交的子集 \{A_i\} 满足:

\bigcup^{k}_{i=1}A_i=X

或者它们之间相交但是

m(A_i\cap A_j)=0

或者 \bigcup^{k}_{i=1}A_i 严格包含于X但是 m(X\setminus \bigcup^{k}_{i=1}A_i)=0

三、则在上述概率测度空间 (X,\mathcal{B},m) 中,可定义分解 \xi测度熵如下:

H(\xi)=-\sum^{k}_{i=1}m(A_i)\log{m(A_i)}

四、设 Y 是一个紧致拓扑空间T: Y \to Y 是连续自映射。可称 (Y,T) 为离散拓扑系统。

五、设 \alpha\betaY开覆盖

(1)记 \alpha\vee\beta=\{A\cap B | A\in\alpha, B\in\beta\} 并称之为 \alpha\beta 的交。

类似可以定义有限多开覆盖的交

\bigvee^{k}_{i=1}\alpha_i

i\in\mathbb{N} ,记

T^{-i}\alpha=\{T^{-i}A | A\in\alpha\}

则上述 \alpha\vee\beta, \bigvee^{k}_{i=1}\alpha_i , T^{-i}\alpha 三者均为Y的开覆盖。

(2) \beta 称为 \alpha加细,记为 \alpha<\beta ,若 \beta 满足:

\forall B\in\beta\exists A\in\alpha ,使得 B\subset{A}

(3)记

N(\alpha)=\min\{\# \gamma | \gamma\subset\alpha, \bigcup_{B\in\gamma}B=X\}

其中 \#\gamma 表示集合 \gamma 的基数(势)。

由Y紧致,存在子覆盖 \{A_1,A_2,\cdots,A_{N(\alpha)}\}\subset\alpha ,使得其基数(也称为势)N(\alpha)

这样的子覆盖称为最小基数的子覆盖

六、记 H(\alpha)=\log{N(\alpha)} 为开覆盖 \alpha

七、定义上述从四到六中, T相对于 \alpha拓扑熵

h(T,\alpha)=\lim_{n\to\infty}\frac{1}{n}\ln{N(\bigvee_{i=1}^{k}T^{-i}\alpha)}

八、Radon-Nikodym导数:

YorkYoung:量子力学杂谈——Radon-Nikodym导数尘一凡:3.8 Radon-Nikodym 定理

(太好了,有这两个帖子省了我的事了)

====================

(\Omega, \Sigma, \mu) 为测度空间, \nu 是一个概率测度,相对于 \mu 绝对连续。则Baron-Jauch熵(Helv. Phys. Acta. (1972) 45, 20)是:

S := - \int \frac{{\rm{d}} \nu}{{\rm{d}} \mu} \ln \frac{{\rm{d}} \nu}{{\rm{d}} \mu} \, {\rm{d}} \mu

根据使用的测度 \mu 不同,获得的熵的性质也不同。

1927年,量子力学建立2年之后,von Neumann引入了量子力学中的熵。借助于密度矩阵:

S(\hat{\rho}) = - k_{\rm{B}} {\rm{Tr}}{\, \Big( \hat{\rho} \ln \hat{\rho}\Big)}

密度矩阵是:

\hat{\rho} = \sum_{i}p_{i}\vert \phi_i \rangle\langle \phi_i \vert

理论上来说,两种离散的熵取值范围为 [0,\infty] ,而两种连续的熵取值范围在 (-\infty,+\infty)

上述四种熵(不计测度熵和拓扑熵)共同的基本性质为:

不变性,相空间的熵在正则变换下不变,三种经典熵在保测度变换下不变;量子熵在unitary变换下不变。而且,熵还都是凸函数。熵也都具有可加性(additive)或subadditive。

具有上述性质的离散的熵的函数形式几乎是唯一的:

定理:任何具有上述性质的离散的熵,其函数形式必为(Shannon熵 或von Neumann熵)和(Shannon熵 或Hartley 熵(1928)

S_0 = \sum_{j\in\{i\}} \log p_j,\quad p_j>0

)的线性组合(J. Aczel, B. Forte, C. T. Ng, Adv. Appl. Prob. (1974) 6, 131)。

量子力学中的熵不具备单调性。但是1991年为止还没有实验观测到这个效应。

还有一个有趣的问题是量子经典对应。因为微观世界需要用量子力学描述,而到了宏观就可以还原为经典力学,那么量子力学中的熵如何还原为经典力学中的熵?E. Wigner和布洛欣采夫最早考虑了这个问题(E. Wigner, Phys. Rev. (1932) 40, 749; Blokhintzev, J. Phys. (1940) 2, 71)。

上述量子力学中的两种熵,还有Shannon熵,也都可以归纳入一个更广泛的熵定义中,即所谓的Renyi熵,又叫 \alpha- 熵:

S^{\alpha}(\rho) = \frac{1}{1-\alpha}\ln {\rm{Tr}}\hat{\rho}^{\alpha},\quad 0<\alpha<\infty

可以验证, \alpha\to 1 极限(注意这时分子分母变为0/0型不定型)就是von Neumann熵。 \alpha=2 是Fano和普里高津喜欢用的选择,因为容易计算,不需对角化密度矩阵。

再后来,又有几种熵面世:

Aczel-Daroczy 熵、Daroczy熵、quasi-熵、skew熵。

其中skew熵是E. Wigner提出的,也被Freeman Dyson研究过。

S(\hat{\rho}, K):=\frac{1}{2} {\rm{Tr}}\big[ \hat{\rho}^{1/2}, K\big]^2

其后还有所谓的相对熵(1962),用于比较两个密度矩阵:

S(\hat{\sigma} \vert\hat{ \rho}) = {\rm{Tr}}\hat{\rho}(\ln \hat{\rho} - \ln \hat{\sigma})

相对熵的经典对应,连续版叫Kullback熵,离散版叫Renyi’s information gain。

上述测度熵和拓扑熵跟动力系统有关,Kolmogorov和Sinai建立了相应的理论。其量子力学对应到1991年还不清楚。

其他还有所谓 \rm{Connes-St\phi rmer} 熵、跟C*-代数有关的Connes-Narnhofer-Thirring熵等。貌似只有做相关的数学物理研究才能用到了。

后记:

由上述各种不同的熵的定义可见,最开始是为了研究传热和做功之间的转化,引入了一个可逆过程传热和温度之比 \frac{\eth Q}{T} ,后来发现它对应恒容可逆过程中,内能随温度的变化率 (\frac{\partial U}{\partial T})_V 。后来Boltzmann在探索从微观力学原理建立热力学理论,也就是建设统计力学的过程中,发现这部分能量对应于体系的无序度或者说混乱度,猜出 S=k_{B}\ln\Omega ;后来根据他研究气体分子运动论得到的H-定理,又猜出 S=-k_B\sum_{s}p_s\ln p_s 。这个函数形式非常好用,后来研究者们把它用在各种地方。这时候已经发现熵作为“混乱度”的描述的说法不够全面。从两个数学熵的定义可以看出,熵最好称为是“复杂程度”的量度。这样所有的熵的定义都可以统一理解(显然不是严格意义上的互相“等价”)

但是!最重要的是,各种理论体系中,虽然熵是后来发现并明确定义的,但是由于其重要地位,一般将其视为基本假设,而其他的结论作为推论。这也是从几何原本到现在的建立知识体系的一贯思路。

数学上看,熵可以取到 +\infty (孙文祥书前言里称,数学上遍历论里熵的值为 [0,+\infty] ,“这里不妨把 +\infty 也看作数字”)。但是物理上看,虽然它的值似应该为有限大。这个问题有空查一下,读者朋友们有证据也可以在下边留言。

======

实际上,不同的书里从统计分布出发,导出热力学量的的方法多有差别,打算有时间总结一下。

来源:知乎 www.zhihu.com

作者:知乎用户(登录查看详情)

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载