[题图为Liliana Vess和Chandra Nara。均为MTG中的Planeswalker。本图比较好的体现了N. Bohr的互斥互补思想。]
读书笔记:A. Wehrl, The many facets of entropy, Rep. Mat. Phys. (1991) 30, 119
最近备课研究了一下统计物理中体现物理的地方。最重要的地方自然是熵的计算。
(0)注意到热力学第二定律里已经定义了一个熵了:
(0)
这是熵最原始的定义,来自于Clausius (1850)。1865年他给这个新的热力学量取了名字,来源于古代希腊语τροπή,change。这样定义的熵叫做热力学熵。
这里有一个更进一步的说明,貌似更加合理。因为τροπή读作/tro’pi/,看上去只是后半段。
(1)首先就是利用Boltzmann统计法,根据约束条件得到配分函数的表达式,之后计算热力学量,就需要把热力学的一些公式作为基本假设用上,再把热力学0-3四个定律应用上,才能讨论出热力学量的表达式。
(1.1)在Boltzmann统计法中,这个基本假设是热力学的基本公式
从这里出发实际上已经可以得到熵的基于配分函数的表达式
(参考曹烈兆、周子舫的教材p.28-31)
( )
基于热力学第三定律,选择积分常数为0,可得
(定域子系)
(1.2)还可以从热力学第一定律出发:
再加上热力学第二定律的思想,寻找 的积分因子。在热力学第二定律中,人们已经找到一个积分因子 ;根据常微方程中的相关理论,讨论出引入的 也是积分因子,只能跟上边那个 差一个常数,即 (看了近年的实验文献,原来测量 是从特殊找到一般,即测量近似于理想气体的系统的P、V、T,然后应用理想气体方程确定Boltzmann常数)。
Darwin-Fowler最速下降法得到的是每个能级的粒子数平均值
后续讨论跟上边相同。
搞这么一圈复杂的讨论,是为了把Boltzmann的基本假设
(1)
整出来。此处的 是一个大的整数,称为热力学概率(因为没有归一化),也叫状态数,或者complexions(Tolman的书里喜欢用complexion)。
公式(1)是Boltzmann在1877年发现的,但是显然,式(1)不是其原始形式。因为Boltzmann常数是他的小迷弟Planck在1902年命名的(又一次,带人名的东西里边那个人名,不是开发者自己取的)。后来,Einstein在1907年给式(1)取名为:Boltzmann定理。所以这个式子并非一个定义,但是现在的教材,特别是汪志诚,先把它拿出来了。这是因为从Boltzmann统计法最容易先得到这个关系式。笔者认为,这个思路既不适合理解统计力学,也不符合历史进程。
从(1)出发,假设没有简并,或者说,把能量简并但是能通过其他手段去简并的态区分开来,比如对于一个n=2的氢原子, 虽然能级相同,但是把l=0,1; m=-1,0,1; ms = +1/2, -1/2几个态分别区分开来,还可推出另一个重要的熵定理
(1b)
(1b)式其实有点不伦不类的意思,因为它是一个变形的Shannon 熵,即“经典离散情况的熵”。这里边(1b)和(1)在特定条件下才是互相等价的定义,是汪志诚的教材里的第一道习题:微正则系综中,对微观状态而不是能级求和,(1b)才等价于(1)。
而Boltzmann最早定义的、所谓的Boltzmann熵,其实是定义在 空间里的单粒子熵(1872年,比(1)早5年):
(2)
其中 单粒子分布函数,也是1阶关联函数。是所谓注意积分不是在严格的相空间里,而是坐标-速度空间。当时相空间的想法还没有很严格。
这几个公式提出的时间不一样。历史上先有(0),后有(2),最后有(1)。而(1b)就不知道什么时候才出现了。
(2)是Boltzmann研究统计力学和气体动力论时提出的(必须注意!统计力学的基础包含两大块:统计法和动力论。动力论国内讲的非常不好,推荐两本参考书:《稀薄气体的数学理论》、《非均匀气体的数学理论》,还有Zwanzig的名著《nonequilibrium statistical mechanics》)。这个定义提出来之后,立即用于讨论非平衡过程,即只对速度积分,就有所谓的局域熵,再讨论其随时间变化,就很容易得到Boltzmann碰撞方程,进而得到 定理。
时间终于来到了20世纪,1902年Gibbs的巨著(指历史意义,实际的书很薄,100多页)引入了Gibbs熵(显然又是后世给命名的,他本人给熵取名极为隐晦:average index of the probability-in-phase)
(4)
这才是真正定义在相空间( 空间, 空间和 空间都是Boltzmann的高足,Ehrenfest取的名字,首次面世于1911年,The conceptual foundations of the statistical approach in mechanics,是M. Klein编纂的数学大百科全书里的一章,现在可以买到单独出版的Dover版)里的熵。
系综法是采用分离子系统,讨论子系统的热力学量和总系统的热力学量之间关系(需要讨论子系统的涨落造成的某些热力学量的变化,再假设其中一个子系统,一般是热源,由于特别大,涨落可以小到能省略展开式二阶以上的项),得出热力学量基于相空间中密度的或者配分函数的表达式,进而得到熵。
不管历史,建立统计力学的理论框架的话,这三个结论就必须拿一个出来做为基本假设。沈惠川觉得(4)是最根本的。但是,真的如此吗?
顺带提一下,Boltzmann的H-定理和Gibbs的熵,当时都为人们诟病。因为根据H-定理,H永远不增( ,是负的局域熵),体系永远到达不了平衡;而根据Gibbs的定义,熵永远不变,平衡的体系永远平衡,不平衡的体系用不平衡。1911年Paul Ehrenfest提出了一个“粗粒化”方案,解决了上述矛盾。后来量子力学的发展,才发现相空间积分必须要除以单位相格体积,即 。这也是“分子混沌”的另一个版本。有趣的是Boltzmann早已意识到了这一点。体系的无规律性只能作为一个基本假设,(截至1991年)很难从力学推出。细节可参考Lanford, Dynamic systems, 1975.
Shannon在1949年,受到von Neumann的鼓惑,把本来命名为“measure of information”的一个测度,命名为了熵。这就是所谓的Shannon熵,又被称为经典离散熵,因为它基于某种经典理论,又是离散的。
(5)
(5)和(1b)只相差一个常数。
至此我们已经有了所有的经典的跟统计有关的熵:Boltzmann熵、Gibbs熵、Shannon熵。
前两者是连续的,后者是离散的。它们都可以统一在Baron-Jauch 熵的框架里。
请先阅读下边的数学,数学之后更精彩:
======
咱们来聊点数学(孙文祥《遍历论》)。
一、设有概率测度空间 ,其中:
X为一集合,
为X中一些子集构成的集类,且为 代数:
(1)
(2) 蕴涵
(3) 蕴涵
m为 上的概率测度:
,且
(1)
(2)
(3)若 为互不相交的子集序列时,则
二、 上定义有限可测分解
, ,
即k个互不相交的子集 满足:
或者它们之间相交但是
或者 严格包含于X但是
三、则在上述概率测度空间 中,可定义分解 的测度熵如下:
四、设 是一个紧致拓扑空间, 是连续自映射。可称 为离散拓扑系统。
五、设 和 为 的开覆盖。
(1)记 并称之为 和 的交。
类似可以定义有限多开覆盖的交
对 ,记
则上述 三者均为Y的开覆盖。
(2) 称为 的加细,记为 ,若 满足:
, ,使得 。
(3)记
其中 表示集合 的基数(势)。
由Y紧致,存在子覆盖 ,使得其基数(也称为势)为 。
这样的子覆盖称为最小基数的子覆盖。
六、记 为开覆盖 的熵。
七、定义上述从四到六中, 相对于 的拓扑熵:
八、Radon-Nikodym导数:
YorkYoung:量子力学杂谈——Radon-Nikodym导数尘一凡:3.8 Radon-Nikodym 定理
(太好了,有这两个帖子省了我的事了)
====================
设 为测度空间, 是一个概率测度,相对于 绝对连续。则Baron-Jauch熵(Helv. Phys. Acta. (1972) 45, 20)是:
根据使用的测度 不同,获得的熵的性质也不同。
1927年,量子力学建立2年之后,von Neumann引入了量子力学中的熵。借助于密度矩阵:
密度矩阵是:
理论上来说,两种离散的熵取值范围为 ,而两种连续的熵取值范围在 。
上述四种熵(不计测度熵和拓扑熵)共同的基本性质为:
不变性,相空间的熵在正则变换下不变,三种经典熵在保测度变换下不变;量子熵在unitary变换下不变。而且,熵还都是凸函数。熵也都具有可加性(additive)或subadditive。
具有上述性质的离散的熵的函数形式几乎是唯一的:
定理:任何具有上述性质的离散的熵,其函数形式必为(Shannon熵 或von Neumann熵)和(Shannon熵 或Hartley 熵(1928)
)的线性组合(J. Aczel, B. Forte, C. T. Ng, Adv. Appl. Prob. (1974) 6, 131)。
量子力学中的熵不具备单调性。但是1991年为止还没有实验观测到这个效应。
还有一个有趣的问题是量子经典对应。因为微观世界需要用量子力学描述,而到了宏观就可以还原为经典力学,那么量子力学中的熵如何还原为经典力学中的熵?E. Wigner和布洛欣采夫最早考虑了这个问题(E. Wigner, Phys. Rev. (1932) 40, 749; Blokhintzev, J. Phys. (1940) 2, 71)。
上述量子力学中的两种熵,还有Shannon熵,也都可以归纳入一个更广泛的熵定义中,即所谓的Renyi熵,又叫 熵:
可以验证, 极限(注意这时分子分母变为0/0型不定型)就是von Neumann熵。 是Fano和普里高津喜欢用的选择,因为容易计算,不需对角化密度矩阵。
再后来,又有几种熵面世:
Aczel-Daroczy 熵、Daroczy熵、quasi-熵、skew熵。
其中skew熵是E. Wigner提出的,也被Freeman Dyson研究过。
其后还有所谓的相对熵(1962),用于比较两个密度矩阵:
相对熵的经典对应,连续版叫Kullback熵,离散版叫Renyi’s information gain。
上述测度熵和拓扑熵跟动力系统有关,Kolmogorov和Sinai建立了相应的理论。其量子力学对应到1991年还不清楚。
其他还有所谓 熵、跟C*-代数有关的Connes-Narnhofer-Thirring熵等。貌似只有做相关的数学物理研究才能用到了。
后记:
由上述各种不同的熵的定义可见,最开始是为了研究传热和做功之间的转化,引入了一个可逆过程传热和温度之比 ,后来发现它对应恒容可逆过程中,内能随温度的变化率 。后来Boltzmann在探索从微观力学原理建立热力学理论,也就是建设统计力学的过程中,发现这部分能量对应于体系的无序度或者说混乱度,猜出 ;后来根据他研究气体分子运动论得到的H-定理,又猜出 。这个函数形式非常好用,后来研究者们把它用在各种地方。这时候已经发现熵作为“混乱度”的描述的说法不够全面。从两个数学熵的定义可以看出,熵最好称为是“复杂程度”的量度。这样所有的熵的定义都可以统一理解(显然不是严格意义上的互相“等价”)。
但是!最重要的是,各种理论体系中,虽然熵是后来发现并明确定义的,但是由于其重要地位,一般将其视为基本假设,而其他的结论作为推论。这也是从几何原本到现在的建立知识体系的一贯思路。
数学上看,熵可以取到 (孙文祥书前言里称,数学上遍历论里熵的值为 ,“这里不妨把 也看作数字”)。但是物理上看,虽然它的值似应该为有限大。这个问题有空查一下,读者朋友们有证据也可以在下边留言。
======
实际上,不同的书里从统计分布出发,导出热力学量的的方法多有差别,打算有时间总结一下。
来源:知乎 www.zhihu.com
作者:知乎用户(登录查看详情)
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载