龙空技术网

信息熵证明,汉语才是世界上最高级的语言?

艾科思教育北京总部 852

前言:

而今同学们对“ppm压缩算法”大体比较关切,同学们都想要知道一些“ppm压缩算法”的相关知识。那么小编在网上搜集了一些对于“ppm压缩算法””的相关资讯,希望咱们能喜欢,小伙伴们一起来学习一下吧!

最近小艾无聊刷小破站的时候,

刷到一个很有意思的视频。

视频提到,

你应该感到骄傲,

因为你已经掌握了人类最高级的语言:中文

这一论点,

是可以通过数学证明的。

信息熵

就是佐证这一论证的工具。

从信息论的角度来看,

中文的高级体现在信息熵高

也就是说,

中文传递信息的效率高

即能用最简洁的语言实现信息的传递,

在同样的文字长度下,

传达的信息量也更丰富。

那么,信息熵到底是什么?

它是如何来印证这一说法的呢。

小艾搜集了一部分相关资料,

大家一起来了解一下吧。

Entropy / 信息熵

所谓信息熵,其实是数学上一个很抽象的概念,我们不妨把它理解成某种特定信息的出现概率

在日常生活中,人们很难精确表述文字中信息量的多少。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。

香农借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。即

其中,x表示随机变量,指代任何随机发生的事情,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用χ表示。P(x)表示对应的概率。变量的不确定性越大,熵也就越大,得到确定答案需要问的问题越多,也就是所谓的信息量越大。

举个例子,你做一道判断题,但是不知道答案,只能靠猜,这时候就有了信息熵。当我们把这道判断题改为选择题的时候,“√”与“×”的二选一过程就会变成在“a、b、c、d”四项选择中判断正确答案,不确定性增大,此时这道题的信息熵也相应变大了。

Language / 计算语言信息熵的意义

从信息传播的角度来看,信息熵可以表示信息的价值。以此为标杆,我们就有了一个衡量信息价值高低的标准,也有利于做出关于知识流通问题的更多推论。

语言文字,是人类最重要的交际工具和信息载体,是人类文化的重要组成部分。从科学研究角度来看,语言的信息熵研究有着非常现实的意义。

信息熵的根本作用之一是,去除讯息中的冗余,使得其体积变小,并且保证传输到接收者一方后,没有损失或近似没有损失。如果能准确地计算出语言的信息熵,就可以得到此种语言的信息压缩下界。

Chinese / 最接近信息熵界限的语言

对于语言信息熵的计算,其实方式很简单,只需要带入公式就可以了。但关键问题在于,人们无法准确地知道一个语言中特定文字的出现概率,甚至有时难以统计某种语言中究竟有多少种字符。因此,信息论科学家只能通过各种手段来估计各个语言的信息熵。

在计量过程中,他们发现中文不论是文字部首还是音节,信息熵都远远超过了英语

在我国文字研究所1989年出版的《现代汉语定量分析》中,汉字的熵被估算为9.6比特,而其他联合国工作语言的熵分别是法语3.98比特,西班牙语4.01比特,英语4.03比特,俄语4.35比特。

2002年,哈佛大学的Frederi等人通过三次不同算法和文本的对比试验,压缩不同版本的圣经,同样得出了中文是压缩效率最低的语言,或者说是最接近信息熵界限的语言这一结论。而完美的语言,是应当达到信息压缩下界的

采用PPM算法,中文压缩效率明显低于其他文字

采用BZIP2压缩算法,同样得出了中文压缩效率低的结论

采用不同文本对译文进行语言扩展,中文依然是压缩效率最低的语言

虽然这几个实验不甚完美,也有部分漏洞,但却无一例外得出了相似的结果。因此即便存在缺陷,这样的实验依然有着很强的指导意义

当然,这里的熵只是一个参考值,因为信息熵很难得到一个准确的值。如果采用更大的文献库,如用文言文,会比现代汉语更加简洁,得出的数值自然也会产生变动。加上语言的信息熵研究已经发展多年,会涉及更多不同维度,这一数值更加难以精准确定。

Reason / 为何汉语信息熵如此之高

汉字之所以信息熵高,信息量大,是因为汉语有很多特点,可以减少额外文字的出现和使用

例如,汉语语法简单,语法时态的使用,会消耗额外的文字,增加冗余;汉语中多音字的存在,使得同样的字词可以有多个意思,如何消除不确定性,则需要通过联系上下文。此外,中国由字组词的扩展方式,让很多文字可以重复使用,以此来减少新文字的出现。

更值得一提的是,在汉字发展的历史长河中,每个字词背后都有相应的来源典故,它们是历史的积淀,蕴含着丰富的文化内涵,这是英语等文字所无法实现和比拟的。

同样的长度,汉语可以传达出更多有用的信息。那么,说汉字因为信息熵高,所以信息量大,也是没有什么问题的。

或者我们也可以这样理解,汉字因为信息熵高,所以接收者在看到单个汉字时,不能确定它要表达的意思,对它的不确定性高,那么,还能说的可能性很多,(未来可以接收的)信息量大。

想想看,美国人学习了2万单词,他能享受的信息还是有限的。中国人学习三四千汉字,就可以享受几乎全部信息。学少而知多,这大概就是汉语“最高级”强有力的证明吧。

不仅如此,汉语和西方语言对比,还有一个很有意思的特点。那就是西方语言是“一维的”和“密码式的”语言,这导致他们的思维直线式,语言抽象而费解,更倾向于关注中心物体而忽略背景,看问题深刻却片面。而汉语是“二维的”和“形象的”语言,每个汉字都是一幅画,不仅容易理解,获得信息的速度也更快。二维思维还使得中国人看问题重场景,看事物全面、透彻且会变通,能够将复杂问题简单化。

有资料表明:说汉语比说英语能更多地使用右脑(天才脑)。这又是一个先天因素,说明中国人比西方人有着更多的优势。至于能否充分利用这种优势,实现超越,那就需要后天的努力和培养了。

标签: #ppm压缩算法