planeheart的头脑风暴
注册日期:
2013-09-16 15:53:09
上次登录:
2016-05-11 02:38:27
邮件地址:
saintpal@163.com
兴趣领域:
数学,物理,人工生命,系统科学,计算机科学
  
略述压缩主义
2014-11-21 02:02:33  科学哲学 
      本文是对《科学也许就是数据压缩》(http://old.swarma.org/swarma/detail.php?id=18608)一文中观点的补充说明,希望通俗地了解其大概的网友可阅读原帖。



     此种观点认为科学理论实质上等价于一种专门压缩大自然的描述的数据压缩器。因此,衡量好的科学理论的标准就是压缩描述冗余的能力。例如,麦克斯韦电磁学理论是一个好的科学理论。设想我们要在有限精度的条件下尽可能精确描述给定球形区域内的静电场,没有充分理论知识的前提下需要的采样点数近似正比于区域的体积。了解静电学方程使得我们只需要以适当的精度记录其边界条件,这只需要近似正比于区域表面积的采样点数。用R代表球体的半径,我们说电磁学理论将复杂度从O(R^3)约化到了O(R^2).
     也有人将这种观点推广到其他认知体系。Marcus Hutter的人类知识无损压缩奖可看做是基于同类观点设立的:最大限度压缩任意的人类知识(由维基百科的片段整合而成)的无损压缩/解压算法具有最强的理解力/对规律的洞察力/智能。
     统计推断领域的最小描述长度准则(MDL)是这一观点的数学基础之一。通俗而言,这一准则告诉我们:选择使得模型本身的描述长度(以Kolmogorov复杂度代表)和数据的(平均)描述长度(以香农熵代表)之和最小的模型。将这一准则从统计模型类比到一般科学假说就得到压缩主义。
     有趣的是,这一类比版本的准则暗示我们并不需要“符合观测结果”和“简洁”两个要求。“简洁”一个要求就够了,只是要在衡量简洁程度的时候将观测结果和理论本身的复杂度一并考虑。
     这一观点对可计算假说的依赖是十分严重的。由于自然科学常常允许过程参量连续取值,因此,有可能不同的离散化/粗粒化/数字化方案会导致同一假说具有不同的复杂度。只有在假设某种对计算的限制(例如丘奇-图灵论题)的前提下可以认为不同的复杂度度量是近似等价的或至少具备某种适当的优选方案。注意它并不要求作为限制的计算模型是通用图灵机。只要在这种计算模型下适当的复杂度可以被定义出来即可。
    有可能有人认为这一观点忽略了实验结果中的误差,实际的测量结果都有着误差和精度限制,从这一观点的角度来看,这无非是说有时我们可以用有损压缩而不是无损压缩,就像我们常用的某种音频格式一样。如果我们认为所用的离散化方案是最优的,要求适当的离散化方案这点自身已经将预言精度的考量包括进去了。
2014-11-22 01:23:41
   不太明白理论与实证数据的对应这事情怎么解释的?
2014-11-22 02:43:27
  
一直困惑自然系统自己的“计算”与图灵计算的差别,如一个什么三体、五体系统,尽管我们不太可能得到未来的一般确定状态,但确实存在未来的一个确定状态,不妨说这就是系统自身计算的结果,这两种数据形态的差别,或说相对于一种程序的另一种程序的冗余,能通过数据压缩的方式而消弥吗?

2014-11-22 04:08:40
   赞。还是要planeheart兄这种专业人士来讲才清楚。“选择使得模型本身的描述长度(以Kolmogorov复杂度代表)和数据的(平均)描述长度(以香农熵代表)之和最小的模型”这句话能详细说说么?挺感兴趣的;-)
2014-11-22 10:13:21
   To jake
假如实证数据和假说都可以被编码为某个二元串。那么使整体长度最小化自动就要求假说与实证数据间的相关性。
但是这观点有个奇怪的推论。那就是有时候一个总是出错的理论比一个对错参半的理论更好。考虑这个极端情况:一个做出的预测总是和完全正确的理论相反的理论和一个一律用某个伪随机函数来进行预测的理论。


这就是我说了为什么这观点强烈地依赖可计算假说的原因。
如果自然过程都能严格地被通用机所模拟,那么不同的数据表示方式只会为复杂度的衡量造成不超过一个固定常数的差别。如果数据量充分大,可压缩和不可压缩的区别就成为严格的。



Kolmogorov充分统计量的性质。
可参见Thomas Cover著《信息论基础》
2014-11-23 05:45:23
  
(望不介意我滥用AI领域的词汇)
从人类整体来看,人类探索真理属于无监督学习,本质上可以这么描述
http://tieba.baidu.com/p/3366507991
对于人类个体,探索真理属于上述帖子中的9L.
可能存在关联的理论
http://en.wikipedia.org/wiki/Free_energy_principle
2014-11-23 15:30:37
   To LaoDar
最小化自由能的学习算法本质上是应用最大熵统计方法(或其某种变体)
但是最大熵统计本来就可以被看做是最小描述长度准则的特例(选取所有模型本身的算法复杂度相同)
登录后才可以评论,马上登录