说明书大全网 - 海量说明书在线查询
手机版  |  网站地图

关于信息的作用你需要知道的一些小知识

自古以来,信息和消除不确定性是相联系的。在英语里,信息和情报是同一个词(information),而我们知道情报的作用就是排除不确定性。有些时候,在战争中1比特的信息能抵过千军万马。在第二次世界大战中,当纳粹德国兵临前苏联莫斯科城下时,斯大林在欧洲已经无兵可派,而他们在西伯利亚的中苏边界却有60万大军不敢使用,因为苏联人不知道德国的轴心国盟友日本当时的军事策略是北上进攻前苏联,还是南下和美国开战。如果是南下,那么苏联人就可以放心大胆地从亚洲撤回60万大军增援莫斯科会战。事实上日本人选择了南下,其直接行动是后来的偷袭珍珠港,但是苏联人并不知晓。斯大林不能猜,因为猜错了后果是很严重的。

这个“猜”既是指扔钢镚儿似的卜卦,也包括主观的臆断。最后,传奇间谍佐尔格向莫斯科发去了信息量仅1比特却价值无限的情报:“日本将南下”,于是前苏联就把西伯利亚所有的军队调往了欧洲战场,后来的故事大家都知道了。

如果把这个故事背后的信息论原理抽象化、普遍化,可以总结如下:一个事物(比如上面讲到的日本内阁的战略决定)内部会存有随机性,也就是不确定性,假设为U,而从外部消除这个不确定性唯一的办法是引入信息I,而需要引入的信息量取决于这个不确定性的大小,即I>U才行,当I<U时,这些信息可以消除一部分不确定性,也就是说新的不确定性。反之,如果没有信息,任何公式或者数字的游戏都无法排除不确定性。这个朴素的结论非常重要,但是在研究工作中经常被一些半瓶子醋的专家忽视,希望做这些方面工作的读者谨记,几乎所有的自然语言处理、信息与信号处理的应用都是一个消除不确定性的过程。

网页搜索本质上就是要从大量网页中,找到和用户输入的搜索词最相关的几个网页,几十亿种可能性,当然是很大的不确定性U。如果只剩下几个网页,就几乎没有了不确定性,甚至是完全确定了(对于导航类搜索就是如此,第一条结果通常就是要找的网页)。因此,网页搜索本质上也是利用信息消除不确定性的过程。如果提供的信息不够多,比如搜索词是常用的关键词,诸如“中国”、“经济”之类的,那么会有好多相关的结果,用户可能还是无从选择。这时正确的做法是挖掘新的隐含信息,比如网页本身的质量信息,如果这些信息还是不够消除不确定性,不妨再问问用户。这就是相关搜索的理论基础。

不正确的做法是在这个关键词上玩数字和公式的游戏,由于没有额外的信息引入,这种做法没有效果,这就是很多搜索质量的人非常辛苦却很少有收获的原因。最糟糕的做法是引入认为的假设,这和“蒙”没什么差别。其结果是似乎满足了个别用户的口味,但是对大部分用户来讲,搜索结果反而变得更糟。合理利用信息,而非玩弄什么公式和机器学习算法,是做好搜索的关键。