样悬殊。
最高频的几个符号,其出现次数相差无几,形成了一个相对平缓的“高原”,而非陡峭的“高峰”。
这意味着什么?
可能性一: 这并非简单的单字母替换密码。设计者可能采用了更复杂的方法,比如多表替换(不同的符号在不同的位置可能代表不同的含义),或者同音替换(用多个不同的符号代表同一个常用字或音节,以拉平频率分布)。
可能性二: 这套密文可能并非直接对应汉字,而是对应着某种音节、词根,或者干脆就是一套完全独立的人造语言符号。
可能性三: 样本量太小。几枚令牌上的符号数量,可能不足以完全展现其真实的频率分布规律。
无论哪种可能,都意味着破解难度大大增加。
我没有灰心,转而尝试第二种方法:
分组与序列分析。
单字母替换行不通,那么,有没有可能是以词组或者固定短语为单位进行加密的呢?
我开始尝试将令牌上的符号序列,按照不同的长度进行分组:两个符号一组、三个符号一组、四个符号一组……然后,我再统计这些“符号组”出现的频率。
如果存在某个高频出现的符号组,那它可能对应着某个常用的词语或短语(比如“将军”、“奉孝”、“速回”之类)。
这项工作比单字母统计更加繁重。我需要在沙盘上不断地排列、组合、标记、比对。沙盘很快被各种符号和线条占满。
我还尝试分析符号之间的相邻关系。哪些符号经常一起出现?哪些符号几乎从不相邻?这或许能揭示其内部的语法结构或组合规则。
比如,如果符号a后面总是跟着符号b,那么ab可能是一个固定的词根或语法结构。
我甚至动用了一些更基础的概率学思想(虽然这个时代的数学体系还没有明确的概率论):如果一个符号序列完全是随机排列的,那么理论上各种组合出现的可能性应该大致相等。
而现在,我需要寻找的是那些“非随机”的、具有统计学意义的模式。
时间在专注的计算和推演中悄然流逝。油灯的灯油已经耗去小半。
我的额头渗出了细密的汗珠,眼