宋词-词频
最近老收到那个“消灭”文科生的词频页面。好吧,我也来跟风娱乐一下 =,=
对着原贴那样的题目,做为理科生,拿着随机数对着看啥的,哪好意思啊。搞几行代码才好装13。
随机取词时,以词频做为概率,运行一次的结果如下:
时节
天涯 一点
归来 一笑 春风
何处 回首 如今 无限
十分 春风 故人 万里 尊前
富贵 风雨 当时 时候 西湖 肠断
神仙 十分 何处 故人 为谁 不知 何时
平生 江南 鸳鸯 风流 消息 春色 月明 相思
芙蓉 年年 回首 江上 黄昏 何处 今日 海棠 风月
万里 风雨 春风 天气 回首 凄凉 当年 东风 谁知 一笑
青山 十年 时节 桃李 时候 回首 长安 一点 平生 不知 一枝
黄昏 归来 寂寞 时节 平生 肠断 人间 桃花 如今 月明 春色 为谁
长安 风月 桃花 风流 东君 阑干 一声 归来 深处 憔悴 平生 无情 江南
寂寞 无限 鸳鸯 江南 长安 当时 消息 梅花 心事 何处 不似 春风 断肠 流水
何处 十分 东君 扁舟 一枝 年年 阑干 芙蓉 时节 几度 桃花 寂寞 当年 江南 无限
另外,我想到了以前解过的Project Euler的第18题,如果随机产生的这些三角形的数字,寻找和最大(或其它特征的最优)路径,这个路径的词拼起来,成为一个句子,估计比单纯的随机数拼句子,要有趣得多。
如果要把这个词频用图片可视化展示的话,可以用现在很流行的,用于分析微博关键词的worldcloud。试着用R画了一下:
最后分析了一下词频的分布情况:
竟然满足幂律分布。也就是说,其实大家并不爱用高频词。