高效学英语 – 统计英文书词频

Posted on 2023年9月21日2023年9月21日 by hackdl

方法

将英文书籍转化成文本文件book0.txt，然后执行下面的命令即可：

cat book0.txt |tr -cs "[a-z][A-Z][0-9]" "[12*]" | tr A-Z a-z |sort | uniq -c | sort

有了词频，就能有针对性地将书中高频词汇先系统学习一遍，提高阅读效率啦。

未解决问题：

1、时态，复数问题：word 和 words 属于同一个单词，应该聚集起来
2、~~常见词问题：有些常见词，the, a 等等，没必要出现在结果列表中。这些常见词汇大约有几千个，可以根据水平加入过滤器~~。
2已解决： https://github.com/raywill/wf/

参考内容：

高频词汇：https://www.logicofenglish.com/spelling-lists/high-frequency-words ， http://www.wordfrequency.info/free.asp

服务器托管，北京服务器托管，服务器租用 http://www.fwqtg.net
机房租用，北京机房租用，IDC机房托管， http://www.fwqtg.net

相关推荐: OCR — 文本识别 — 理论篇

文本识别的应用场景很多，有文档识别、路标识别、车牌识别、工业编号识别等等，根据实际场景可以把文本识别任务分为两个大类：规则文本识别和不规则文本识别。规则文本识别：主要指印刷字体、扫描文本等，认为文本大致处在水平线位置不规则文本识别：往往出现在自然场景中，…

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用

服务器托管

咨询：董先生

电话13051898268 QQ/微信93663045！

上一篇: 4年测试经验面试要20K，简单问了一下，连基础都不会，我也是醉了····
下一篇: 闲来无事-控制树莓派风扇启停