方法
将英文书籍转化成文本文件book0.txt,然后执行下面的命令即可:
cat book0.txt |tr -cs "[a-z][A-Z][0-9]" "[12*]" | tr A-Z a-z |sort | uniq -c | sort
有了词频,就能有针对性地将书中高频词汇先系统学习一遍,提高阅读效率啦。
未解决问题:
1、时态,复数问题:word 和 words 属于同一个单词,应该聚集起来
2、常见词问题:有些常见词,the, a 等等,没必要出现在结果列表中。这些常见词汇大约有几千个,可以根据水平加入过滤器。
2已解决: https://github.com/raywill/wf/
参考内容:
高频词汇:https://www.logicofenglish.com/spelling-lists/high-frequency-words , http://www.wordfrequency.info/free.asp
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net
文本识别的应用场景很多,有文档识别、路标识别、车牌识别、工业编号识别等等,根据实际场景可以把文本识别任务分为两个大类:规则文本识别和不规则文本识别。 规则文本识别:主要指印刷字体、扫描文本等,认为文本大致处在水平线位置 不规则文本识别: 往往出现在自然场景中,…