python统计文章中单词出现次数实例
python统计单词出现次数
做单词词频统计,用字典无疑是最合适的数据类型,单词作为字典的key, 单词出现的次数作为字典的 value,很方便地就记录好了每个单词的频率,字典很像我们的电话本,每个名字关联一个电话号码。
下面是具体的实现代码,实现了从importthis.txt文件读取单词,并统计出现次数最多的5个单词。
# -*- coding:utf-8 -*-import ioimport re class Counter: def __init__(self, path): ''' :param path: 文件路径 ''' self.mapping = dict() with io.open(path, encoding='utf-8') as f: data = f.read() words = [s.lower() for s in re.findall('w+', data)] for word in words:self.mapping[word] = self.mapping.get(word, 0) + 1 def most_common(self, n): assert n > 0, 'n should be large than 0' return sorted(self.mapping.items(), key=lambda item: item[1], reverse=True)[:n] if __name__ == ’__main__’: most_common_5 = Counter('importthis.txt').most_common(5) for item in most_common_5: print(item)
执行效果:
(’is’, 10)(’better’, 8)(’than’, 8)(’the’, 6)(’to’, 5)
知识点补充:
1、如何正确读写文件
2、如何对数据进行排序
3、字典数据类型的运用
4、正则表达式的运用
到此这篇关于python统计文章中单词出现次数实例的文章就介绍到这了,更多相关python统计单词出现次数内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网!
相关文章:
1. ASP.NET MVC使用异步Action的方法2. 在Asp.net core项目中使用WebSocket3. 利用FastReport传递图片参数在报表上展示签名信息的实现方法4. 浅谈springboot一个service内组件的加载顺序5. SpringMVC+Jquery实现Ajax功能6. matplotlib如何设置坐标轴刻度的个数及标签的方法总结7. python3.8.1+selenium实现登录滑块验证功能8. 使用vue-cli创建项目并webpack打包的操作方法9. Python制作一个随机抽奖小工具的实现10. 使用python画出逻辑斯蒂映射(logistic map)中的分叉图案例