文章详情页

django - python实现两篇文章相似度分析

浏览：96日期：2022-08-08 10:30:47

问题描述

如题，最近有需求要做文章相似度分析，需求很简单，具体就是对比两篇分别300字左右的文章的相似度情况，目前查到的方法，需要先中文分词（jieba），然后对比相似度，时间紧任务重，不知道有没有做过类似功能的大神可以指点一二的

问题解答

回答1：

第一步你已经给出了，首先对文章进行中文分词，然后计算每个词在两篇文章中的tf-idf值。然后计算两个文章的余弦相似度，可以用Python中的gensim实现。

有疑问请继续提问。

回答2：

补一下一楼的答案在食用余弦相似性或TF-IDF，应该首先去掉停止词。

停止词，是由英文单词:stopword翻译过来的，原来在英语里面会遇到很多a，the，or等使用频率很多的字或词，常为冠词、介词、副词或连词等。因为副词，连词这类词语并不会十分影响我们对语义的判断。

但是单纯的余弦相似性和TF-IDF某种情况下并不能十分的可靠。推一波自己的链接2333这里

建议使用textrank和以上算法进行结合

Python 编程

上一条：python - 为什么感觉 pyspider 爬取的速度好慢下一条：python - 标签树的下行遍历如何跳过第一个标签

相关文章：

1. 一个走错路的23岁傻小子的提问2. python - 如何使用pykafka consumer进行数据处理并保存？3. javascript - SuperSlide.js火狐不兼容怎么回事呢4. java - 创建maven项目失败了求解决方法5. node.js - 函数getByName()中如何使得co执行完后才return6. java-se - 正在学习Java SE，为什么感觉学习Java就是在学习一些API。7. 运行python程序时出现“应用程序发生异常”的内存错误？8. python - django 里自定义的 login 方法，如何使用 login_required()9. java - 安卓电视盒子取得了root权限但是不能安装第三方应用，请问该怎么办？10. 一个mysql联表查询的问题

排行榜

					
					python - 如何使用pykafka consumer进行数据处理并保存？
node.js - 函数getByName()中如何使得co执行完后才return
javascript - SuperSlide.js火狐不兼容怎么回事呢
一个走错路的23岁傻小子的提问
java - 创建maven项目失败了  求解决方法
android - 离线地图的这种列表该怎么实现？
主从备份 - 跪求mysql 高可用主从方案
angular.js - 不适用其他构建工具，怎么搭建angular1项目
python - django 里自定义的  login 方法，如何使用 login_required()
一个mysql联表查询的问题
运行python程序时出现“应用程序发生异常”的内存错误？
				

热门标签