文章详情页

python - Scrapy中xpath用到中文报错

浏览：134日期：2022-06-27 08:01:12

问题描述

问题描述

links = sel.xpath(’//i[contains(@title,'置顶')]/following-sibling::a/@href’).extract()

报错：ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters

问题解答

回答1：

参见文章：解决Scrapy中xpath用到中文报错问题

解决方法

方法一：将整个xpath语句转成Unicode

links = sel.xpath(u’//i[contains(@title,'置顶')]/following-sibling::a/@href’).extract()

方法二：xpath语句用已转成Unicode的title变量

title = u'置顶'links = sel.xpath(’//i[contains(@title,'%s')]/following-sibling::a/@href’ %(title)).extract()

方法三：直接用xpath中变量语法($符号加变量名)$title, 传参title即可

links = sel.xpath(’//i[contains(@title,$title)]/following-sibling::a/@href’,).extract()回答2：

整个字符串前加个u试试

Python 编程

上一条：求大神解读一段神级的Python代码，谢谢！！下一条：python for循环中的函数只能运行一次？

相关文章：

1. angular.js - angular内容过长展开收起效果2. javascript - canvas 裁剪空白区域3. docker绑定了nginx端口外部访问不到4. docker网络端口映射，没有方便点的操作方法么？5. docker不显示端口映射呢？6. nignx - docker内nginx 80端口被占用7. javascript - nodejs调用qiniu的第三方资源抓取，返回401 bad token，为什么8. docker - 各位电脑上有多少个容器啊？容器一多，自己都搞混了，咋办呢？9. docker images显示的镜像过多，狗眼被亮瞎了，怎么办？10. debian - docker依赖的aufs-tools源码哪里可以找到啊？

排行榜

					
					nignx - docker内nginx 80端口被占用
docker网络端口映射，没有方便点的操作方法么？
angular.js - angular内容过长展开收起效果
docker绑定了nginx端口 外部访问不到
docker不显示端口映射呢？
javascript - canvas 裁剪空白区域
debian - docker依赖的aufs-tools源码哪里可以找到啊？
docker - 各位电脑上有多少个容器啊？容器一多，自己都搞混了，咋办呢？
docker api 开发的端口怎么获取？
docker images显示的镜像过多，狗眼被亮瞎了，怎么办？
dockerfile - 我用docker build的时候出现下边问题  麻烦帮我看一下
				

热门标签