在xpath中text()和string(.)的区别-益强资讯全景

应用开发: 在xpath中text()和string(.)的区别
时间：2010-12-5 17:23:32 作者：数据库来源：域名查看：评论：0
内容摘要：我们在进行爬虫时候，经常会遇到如下这样的页面：你好,北京在日常抓取的时候，遇到更多的情况是抓取中的你好，这时使用xpath("//div/em/text()")就可以提取到。现在我们考虑下面两种抓取需
　　我们在进行爬虫时候，区别经常会遇到如下这样的区别页面：
　　你好,北京
　　在日常抓取的时候，遇到更多的区别情况是抓取中的你好，这时使用xpath("//div/em/text()")就可以提取到。区别
　　现在我们考虑下面两种抓取需求：
　　需求1：我们想要提取“,区别北京”的时候，这个时候该用text()，区别还是区别string(.)?
　　需求2：提取 “你好,北京”呢?
　　我们先使用lxml库对页面进行一下初始化(如果你用的是scrapy的xpath选择器，也可以按照以下步骤运行)：
　　from lxml import etree
　　with open(foo.html,区别 r) as f:
　　content = f.read().encode(utf8)
　　page = etree.HTML(content)
　　这里我们先看一下需求1的解法，也就是区别提取“,北京”：
　　re = page.xpath("//div/text()")
　　这里re得到的是一个数组：
　　这是因为在页面中标签
　　和之间是有换行符号的，因此使用"//div/text()"后会忽略掉你好，云南idc服务商区别而剩下"\n",区别“,北京\n”两个元素。
　　我们取re的区别第二个元素，然后去掉结尾的区别换行符"\n"(如果你使用的是scrapy的xpath，这里re得到的区别可能不是一个数组):
　　re = re[1].strip()
　　这个时候得到的re就是我们需要的",北京"了。
　　现在看一下第二个需求：提取"你好,区别北京":
　　这里就要求里面的文本也要提取出来了，这时候我们使用string:
　　re = page.xpath("//div")[0].xpath("string(.)")
　　这时来看下re的值(同样如果你使用的是scrapy的选择器，scrapy_selector.xpath("//div")返回的结果可能不是一个数组，不过你只要取到结果然后再使用.xpath("string(.)")即可。):
　　得到的源码库一整串文本" \n 你好,北京\n "。
　　看来使用"string(.)"后，xpath会把里的内容也直接提取出来，而不像上面中"text()"那样把都去掉后，再分割成一个数组。这里注意使用string()时候要把string(.)放在一个xpath中，而不是写成"//div/string(.)"这样，否则会抓取不到。
　　然后，同样的再去除一下两边多余的空格和换行符
　　re = re.strip()
　　这个时候re得到就是”你好,北京“啦。
　　总结：无锡人流医院 http://www.0510bhyy.com/
　　通过上述的实验，我们发现xpath里面text()只会取当层节点的文本并按照当层的tag进行分割，组成列表。而string(.)会把当层节点以及当层节点以下的所有文本都提取出来，放在一个字符串变量中。
　　实例代码：
　　test.py:
　　# coding=utf-8
　　from lxml import etree
　　import sys
　　reload(sys)
　　sys.setdefaultencoding(utf-8)
　　class Test(object):
　　def __init__(self):
　　with open(foo.html, r) as f:
　　content = f.read().encode(utf8)
　　self.page = etree.HTML(content)
　　print self.page
　　def xpath_text(self):
　　re = self.page.xpath("//div/text()")
　　print re
　　re = re[1].strip()
　　print re
　　return re
　　def xpath_string(self):
　　re = self.page.xpath("//div")[0].xpath("string(.)")
　　print re
　　# 替换换行符等
　　re = re.strip(re)
　　print re
　　return re
　　if __name__ == "__main__":
　　t = Test()
　　assert t.xpath_text() == u",北京"
　　assert t.xpath_string() == u"你好,北京"
　　foo.html:
　　你好,北京
2022年第十七届中国企业年终评选榜单揭晓：联想ST650 V2服务器荣获2022年度中国IT行业人工智能优秀产品奖
 成功管理和保护数据的三种方法

最近更新

2025-10-02 19:27:33
数据中心运营商转向AI以提高ROI和收入
2025-10-02 19:27:33
新华三亮相2022全球工业互联网大会展现“新硬件”创新实力
2025-10-02 19:27:33
戴尔科技推出业界首款“远边缘”服务器XR4000，充分展现其在边缘服务器领域的远见卓识
2025-10-02 19:27:33
2023年值得关注的十家数据中心企业
2025-10-02 19:27:33
光伏、中水、余热……2022北京13个数据中心能评展现五大趋势
2025-10-02 19:27:33
质行万里，同舟奋楫 | 新华三 “服务合作伙伴运营能力跃升计划”启动
2025-10-02 19:27:33
何以位居中国aPaaS市场发展能力第一？详解企业级PaaS平台浪潮iGIX
2025-10-02 19:27:33
华为云张修征：聚焦八大能力，携手车企与伙伴共创智驾未来

热门排行

2025-10-02 19:27:33
从OM1到OM5，一文搞懂多模光纤的类型
2025-10-02 19:27:33
智简DC，绿建未来！华为发布下一代数据中心
2025-10-02 19:27:33
戴尔科技助力企业巩固网络安全，增强网络弹性
2025-10-02 19:27:33
数据中心为何还对应用蓄冷有疑虑？
2025-10-02 19:27:33
CDN 与数据中心：哪个最能提高网络性能？
2025-10-02 19:27:33
5G如何影响数据中心以及如何做好准备
2025-10-02 19:27:33
分层级、筑底座、立标杆！新华三用数字化转型实践驱动行业变革
2025-10-02 19:27:33
数据中心基础设施的透明度及创新

友情链接