原称之为最强大最傻瓜式的查找方式,一招毙命,实在想不到为什么还有其他的方式存在(误
在 chrome 中定位到想要的对象,右键 copy->copy full XPath 作为参数即可
这里注意 copy 中有两个选择,一个是 copy XPath 一个是 copy full XPath
由于有一些网页上可能会存在除了功能什么都一样的元素,如:一个搜索框搜索 Project,一个搜索框搜索 Owner
这时候使用单纯的 copy XPath 可能两者是一样的,都是 xxx_search ,这就导致会去定位第一个找到的搜索框
所以 copy full XPth 是最保险的选择,直接返回从 html 开始的 XPath
e.g. copy XPath->//*[@id="rightmenu"]/ul[2]/li[2] copy full XPath->/html/body/div[3]/ul[2]/li[2]
那么为什么还需要其他方式呢?自己想了两点: 1. 查找一类元素,如爬贴吧的每个分类里面的帖子,肯定就不能每次定位一个确切的 XPath 了,而是要根据 class 或者 tag 找到一个 list 然后逐个爬取。 2. 效率慢,XPath 是直接逐级往下进行查找,每次查找(估计)都要将里面的所有tag整理出来,导致进度缓慢。