快捷导航
        任务名:新豆瓣电影数据分析第2级
        问题1:影片类型在同一层级下的不同span里,内容映射只能显示一个,定位映射一做就出错
        问题2:因为某些电影详情页缺少信息如演员或是编剧,导致最终输出的数据文件有信息错位的情况,如图三,这种是要做定位映射还是使用xpath?
        求问,这里该怎么改

        1.png (507.37 KB, 下载次数: 1)

        图1

        图1

        2.png (372.38 KB, 下载次数: 1)

        图2

        图2

        3.png (268.52 KB, 下载次数: 1)

        图3

        图3
        举报 使用道具
        | 回复

        共 1 个关于本帖的回复 最后回复于 2020-3-31 18:46

        沙发
        ym 版主 发表于 2020-3-31 18:46:09 | 只看该作者
        问题1,这种不是结构化的网页节点,只能使用定义xpath,通过定位“类型”标签和下一个**标签,截取两者之间的节点内容,就是“类型”的值了,具体如下图
        w66利来资源站内容表达式xpath:
        1. substring-before(substring-after(//*[@id='info'],//*[@class='pl' and contains(.,'类型')]),//*[@class='pl' and contains(.,'类型')]/following-sibling::span[@class])
        复制代码



        问题2,这种定位失败的,跟问题1是一样的情况,也是要通过xpath来利来最老|访问的,但是像演员这种信息,是有唯一属性节点的,这种做定位标志映射就可以准确利来最老|访问了


        举报 使用道具
        您需要登录后才可以回帖 登录 | 立即注册

        精彩推荐

        • 如何使用集搜客分词平台做社会网络图分析?
        • 关于食品安全的美国联邦法规文件的网络爬虫
        • 怎样更有效率地搜索互联网和整理知识—使用
        • 阿里巴巴外包询价网站用集搜客网络爬虫能采
        • 在限定论域的时候,为什么“任何一个”表示

        热门用户

        GMT+8, 2020-5-25 13:04