博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[爬虫学习笔记]用于提取网页中所有链接的 Extractor 模块
阅读量:5148 次
发布时间:2019-06-13

本文共 1522 字,大约阅读时间需要 5 分钟。

        Extractor的工作是从下载的网页中将它包含的所有URL提取出来。这是个细致的工作,你需要考虑到所有可能的url的样式,比如网页中常常会包含相对路径的url,提取的时候需要将它转换成绝对路径。这里我们选择使用正则表达式来完成链接的提取。

       html标签中的链接地址通常会出现在href属性或者src属性中,所以我们采用两个正则表达式来匹配网页中的所有链接地址。

 

网页链接提取器Extractor类:

using System;using System.Collections.Generic;using System.Linq;using Crawler.Common;namespace Crawler.Processing{    ///     /// Extractor的工作是从下载的网页中将它包含的所有URL提取出来。这是个细致的工作,你需要考虑到所有可能的url的样式,比如网页中常常会包含相对路径的url,提取的时候需要将它转换成绝对路径。    ///     public class Extractor    {        public List
GetAllUrl(string html, string host) { var list = new List
(); //匹配href属性 var href = RegexHelper.ExtractStringArray(html, "href *= *['\"]*(\\S+)[\"']"); //去掉匹配到字符串的空格、双引号和前面的href=,得到链接 var temp = from h in href select h.Replace(" ", "").Replace("\"", "").Substring(5); //加入数组 list.AddRange(temp); //匹配src属性 var src = RegexHelper.ExtractStringArray(html, "src *= *['\"]*(\\S+)[\"']"); temp = from s in src select s.Replace(" ", "").Replace("\"", "").Substring(4); list.AddRange(temp); //去重 list = list.Distinct().ToList(); //将链接地址中的相对路径转换为绝对路径 var uriList = list.Select(s => s.IndexOf("http://", StringComparison.Ordinal) != 0 ? new Uri(new Uri(host), s) : new Uri(s)).ToList(); return uriList.ToList(); } }}

转载于:https://www.cnblogs.com/WayneShao/p/5904754.html

你可能感兴趣的文章
淡定,啊。数据唯一性
查看>>
深入理解 JavaScript 事件循环(一)— event loop
查看>>
Hive(7)-基本查询语句
查看>>
Redis快速入门
查看>>
注意java的对象引用
查看>>
C++ 面向对象 类成员函数this指针
查看>>
inline函数的总结
查看>>
Python字符编码
查看>>
leetcode 49. 字母异位词分组(Group Anagrams)
查看>>
NSPredicate的使用,超级强大
查看>>
自动分割mp3等音频视频文件的脚本
查看>>
财务结算的目的和一般流程
查看>>
判断字符串是否为空的注意事项
查看>>
布兰诗歌
查看>>
老李分享:5个衡量软件质量的标准
查看>>
Xcode部分插件无法使用识别的问题
查看>>
set学习记录
查看>>
用函数写注册功能
查看>>
JVM笔记4:Java内存分配策略
查看>>
IE8 window.open 不支持此接口 的问题解决
查看>>