快速抓取某个网站内容方法

是不是有人相抓取网页上面的内容,放到别的网站上面。下面我给大家介绍一种最常用的方法:

用HtmlAgilityPack 组件。

 public String GetHtml()
        {
            string url = "http://t.news.fx168.com/";
            HttpWebRequest request = HttpWebRequest.Create(url) as HttpWebRequest;
            using (HttpWebResponse response = request.GetResponse() as HttpWebResponse)
            {
                using (Stream stream = response.GetResponseStream())
                {
                    HtmlDocument doc = new HtmlDocument();
                    doc.Load(stream, System.Text.Encoding.UTF8);

                    HtmlNode node = doc.DocumentNode.SelectSingleNode("//div[@class=‘hzh_FX168_news_main_left_listbg3‘]");
                    return node.InnerHtml;
                }
            }
        }

大家可以运行下试试,抓取了火线速递的内容页面新闻列表。抓取规则是抓取DIV的CLASS为hzh_FX168_news_main_left_listbg3内的内容。

快速抓取某个网站内容方法,布布扣,bubuko.com

时间: 05-01

快速抓取某个网站内容方法的相关文章

freecms使用jsoup和quartz抓取其他网站内容

这里提到了freecms,其实抓取和freecms没什么关系,主要还是靠jsoup jsoup里提供了html解析和读取的方法,集成了httprequest,可以从网络和本地读取,支持非闭合标签等. csdn中有比较详细的介绍 http://blog.csdn.net/column/details/jsoup.html 一般抓取页面的内容,都是后台进行的,多数是周期抓取,那么肯定要有调度的方法,包括 Timer,Scheduler, Quartz 以及 JCron Tab等等.这篇文件介绍和对比

asp.net如何抓取其他网站的内容

1. 需要引用的类库 using System.Net; using System.IO; using System.Text; using System.Text.RegularExpressions; 2. 获取其他网站网页内容的关键代码 WebRequest request = WebRequest.Create("http://目标网址.com/"); WebResponse response = request.GetResponse(); StreamReader read

如何打造符合搜索引擎抓取的网站?

正如我上篇文章<如何提升企业网络的曝光率>,曾说过一个解决企业网络曝光率的方法:拥有一个适合搜索引擎的网站,那么,如何打造符合搜索引擎抓取的网站?我个人的理解应该从以下四个方面去考虑: 1.从网站的栏目而论,首页内容如何,是一个对于搜索引擎抓取十分重要的步骤.部分企业的网站为了追求美观.大气采用全Flash的首页.搜索引擎的技术无论如何的先进,毕竟也是由机器去实施.因此,它的抓取根本无法识别Flash,而我推荐大家使用博客中的轮展样式,通过轮展图可以使网站达到高端大气上档次的效果同时也具备利于

C#抓取网页HTML内容

网上很多内容采集工具,今天就自己试着写一个,发现C#可以轻松的抓去网页的内容,进而通过正则来分离出自己感兴趣的数据.下面是抓去网页内容的代码: using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Net; using System.Text; using System.IO; using System.Text.RegularExpressions; n

Wireshark学习笔记——如何快速抓取HTTP数据包

0.前言 在火狐浏览器和谷歌浏览器中可以非常方便的调试network(抓取HTTP数据包),但是在360系列浏览器(兼容模式或IE标准模式)中抓取HTTP数据包就不那么那么方便了.虽然也可使用HttpAnalyzer等工,但是毕竟都是收费软件.只需通过合适的过滤和操作,Wireshark也可抓取HTTP请求和响应.下面便说明具体操作. 假设在8080端口运行一个HTTP服务器,本例中使用Python Flask运行一个HTTP服务并侦听8080端口,实现一个简单的加法运算,网页中通过ajax提交

ASP.NET抓取网页内容的实现方法

这篇文章主要介绍了ASP.NET抓取网页内容的实现方法,涉及使用HttpWebRequest及WebResponse抓取网页内容的技巧,需要的朋友可以参考下 一.ASP.NET 使用HttpWebRequest抓取网页内容 /// <summary>方法一:比较推荐 /// 用HttpWebRequest取得网页源码 /// 对于带BOM的网页很有效,不管是什么编码都能正确识别 /// </summary> /// <param name="url">

nutch2.1抓取中文网站

对nutch添加中文网站抓取功能. 1.中文网页抓取 A.调整mysql配置,避免存入mysql的中文出现乱码.修改 ${APACHE_NUTCH_HOME} /runtime/local/conf/gora.properties ############################### # MySQL properties            # ############################### gora.sqlstore.jdbc.driver=com.mysql.jd

nutch2.3爬虫抓取电影网站

上一篇文章介绍了nutch的安装 该文会简单的抓取网站 http://www.6vhao.com 1,打开目录nutch-2.3/runtime/local 2,mkdir urls nano urls/url:添加链接 http://www.6vhao.com保存退出 3,在local目录下使用命令 ./bin/nutch 会出现所有可以使用的命令  inject         inject new urls into the database  hostinject     creates

python3.5中urllib模块抓取指定URL内容

python3.5中把python中的urllib和urllib2模块合并为urllib模块啦.urllib模块下有五个类: 抓取指定URL下内容封装成一个类文件对象,其中的很多方法操作和文件操作是一样的.