网站建设资讯

NEWS

网站建设资讯

如何在curl中使用get_html函数-创新互联

本篇文章给大家分享的是有关如何在curl中使用get_html函数,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

创新互联专注为客户提供全方位的互联网综合服务,包含不限于网站设计制作、网站设计、阳东网络推广、小程序开发、阳东网络营销、阳东企业策划、阳东品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们大的嘉奖;创新互联为所有大学生创业者提供阳东建站搭建服务,24小时服务热线:13518219792,官方网址:www.cdcxhl.com

大致大纲:


1.curl数据采集系列之单页面采集函数get_html

2.curl数据采集系列之多页面并行采集函数get_htmls

3.curl数据采集系列之正则处理函数get _matches

4.curl数据采集系列之代码分离

5.curl数据采集系列之并行逻辑控制函数web_spider


单页面采集在数据采集过程中是最常用的一个功能 有时在服务器访问限制的情况下 只能使用这种采集方式 慢 但是可以简单的控制 所以写好一个常用的curl函数调用是很重要的

百度和网易比较熟悉 所以拿这两个网站首页采集来做例子讲解


最简单的写法:


复制代码 代码如下:


$url = 'http://www.baidu.com';
 $ch = curl_init($url);
 curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
 curl_setopt($ch,CURLOPT_TIMEOUT,5);
 $html = curl_exec($ch);
 if($html !== false){
     echo $html;
 }



由于使用频繁 可以利用curl_setopt_array写成函数的形式:


复制代码 代码如下:


function get_html($url,$options = array()){
     $options[CURLOPT_RETURNTRANSFER] = true;
     $options[CURLOPT_TIMEOUT] = 5;
     $ch = curl_init($url);
     curl_setopt_array($ch,$options);
     $html = curl_exec($ch);
     curl_close($ch);
     if($html === false){
         return false;
     }
     return $html;
 }


复制代码 代码如下:


$url = 'http://www.baidu.com';
echo get_html($url);



有时候需要传递一些特定的参数才能得到正确的页面 如现在要得到网易的页面:


复制代码 代码如下:


$url = 'http://www.163.com';
echo get_html($url);



会看到一片空白 什么也没有 那么再利用curl_getinfo写一个函数 看看发生了什么:


复制代码 代码如下:


function get_info($url,$options = array()){
     $options[CURLOPT_RETURNTRANSFER] = true;
     $options[CURLOPT_TIMEOUT] = 5;
     $ch = curl_init($url);
     curl_setopt_array($ch,$options);
     $html = curl_exec($ch);
     $info = curl_getinfo($ch);
     curl_close($ch);
     return $info;
 }
 $url = 'http://www.163.com';
 var_dump(get_info($url));


如何在curl中使用get_html函数

可以看到http_code 302 重定向了 这时候就需要传递一些参数了:


复制代码 代码如下:


$url = 'http://www.163.com';
$options[CURLOPT_FOLLOWLOCATION] = true;
echo get_html($url,$options);


如何在curl中使用get_html函数

会发现 怎么是这样的一个页面 和我们电脑访问的不同???

看来参数还是不够 不够服务器判断我们的客户端是什么设备上的 就返回了个普通版

看来还要传送USERAGENT


复制代码 代码如下:


$url = 'http://www.163.com';
 $options[CURLOPT_FOLLOWLOCATION] = true;
 $options[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0';
 echo get_html($url,$options);


如何在curl中使用get_html函数

OK现在页面已经出来了 这样基本这个get_html函数基本能实现这样扩展的功能

当然也有另外的办法可以实现,当你明确的知道网易的网页的时候就可以简单采集了:


复制代码 代码如下:


 $url = 'http://www.163.com/index.html';
 echo get_html($url);



这样也可以正常的采集

以上就是如何在curl中使用get_html函数,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注创新互联行业资讯频道。


当前名称:如何在curl中使用get_html函数-创新互联
文章转载:http://cdweb.net/article/deipps.html