网站建设资讯

NEWS

网站建设资讯

php数据采集方法 php采集器

php 怎么POST获取数据?

方法1、最常见的方法是:$_POST['fieldname'];

创新互联-专业网站定制、快速模板网站建设、高性价比射洪网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式射洪网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖射洪地区。费用合理售后完善,十多年实体公司更值得信赖。

说明:只能接收Content-Type:

application/x-www-form-urlencoded提交的数据

解释:也就是表单POST过来的数据

方法2、file_get_contents("php://input");

说明:

允许读取

POST

原始数据

$HTTP_RAW_POST_DATA

比起来,它给内存带来的压力较小,并且不需要任何特殊的

php.ini

设置。

php://input

不能用于

enctype="multipart/form-data"。

解释:

对于未指定

Content-Type

的POST数据,则可以使用file_get_contents(“php://input”);来获取原始数据。

事实上,用PHP接收POST的任何数据都可以使用本方法。而不用考虑Content-Type,包括

二进制文件

流也可以。

所以用方法二是最保险的方法

方法3、$GLOBALS['HTTP_RAW_POST_DATA'];

说明:

总是产生

$HTTP_RAW_POST_DATA

变量包含有原始的

POST

数据。

此变量仅在碰到未识别

MIME

类型的数据时产生。

$HTTP_RAW_POST_DATA

对于

enctype="multipart/form-data"

表单数据不可用

如果post过来的数据不是PHP能够识别的,可以用

$GLOBALS['HTTP_RAW_POST_DATA']来接收,

比如

text/xml

或者

soap

等等

解释:

$GLOBALS['HTTP_RAW_POST_DATA']存放的是POST过来的原始数据。

$_POST或

$_REQUEST

存放的是

PHP以key=value的形式格式化以后的数据。

但$GLOBALS['HTTP_RAW_POST_DATA']中是否保存POST过来的数据取决于centent-Type的设置,即POST数据时

必须显式示指明Content-Type:

application/x-www-form-urlencoded,POST的数据才会存放到

$GLOBALS['HTTP_RAW_POST_DATA']中

php如何采集js生成的内容

访问需要采集的页面,如果数据是用js输出的html,那么必定有接口或者本身页面中给js提供了数据,来遍历输出html。

用chrome的审查元素中的network,可以单独看xhr,看看是否是ajax请求的接口,如果数据是从接口来的,直接用PHP去获取那个接口的数据就可以了。

如果没有ajax请求,查看html源代码,在里面找数据。

php 百度 知道数据采集

问题其实不难,自己都能写。给你几个思路吧:

1.在百度知道中,输入linux,然后会出现列表。复制浏览器地址栏内容。

然后翻页,在复制地址栏内容,看看有什么不同,不同之处,就是你要循环分页的i值。

当然这个是笨方法。

2.使用php的file或者file_get_contents函数,获取链接URL的内容。

3.通过php正则表达式,获取你需要的3个字段内容。

4.写入数据库。

需要注意的是,百度知道有可能做了防抓取的功能,你刚一抓几个页面,可能会被禁止。

建议也就抓10页数据。

其实不难,你肯定写的出来。 还有,网上应该有很多抓取工具,你找找看,然后将抓下来的数据

在做分析。写入数据库。

php curl 大量数据采集

这个需要配合js,打开一个html页面,首先js用ajax请求页面,返回第一个页面信息确定处理完毕(ajax有强制同步功能),ajax再访问第二个页面。(或者根据服务器状况,你可以同时提交几个URL,跑几个相同的页面)

参数可以由js产生并传递url,php后台页面根据URL抓页面。然后ajax通过php,在数据库或者是哪里设一个标量,标明检测到哪里。由于前台的html页面执行多少时候都没问题,这样php的内存限制和执行时间限制就解决了。

因为不会浪费大量的资源用一个页面来跑一个瞬间500次的for循环了。(你的500次for循环死了原因可能是获取的数据太多,大过了php限制的内存)

不过印象中curl好像也有强制同步的选项,就是等待一个抓取后再执行下一步。但是这个500次都是用一个页面线程处理,也就是说肯定会远远大于30秒的默认执行时间。

怎么用php采集网站数据

简单的分了几个步骤:

1、确定采集目标

2、获取目标远程页面内容(curl、file_get_contents)

3、分析页面html源码,正则匹配你需要的内容(preg_match、preg_match_all),这一步最为重要,不同页面正则匹配规则不一样

4、入库

47-网页获取数据的方法(get-post)

通过网页表单获取的数据,在php文件中呈现,利用php方法中的$_GET方法接受,提交的数据为一个字典。

1、通过输入网址请求服务器中的html文件,服务器接受请求文件,进行处理

2、服务器接收后,处理成响应报文进行返回到用户浏览器界面

3、第二次在html的表单中提交的数据会形成请求报文到服务器中,php文件接受数据并进行处理

4、服务器中php文件接收后会处理并返回响应文件呈现到用户浏览器界面

将form表单中的method的取值改成post就是以post的方式将文件放给服务器。

1、相同点

2、不同点


名称栏目:php数据采集方法 php采集器
文章URL:http://cdweb.net/article/doseooe.html