网页正文提取
ArticleExtractor 智能提取任意网页正文内容
无需任何规则,输入目标内容面url地址(网站首页、列表页面除外),可轻松实现对任意新闻网页正文智能提取,并去除广告等与正文无关的内容。 提取准确率达95% 以上。 您只需要接入我们的接口,就无需再为编写文章内容采集规则代码片段而苦恼了!
网页正文提取测试:
正文提取接口使用说明:
1、接口采用GET方式获取数据,如需要使用本接口,请联系我们!
2、请求参数
参数名 | 类型 | 必填 | 描述 | 默认值 |
---|---|---|---|---|
url | string | 是 | 要抽取正文的网页地址 |
3、php请求示例
<?php $url = "http://sports.sohu.com/20161116/n473309013.shtml";//需要提取的内容页 #api接口地址 $apiurl = "http://"; $ch = curl_init(); $url = $apiurl.'/?type=json&url='.urlencode($url); $header = array( 'apikey: ', ); // 添加apikey到header curl_setopt($ch, CURLOPT_HTTPHEADER , $header); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // 执行HTTP请求 curl_setopt($ch , CURLOPT_URL , $url); $res = curl_exec($ch); $textArr=json_decode($res,true); var_dump($textArr); ?>
4、返回数据格式说明
json格式的数据 {"err":0,"title":"文章标题","keywords":"关键词","description":"摘要","content":"正文内容"} err的值的含义为,1:成功,0:失败。