汇享在线工具箱

网页正文提取

ArticleExtractor 智能提取任意网页正文内容

无需任何规则,输入目标内容面url地址(网站首页、列表页面除外),可轻松实现对任意新闻网页正文智能提取,并去除广告等与正文无关的内容。 提取准确率达95% 以上。 您只需要接入我们的接口,就无需再为编写文章内容采集规则代码片段而苦恼了!

 

网页正文提取测试:


演示地址1
演示地址2


正文提取接口使用说明:

1、接口采用GET方式获取数据,如需要使用本接口,请联系我们!

2、请求参数

参数名 类型 必填 描述 默认值
url string 要抽取正文的网页地址  

3、php请求示例

  <?php
      $url = "http://sports.sohu.com/20161116/n473309013.shtml";//需要提取的内容页
      #api接口地址
      $apiurl = "http://";
       
      $ch = curl_init();
      $url = $apiurl.'/?type=json&url='.urlencode($url);
      $header = array(
        'apikey: ',
      );
      // 添加apikey到header
      curl_setopt($ch, CURLOPT_HTTPHEADER  , $header);
      curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
      // 执行HTTP请求
      curl_setopt($ch , CURLOPT_URL , $url);
      $res = curl_exec($ch);
      $textArr=json_decode($res,true);
      var_dump($textArr);
  ?>

4、返回数据格式说明

json格式的数据 {"err":0,"title":"文章标题","keywords":"关键词","description":"摘要","content":"正文内容"} err的值的含义为,1:成功,0:失败。

淘宝充值
回到顶部