[转载]php读取文档所有连接(不用正则表达式)

更新:2018年07月07日 15:36 PHP 阅读(0)
标签: @PHP @链接 #作者: 未知
不要使用正则表达式解析的HTML。也许最大的错误时,人们作出尝试从一个网页的网址或链接文字中试图做到这一点使用正则表达式。
这项工作可以做正则表达式,但是,有一个拥有整个文件妊娠多次循环的高开销。正确的方法和速度更快,无限冷却器方法是使用DOM。
通过使用getLinks职能的DOM,可以简单地创建一个包含所有环节上的键网页,并链接作为值名称。此数组然后可以在循环数组一样创建一个列表,在任何需要的方式操纵或。
请注意,抑制错误时使用加载HTML。这是为了抑制有关无效的HTML在DOCTYPE没有定义实体的警告。当然,在生产环境中,错误报告将被禁用错误报告设置为无。
不要使用正则表达式解析的HTML。也许最大的错误时,人们作出尝试从一个网页的网址或链接文字中试图做到这一点使用正则表达式。
这项工作可以做正则表达式,但是,有一个拥有整个文件妊娠多次循环的高开销。正确的方法和速度更快,无限冷却器方法是使用DOM。
通过使用getLinks职能的DOM,可以简单地创建一个包含所有环节上的键网页,并链接作为值名称。此数组然后可以在循环数组一样创建一个列表,在任何需要的方式操纵或。
请注意,抑制错误时使用加载HTML。这是为了抑制有关无效的HTML在DOCTYPE没有定义实体的警告。当然,在生产环境中,错误报告将被禁用错误报告设置为无。
<?php
    function getLinks($link)
    {
        /*** return array ***/
        $ret = array();

        /*** a new dom object ***/
        $dom = new domDocument;

        /*** get the HTML (suppress errors) ***/
        @$dom->loadHTML(file_get_contents($link));

        /*** remove silly white space ***/
        $dom->preserveWhiteSpace = false;

        /*** get the links from the HTML ***/
        $links = $dom->getElementsByTagName('a');
    
        /*** loop over the links ***/
        foreach ($links as $tag)
        {
            $ret[$tag->getAttribute('href')] = $tag->childNodes->item(0)->nodeValue;
        }

        return $ret;
    }
?>

类似的方法可以是使用XPath将达到同样的结果。无论哪种方式,使用DOM将会证明远远超过一般运算效率。

<?php
    /*** a link to search ***/
    $link = "";

    /*** get the links ***/
    $urls = getLinks($link);

    /*** check for results ***/
    if(sizeof($urls) > 0)
    {
        foreach($urls as $key=>$value)
        {
            echo $key . ' - '. $value . '<br >';
        }
    }
    else
    {
        echo "No links found at $link";
    }
?>

 


感谢阅读本文,若本文对你有所帮助,不妨将其推荐给好友,与好友一起分享。
文章仅做学习交流使用,若您认为文章存在侵权或不合法行为等,请及时联系我们。
文章之版权归其合法拥者所有。转载原创内容无需联系本站站长,请注明原文出处及链接。
#原文:[IT技术网] http://www.173it.cn/view-4763-1.html
更新:2018年07月07日 15:36 PHP 阅读(0)
标签: @PHP @链接 #作者: 未知

阅读延伸

CentOS7系统安装Redis5.0.5并安装PHP-redis扩展 | 暮云归

VM虚拟机,CentOS7系统,已安装完整的LAMP。PHP版本为7.3.25(PHP7+)。
现在的目的是为该系统安装Redis服务(Redis5.0.5),该版本在当下是比较新的稳定版。
还有就是为我们的PHP安装redis扩展(可通过phpinfo()函数看到redis扩展的具体信息)

[原创]Centos7系统为php7安装memcache扩展 | 十年铸剑

这篇文章主要记录本人安装的历程,若有需要,希望能对大家起到一点作用,哈哈。
这是在虚拟机中安装memcache扩展,虚拟机安装的系统是CentOS7,已正常安装了PHP7.3.25.

[转载]Mysql 工作原理 | Still water run deep

刚开始接触一个新的事物的时候,我觉得很有必要从其工作原理入手。
弄清楚这个东西的来龙去脉,为接下来的继续深入学习做好铺垫。
掌握好其原理有助于我们从整体上来把握这个东西,并且帮助我们在排错过程中理清思路。

[原创]ThinkPHP3.1快速入门 多语言 | 十年铸剑

ThinkPHP支持多语言,采用的是语言文件的方式。
如果你的应用涉及到多个语言版本和国际化的支持,那么可以定义相关的语言包文件。任何字符串形式的输出,都可以定义语言常量。

[原创]PHPCMS 调用自定义幻灯片广告 | 十年铸剑

phpcms的广告位管理功能非常强大,一般情况下调用广告位只需要引进一个js文件就可以了,但若要实现点击切换的广告位(幻灯片广告,或者叫做轮播广告)就有些困难(主要是默认没有切换的滑动点,或滑动点的样式不能自定义),于是就不能直接应用phpcms给出的引用js文件的方式来实现了。
标签: @PHPCMS @幻灯片 PHP 十年铸剑 05月02日 17:54 继续阅读

[转载]php对文件的操作

创立文件夹
循环建立文件夹
检测文件类型
上传文件
标签: @PHP @文件 @文件夹 PHP 未知 05月02日 17:54 继续阅读

[转载]php通过正则表达式匹配url

php通过正则表达式匹配url
标签: @PHP @正则 @匹配URL PHP 未知 05月02日 17:54 继续阅读

[转载]Linux环境下如何使用PHP处理图像

利用PHP创建图像是相当容易的一件事情。只要安装一些第三方的库文件并具有一定的几何知识,就可以利用PHP来创建和处理图像了。目前PHP使用GD库处理图像。在PHP中一些图像函数是可以直接使用的,但是大多数函数需要安装GD函数库。GD库提供一系列函数进行画图、使用颜色、处理预存的图像和填充操作。GD库是ThomasBoutell设计的ANSIC语言编写,同时支持在perl、Tcl语言中作图。由于GD是一个可以被建立成共享或静态的库,所以在PHP使用GD库进行图像操作是非常容易的。
标签: @Linux @PHP @处理图像 PHP 未知 05月02日 17:54 继续阅读

[转载]Linux环境下如何使用PHP处理图像(4)

利用PHP创建图像是相当容易的一件事情。只要安装一些第三方的库文件并具有一定的几何知识,就可以利用PHP来创建和处理图像了。目前PHP使用GD库处理图像。在PHP中一些图像函数是可以直接使用的,但是大多数函数需要安装GD函数库。GD库提供一系列函数进行画图、使用颜色、处理预存的图像和填充操作。GD库是ThomasBoutell设计的ANSIC语言编写,同时支持在perl、Tcl语言中作图。由于GD是一个可以被建立成共享或静态的库,所以在PHP使用GD库进行图像操作是非常容易的。
标签: @Linux @PHP @处理图像 PHP 未知 05月02日 17:54 继续阅读

[转载]Php部分常见问题总结(1) | hdm58

1:为什么我得不到变量
我在一网页向另一网页POST数据name,为什么输出$name时却得不到任何值?在PHP4.2以后的版本中register_global默认为off若想取得从另一页面提交的变量:
方法一:在PHP.ini中找到register_global,并把它设置为on.
方法二:在接收网页最前面放上这个extract($_POST);extract($_GET);(注意extract($_SESSION)前必须要有Session_Start()).
方法三:一个一个读取变量$a=$_GET["a"];$b=$_POST["b"]等,这种方法虽然麻烦,但比较安全.
标签: @PHP @常见问题 PHP hdm58 05月02日 17:54 继续阅读