php提取网页正文内容的例子_PHP教程
推荐:PHP官方Windows扩展列表发现很多学PHP的同学常常因为找不到PHP在windows下对应的扩展而抓破头,因此分享一下PHP Windows所有可以找到的扩展索引资源: PHP 5.2/5.3的Windows扩展索引站点: 在这里你可以找到诸如php_oci8.dll, php_memcache.dll, php_mongo.dll, php_apc.dll等常用的Windows扩
因为难点在于如何去识别并保留网页中的文章部分,而且删除其它无用的信息,并且要做到通用化,不能像火车头那样根据目标站来制定采集规则,因为搜索引擎结果中有各种的网页。
抓回一个页面的数据,如何匹配出正文部分,郑晓在下班路上想了个思路是:
1. 提取出body标签部分–>剔除所有链接–>剔除所有script、注释–>剔除所有空白标签(包括标签内不含中文的)–>获取结果。
2. 直接匹配出非链接的、 符合在div、p、h标签中的中文部分???
还是会有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建议?
这个类是从网上找到的一个php实现的提取网页正文部分的算法,郑晓在本地也测试了下,准确率非常高。
使用起来也非常简单,实例化时传入网页的html源码和相应的编码,然后直接调用其getContent方法即可返回提取到的正文部分,提取出的文章中可能还会含有少部分链接,可以自己后期再修改
分享:修改php.ini中的max_input_vars参数限制提交的表单数量折腾了半天,发现了这个奥秘,原来php小版本升级引起的不兼容, php.ini 文件里的 max_input_vars 默认值为 1000, 正常情况下够用,偶尔遇到我这种提交2000多个表单的情况还是比较少见的,不过,如果发现提交表单个数不全的情况,可以试试修改这个配置。 修改后重启ph
- phpmyadmin安装教程 phpmyadmin安装配置
- PHP程序员必须遵循的PHP编程准则
- PHP官方Windows扩展列表
- 修改php.ini中的max_input_vars参数限制提交的表单数量
- 快速找出php中可能导致cpu飙升问题的代码行
- php验证URL是否合法的函数
- PHP中排列组合及性能对比
- PHP合并2个数字键数组的值的程序
- php方法重写:Declaration of should be compatible with that
- PHP通过内置函数memory_get_usage()获取内存使用情况
- IIS下PHP的三种配置方式对比
- PHP超时处理应用场合及解决方案全面总结
- 相关链接:
- 教程说明:
PHP教程-php提取网页正文内容的例子。