本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:
lwx3069@sina.com
   这里以人民网中的“今日要闻”下的新闻为例.
<?php
($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻
if(isset($url)&&$url!="")        {
   $str = implode("",file($url));
   $str_ary = explode("<ul>",$str);
   $str_ary = explode("<li>",trim($str_ary[1]));
   for ($i=0; $i<8; $i )        {
      if (strlen(trim($str_ary[$i]))<3){
      continue;
      }
      echo "新闻".$i.":".$str_ary[$i];
      $str1=strstr("$str_ary[$i]",'<a href="/');
      $str2=strstr("$str_ary[$i]",'" target');
      $len1=strlen("$str1");
      $len2=strlen("$str2");
      $len=$len1-$len2;
      $url=substr("$str1",10,$len-10);
      if (strlen(trim($url))!=0) {
         $url = "http://www.unn.com.cn/".$url;
         define(CONTENTS_DIR,"./contents/");
         if(isset($url)&&$url!="")        {
            $str = implode("",file($url));
            $str1=explode('<div align="right">',$str);            //去掉文件没用的上半部分
            $str2 = explode('<h4 align="center">&nbsp; </h4>',$str1[1]);
            //取出文件的下半部分,并去掉没用的下半部分,这时得到的都是有用的
            $str3=explode('</font><font size=" 2"><b><font size="3">',$str2[0]);   //从整个有用部分取出文件标题和正文
            $str4=explode('</div>',$str2[0]);   //取出日期和时间
            $str5=explode('</font></b></font><font size="2">',$str3[1]);     //从标题和正文部分取出标题
            $title=str_replace("<br>","",$str5[0]);
            $str3=explode('<p><font size="2">',$str2[0]);          //从整个有用部分取出文件正文
            $str3[1]=str_replace('<br><br>&nbsp;&nbsp;&nbsp;&nbsp;',"\n"."  ",$str3[1]);
            $str3[1]=str_replace('&nbsp;',"",$str3[1]);
            $str3=strip_tags($str3[1]);
            $pf=trim($title).".txt";
            $ppf=fopen(CONTENTS_DIR."$pf",'w');
            fputs($ppf,$title);
            fputs($ppf,"$str4[0]");
            fputs($ppf,$str3);
        }
     }
  }
}
?> 

同时提取多条新闻中的文本一例的更多相关文章

  1. 使用sockets:从新闻组中获取文章(三)

    >我们从服务器的这个新闻组中读取了最后的十篇文章,。也可以通过使用HEAD命令读取文章的头信息,或者使用BODY命令读取文章内容。>关于fclose()的更多信息,请参考http://www.php.net/manual/function.fclose.php结论在上文中,我们看到了怎样打开、使用然后关闭一个socket:连接到一个NNTP服务器,取回一些文章。使用POST命令发表文章也复杂不到哪儿去。下一步就是编写一个基于WEB的新闻组客户端了。这样,你有了一个基于web的搜索新闻组的程序了。

  2. 一个开发人员眼中的JSP技术(上)

    本文从一个开发人员的角度对JSP技术做了一个全面介绍。在JSP网页中,要把用户界面和应用程序分开可以考虑在网页设计人员和开发人员之间执行一个非常方便的授权任务。如果需要的话,JSP网页还可以进行预编译。开发人员可以提供定制化的JSP标签库。同样,开发人员也无须一个个编辑页面而只须对组件进行合理的改变。通常,JSP允许开发人员向许多网页设计人员分发功能性应用程序。这就意味着JSP注释并不返回到用户的浏览器中。

  3. 文本链接逐个出现的js脚本

    浏览网站时发现这个代码,非常的不错,高度为20的,文本广告调用代码:

  4. Python实现文本特征提取的方法详解

    这篇文章主要为大家详细介绍了Python实现提取四种不同文本特征的方法,有字典文本特征提取、英文文本特征提取、中文文本特征提取和TF-IDF 文本特征提取,感兴趣的可以了解一下

  5. 基于文本的留言簿

    固然基数据库的留言簿可以作得很漂亮,而且也更好管理。但是对于那些没有数据库空间的朋友们来说,基于文本的留言簿也完成可以适用于个人站来使用。而且只要我们努力去做同样可以做得很好,甚至可以说丝毫不比基于数据库的留言簿差。在这里我向介绍一个基于文本的留言簿。反应留言表单的note.htm文件;最终处理留言信息的note.php文件。

  6. Python Django教程之实现新闻应用程序

    Django是一个用Python编写的高级框架,它允许我们创建服务器端Web应用程序。在本文中,我们将了解如何使用Django创建新闻应用程序,感兴趣的可以尝试一下

  7. 基于Python实现文本文件转Excel

    Excel文件是我们常用的一种文件,在工作中使用非常频繁。Excel中有许多强大工具,因此用Excel来处理文件会给我们带来很多便捷。本文就来和大家分享一下Python实现文本文件转Excel的方法,感兴趣的可以了解一下

  8. node.js实现复制文本到剪切板的功能

    这篇文章主要给大家介绍了node.js实现复制文本到剪切板的功能,文中介绍的非常详细,并给出示例代码,相信对大家具有一定的参考借鉴价值,有需要的朋友们下面来一起看看吧。

  9. Android文本与视图基本操作梳理介绍

    下面介绍一下android如何设置文本内容、设置文本字体大小、文本颜色、视图宽高、视图间距、和视图的对齐方式,只简单说明一下如何操作,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习吧

  10. 关于文本留言本的分页代码

    //在写文件的时候用"|||"来分离每条记录,"||"用来分离记录中的各个字段//如记录一表示为$str1=$name."||".$pass."||".$title."||".$message."||".………elseif$page=floor;//如果比取整小,就取整$minnum=*$row;//当前页从此数开始取记录$maxnum=$row*$dpage;//当前页要取的最大记录数for{$message=explode;//分割出记录中的字段$num1=count;//计算数组中元素的数量用于控制

随机推荐

  1. PHP个人网站架设连环讲(一)

    先下一个OmnihttpdProffesinalV2.06,装上就有PHP4beta3可以用了。PHP4给我们带来一个简单的方法,就是使用SESSION(会话)级变量。但是如果不是PHP4又该怎么办?我们可以假设某人在15分钟以内对你的网页的请求都不属于一个新的人次,这样你可以做个计数的过程存在INC里,在每一个页面引用,访客第一次进入时将访问时间送到cookie里。以后每个页面被访问时都检查cookie上次访问时间值。

  2. PHP函数学习之PHP函数点评

    PHP函数使用说明,应用举例,精简点评,希望对您学习php有所帮助

  3. ecshop2.7.3 在php5.4下的各种错误问题处理

    将方法内的函数,分拆为2个部分。这个和gd库没有一点关系,是ecshop程序的问题。会出现这种问题,不外乎就是当前会员的session或者程序对cookie的处理存在漏洞。进过本地测试,includes\modules\integrates\ecshop.php这个整合自身会员的类中没有重写integrate.php中的check_cookie()方法导致,验证cookie时返回的username为空,丢失了登录状态,在ecshop.php中重写了此方法就可以了。把他加到ecshop.php的最后面去就可

  4. NT IIS下用ODBC连接数据库

    $connection=intodbc_connect建立数据库连接,$query_string="查询记录的条件"如:$query_string="select*fromtable"用$cur=intodbc_exec检索数据库,将记录集放入$cur变量中。再用while{$var1=odbc_result;$var2=odbc_result;...}读取odbc_exec()返回的数据集$cur。最后是odbc_close关闭数据库的连接。odbc_result()函数是取当前记录的指定字段值。

  5. PHP使用JpGraph绘制折线图操作示例【附源码下载】

    这篇文章主要介绍了PHP使用JpGraph绘制折线图操作,结合实例形式分析了php使用JpGraph的相关操作技巧与注意事项,并附带源码供读者下载参考,需要的朋友可以参考下

  6. zen_cart实现支付前生成订单的方法

    这篇文章主要介绍了zen_cart实现支付前生成订单的方法,结合实例形式详细分析了zen_cart支付前生成订单的具体步骤与相关实现技巧,需要的朋友可以参考下

  7. Thinkphp5框架实现获取数据库数据到视图的方法

    这篇文章主要介绍了Thinkphp5框架实现获取数据库数据到视图的方法,涉及thinkPHP5数据库配置、读取、模型操作及视图调用相关操作技巧,需要的朋友可以参考下

  8. PHP+jquery+CSS制作头像登录窗(仿QQ登陆)

    本篇文章介绍了PHP结合jQ和CSS制作头像登录窗(仿QQ登陆),实现了类似QQ的登陆界面,很有参考价值,有需要的朋友可以了解一下。

  9. 基于win2003虚拟机中apache服务器的访问

    下面小编就为大家带来一篇基于win2003虚拟机中apache服务器的访问。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  10. Yii2中组件的注册与创建方法

    这篇文章主要介绍了Yii2之组件的注册与创建的实现方法,非常不错,具有参考借鉴价值,需要的朋友可以参考下

返回
顶部