Discuz 楼主帖子采集-白红宇

Discuz 楼主帖子采集

阅读量：6949 次

发布时间：2019-06-27

本文共 1999 字，大约阅读时间需要 6 分钟。

try            {                for (int i = 1; i < 130; i++)                {                    var html = GetHtmls("http://bbs.fobshanghai.com/viewthread.php?tid=3885995&extra=&page="+i,"","","gbk");                    var ms = Regex.Matches(html, @"
     
      第{0}页
      
",i));                    foreach (Match m in ms)                    {                        var temp = m.Groups[0].Value;                        if (!temp.Contains("鱼骨的个人空间")) continue;                        var m1 = Regex.Match(temp, @"t_msgfont"">([\s\S]+?)\s+
      
       \s*本帖最后由.+?编辑\s*\]", "");                        File.AppendAllText("1.html","
       "+str+"
");                    }                }                MessageBox.Show("over");            }            catch (Exception ex)            {                MessageBox.Show(ex.Message);            }

看到这帖子不错 http://bbs.fobshanghai.com/viewthread.php?tid=3885995&extra=&page=1

写了一段代码进行采集,看着方便多了

365的

try            {                for (int i = 1; i < 36; i++)                {                    var html = GetHtmls("http://xxxxxxx/thread-536585-"+i+"-1.html");                    var ms = Regex.Matches(html, @"
     
      [\s\S]+?id\=""msg"">([\s\S]+?)");                    File.AppendAllText("365.html", string.Format("
      第{0}页
      
", i));                    foreach (Match m in ms)                    {                        var temp = m.Groups[0].Value;                        if (!temp.Contains("5>yswgxx")) continue;                        var m1 = Regex.Match(temp, @"(
      
       [\s\S]+?)");                        var str = m1.Groups[1].Value;

str = str+"
"+m.Groups[1].Value;

File.AppendAllText("365.html", "" + str.Replace("------ 发表于安卓手机365App","") + "");

}                    //break;                }                MessageBox.Show("over");            }            catch (Exception ex)            {                MessageBox.Show(ex.Message);            }

转载地址：http://oohnl.baihongyu.com/

你可能感兴趣的文章

ORACLE工作原理小结

查看>>

LeetCode - Populating Next Right Pointers in Each Node

查看>>

管理团队时，怎样保证一直做正确的事？

查看>>

如果应用程序正在通过 <identity impersonate="true"/> 模拟，则标识将为匿名用户(通常为 IUSR_MACHINENAME)或经过身份验证的请求用户。...

查看>>

Oozie入门

查看>>