博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Discuz 楼主帖子采集
阅读量:6949 次
发布时间:2019-06-27

本文共 1999 字,大约阅读时间需要 6 分钟。

try            {                for (int i = 1; i < 130; i++)                {                    var html = GetHtmls("http://bbs.fobshanghai.com/viewthread.php?tid=3885995&extra=&page="+i,"","","gbk");                    var ms = Regex.Matches(html, @"
第{0}页

",i)); foreach (Match m in ms) { var temp = m.Groups[0].Value; if (!temp.Contains("鱼骨的个人空间")) continue; var m1 = Regex.Match(temp, @"t_msgfont"">([\s\S]+?)\s+
\s*本帖最后由.+?编辑\s*\]", ""); File.AppendAllText("1.html","

"+str+"

"); } } MessageBox.Show("over"); } catch (Exception ex) { MessageBox.Show(ex.Message); }

看到这帖子不错 http://bbs.fobshanghai.com/viewthread.php?tid=3885995&extra=&page=1

写了一段代码 进行采集,看着方便多了

 365的

try            {                for (int i = 1; i < 36; i++)                {                    var html = GetHtmls("http://xxxxxxx/thread-536585-"+i+"-1.html");                    var ms = Regex.Matches(html, @"
[\s\S]+?id\=""msg"">([\s\S]+?)"); File.AppendAllText("365.html", string.Format("

第{0}页


", i)); foreach (Match m in ms) { var temp = m.Groups[0].Value; if (!temp.Contains("5>yswgxx")) continue; var m1 = Regex.Match(temp, @"(
[\s\S]+?)"); var str = m1.Groups[1].Value;
str = str+"
"+m.Groups[1].Value;

File.AppendAllText("365.html", "<p>" + str.Replace("<font color=#A7CF7A><i><b>------ 发表于安卓手机365App</b></i></font>","") + "</p>");

}                    //break;                }                MessageBox.Show("over");            }            catch (Exception ex)            {                MessageBox.Show(ex.Message);            }

 

转载地址:http://oohnl.baihongyu.com/

你可能感兴趣的文章
ORACLE工作原理小结
查看>>
LeetCode - Populating Next Right Pointers in Each Node
查看>>
管理团队时,怎样保证一直做正确的事?
查看>>
如果应用程序正在通过 <identity impersonate="true"/> 模拟,则标识将为匿名用户(通常为 IUSR_MACHINENAME)或经过身份验证的请求用户。...
查看>>
Oozie入门
查看>>
myeclipse一直bulid workspace 的解决
查看>>
表单元素之搭车系
查看>>
mysql+redis
查看>>
[Android]Dagger2Metrics - 测量DI图表初始化的性能(翻译)
查看>>
sublime开启vim模式
查看>>
Rikka with Chess(规律)
查看>>
【设计模式】迭代器模式
查看>>
MATLAB中imshow()和image()
查看>>
Atitit.eclipse git使用
查看>>
JAVA逆向&反混淆-追查Burpsuite的破解原理(转)
查看>>
cocos2dx 3.1从零学习(一)——入门篇(一天学会打飞机)
查看>>
[CareerCup] 15.4 Types of Join 各种交
查看>>
文档批量格式化之word技能
查看>>
C#~异步编程再续~await与async引起的w3wp.exe崩溃
查看>>
Android屏幕适配全攻略(最权威的官方适配指导)
查看>>