VBA 从天涯论坛的帖子中提取正文Sub 天涯贴子简单抓取()
Dim cnt As Integer
arr = Array("评论", "举报", "楼主", "作者", "草稿", "热贴", "论坛", "注册", "广告", "推荐") '屏蔽词汇
For y = 1 To 2
Set ie = CreateObject("internetexplorer.application")
With ie
.Navigate "http://bbs.tianya.cn/post-free-5758447-" & y & ".shtml" '5758447-1.shtml ,5758447-2.shtml等
' .Visible = True
Do Until ie.ReadyState = 4
DoEvents
Loop
For x = 0 To .Document.All.tags("div").Length - 1 '正文是在div中,div集合长度
ss = .Document.All.tags("div")(x).innertext '正文内容
len_ss = Len(ss) '正文长度
If len_ss < 100 Then '正文长度太短,直接跳到下一个div
GoTo 100
Else
For Each keys In arr
If InStr(ss, keys) > 0 Then GoTo 100 '如有屏蔽的词语出现,直接跳到下一个div
Next
cnt = cnt + 1
Debug.Print cnt & ":" & .Document.All.tags("div")(x).innertext '输出合乎要求的div
End If
100
Next x
End With
Next y
ie.Quit
Set ie = Nothing
End Sub
创新互联建站专业IDC数据服务器托管提供商,专业提供成都服务器托管,服务器租用,
服务器托管德阳,
服务器托管德阳,成都多线服务器托管等服务器托管服务。
另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
网站标题:天涯社区论坛贴子粗加工-创新互联
URL标题:
http://cdweb.net/article/dpeihs.html