如何给用Python每天定时给女神发一句情话

本篇文章给大家分享的是有关如何给用Python每天定时给女神发一句情话，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。

创新互联建站专注于企业营销型网站、网站重做改版、冷水滩网站定制设计、自适应品牌网站建设、成都h5网站建设、商城网站开发、集团公司官网建设、外贸网站建设、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为冷水滩等各大城市提供网站开发制作服务。

我的日记 4月23日 晴

你三天没回我的消息，在我孜孜不倦地骚扰下你终于舍得回我了，你说‘nmsl’我想这一定是有什么含义吧！噢！我恍然大悟，原来是尼美舒利颗粒。

她知道我关节炎，让我吃尼美舒利颗粒，她还是关心我的但是又不想显现的那么热情的。

天啊！她好高冷，我好像更喜欢她了呢！

你看，虽然女神经常不理我，但是还是会偷偷地关心我，虽然她不直说，但是我都懂。

唯一的问题就是，我最近很忙，忙到都没有时间去给女神发“早安”了。不可以！“早安”绝对不能断，这是我对女神诚挚的爱，女神虽然不会回复我，但是她肯定都记在心里，不回复我肯定是在考验我！

作为一名无所不能的程序猿，我立刻就想到为什么不用Python爬取情话，然后每天定时发送给她呢？

爬取情话

选取情话资源

首先我们需要去网上找到合适的情话资源

分析网页资源

1. 定位情话资源

鼠标放在我们要爬取的情话上快速按下右键+检查（元素）。

如何给用Python每天定时给女神发一句情话

先在就可以看到我们的情话在页面中是什么位置了。

2. 定位标签

在开发者工具中，我们轻松的旧定位到了我们的情话的标签，就是上图红框里的内容。

3. 分析请求方式

在刚才的界面（不要退出开发者模式）下刷新：

如何给用Python每天定时给女神发一句情话

在Network栏目下找到我们请求的那个资源，在他的Headers中找到这个资源请求的方式，这里是GET。

使用urllib库获取资源

1、安装urllib库

这一步是怕你服务器里没有urllib2库，等会儿会造成麻烦才添加上的，如果你没有添加该库，请百度添加方法。

2、请求资源网站

代码：

import urllib.request

url = "http://www.1juzi.com/new/150542.html"
html = urllib.request.urlopen(url).read()
print(html)

结果：

......

Ã¿ÌìÒ»¾äÐ¡Çé»°

news1();


1¡¢½«Äã·Å½øÎÒÐÄÀï×îÖØÒªµÄÎ»ÖÃ£¬ÓÃÐÄÀ´¿ÌÄãµÄÃû×Ö¡£

2¡¢°®ÊÇÌ¤ÆÆºì³¾Íû´©ÇïË®£»°®ÊÇÒ»ÉúÒ»ÊÀÚ¤Ú¤ÂÖ»Ø£»°®Äã£¬ÎÒ²»ÎÊÀíÓÉ¡£

3¡¢×§ÄãÈë»³£¬ÓèÄãÒ»ÊÀÏà°é£¬ÓµÄãÈë»³£¬»¤ÄãÒ»ÊÀÆ½°²¡£

4¡¢ºÎÖ¹ÊÇÒ°ÐÄ£¬ÎÒÔ¤Ä±ÁËÒ»±²×ÓµÄÄîÏë£¬´ÓÓö¼ûÄã¿ªÊ¼£¬²»¼û»ÆÍÁ²»ËÀÐÄ¡£

5¡¢ÎÒºóÀ´ÏëÁËÏë£¬ÎÒ²»µ¢ÎóÄã£¬»¹»áÓÐ±ðÈËµ¢ÎóÄã£¬ÄÇÎÒ²»¸ÊÐÄ£¬»¹ÊÇÎÒÀ´µ¢ÎóÄã°É¡£

6¡¢¼ûµ½ÄãµÄÄÇÒ»¿ÌÎÒ¾Í²»ÖªËù´ë£¬ÓÐµÄÖ»ÊÇµÄÐÄÌø£¬ÊÇÄã¸Ä±äÁËÎÒ£¬ÒÔÇ°ÎÒ´Ó²»»áÕâÑùµÄ¡£¼ÙÈçÓÐÒ»¸öÈËÄÜÈÃÎÒÐÄ¸ÊÇéÔ¸µØ¸Ä±äÄÇ¾ÍÊÇÄã¡£

7¡¢ÅãÎÒµ½¿É¿ÉÎ÷ÀïÈ¥¿´º£²»ÒªÎ´À´Ö»ÒªÄãÀ´¡£

8¡¢Ã¿Ò»Ìì¶¼ÎªÄãÐÄÌø£¬Ã¿Ò»¿Ì¶¼±»Äã¸Ð¶¯£¬Ã¿Ò»Ãë¶¼ÎªÄãµ£ÐÄ¡£ÓÐÄãµÄ¸Ð¾õÕæºÃ¡£

9¡¢²»¸ÒÔÙÌýÇé¸è£¬µ±ÎÒ¸öÈË£¬ÒòÎªÑÛÀáÖ¹²»×¡¡£

......

小问号，你是否有很多朋友？

我们爬下来的都是乱码，发给女神一堆乱码，女神可能还会以为是我们给她发的暗语，说不定还要花时间去寻找解密方法，想想都累，不能这个样子！

其实出现乱码的原因主要网页的编码方式和我们爬取程序的编码方式不一样造成的，只要找到网页的编码方式就好。

3、设置解码类型

有3种方式：

1.从网页Content-Type中获取编码方式

2.第三方库智能识别编码，常用chardet等

3.猜测编码

我们这里其实在请求头的Content-Type里有编码类型，但是为了保险起见，也是为了能应用到更多的资源网站，这里演示以下chardet的用法，猜测编码的使用请自行百度。

chardet获取编码类型

代码：

import urllib.request

import chardet
url = "http://www.1juzi.com/new/150542.html"
html = urllib.request.urlopen(url).read()
print("html头中的charset：", chardet.detect(html))

结果：

/usr/bin/python3.7 /home/baldwin/PycharmProjects/IAmADog/spider/Spider.py
html头中的charset：{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
Process finished with exit code 0

Get！！！编码方式为GB2312！

设置解码

代码：

import urllib.request
import chardet

url = "http://www.1juzi.com/new/150542.html"
html = urllib.request.urlopen(url).read()
charset = chardet.detect(html).get("encoding")
htmlText = html.decode(charset,errors = 'ignore')
print(htmlText)

结果：

......每天一句小情话
news1();

1、将你放进我心里最重要的位置，用心来刻你的名字。

2、爱是踏破红尘望穿秋水；爱是一生一世冥冥轮回；爱你，我不问理由。

3、拽你入怀，予你一世相伴，拥你入怀，护你一世平安。

4、何止是野心，我预谋了一辈子的念想，从遇见你开始，不见黄土不死心。

5、我后来想了想，我不耽误你，还会有别人耽误你，那我不甘心，还是我来耽误你吧。

6、见到你的那一刻我就不知所措，有的只是的心跳，是你改变了我，以前我从不会这样的。假如有一个人能让我心甘情愿地改变那就是你。

7、陪我到可可西里去看海不要未来只要你来。

8、每一天都为你心跳，每一刻都被你感动，每一秒都为你担心。有你的感觉真好。

......

哦吼！搞定！

4、封装代码

刚才我们已经实现了资源的获取，但是这样的代码用起来太不方便了，我们把它封装在方法里：

......
import urllib.request
import chardet

def getHtml(url):
    """
    获取网页html文本资源
    :param url: 网页链接
    :return: 网页文本资源
    """
    html = urllib.request.urlopen(url).read()
    charset = chardet.detect(html).get("encoding")
    htmlText = html.decode(charset, errors='ignore')
    return htmlText

解析网页资源

解析网页的话，需要第三方插件Beautiful Soup来提取 xml 和 HTML 中的数据。

获取content节点内容

我们想要的资源都在一个class为”content“的div节点下，我们现在先获取这个节点的所有内容。

部分代码：

soup = BeautifulSoup(htmlText,"html.parser")
"获取content节点的内容"
div_node = soup.find('div', class_='content')
print(div_node.get_text)

结果：

/usr/bin/python3.7 /home/baldwin/PycharmProjects/IAmADog/spider/Spider.py

news1();



1、将你放进我心里最重要的位置，用心来刻你的名字。

2、爱是踏破红尘望穿秋水；爱是一生一世冥冥轮回；爱你，我不问理由。

3、拽你入怀，予你一世相伴，拥你入怀，护你一世平安。

4、何止是野心，我预谋了一辈子的念想，从遇见你开始，不见黄土不死心。

5、我后来想了想，我不耽误你，还会有别人耽误你，那我不甘心，还是我来耽误你吧。

......

本文地址：每天一句小情话http://www.1juzi.com/new/150542.html
上一页12下一页

上一步我们已经获取到了我们的主要内容，然后总结可以看出我们想要的文本内容在P节点中，那么现在就来获取它。

注意一下第69剧，这里面有网站的链接，把这个一起发给女神不就露馅了么，现在得想办法给她删掉。同时情话前面的编号也得删掉。

我们会查看一下数据就会发现，所有的链接都是在U标签里的，那我们可以直接在获取到div标签内容后就把u标签删掉

我们发现，序号与情话之间是用顿号分割的，那么我们可以将每个P标签下的内容用split分割并且取出第二个元素就好了。

nice啊，到这一步你已经把我们需要的情话都提取出来了！！！

这样一句一句的也不好处理啊！不如把它放到list里，等下定时任务的时候可以用的时候取出来就好。

爬虫是做好了，但是总觉得乖乖的，我等下还得在其他地方用，不如这里以面向对象的思想把爬虫封装一下。

本来想用微信或者QQ发送来着，但是时隔两年，qqbot、itchat、wxpy等第三方库都失效了，没办法就来用手机短信发送好了。

Twilio是一个做成开放插件的电话跟踪服务（call-tracking service）

Twilio公司致力于帮助开发者在其应用里融入电话、短信等功能，该公司周二又推出了一项称为Twilio Client的新服务，可帮助开发者整合灵活而低成本的网络电话（VoIP）功能。

VoIP即Skype和谷歌电话等服务使用的技术，要提供VoIP服务通常需要准备相应的基础设备，而Twilio Client免除了开发者的这一麻烦，可让他们便捷地在应用里加入网络电话元素。

OK！到这里我们已经简单实现了发送短信的功能，现在要去把这个功能封装一下。