网站平台建设是什么,网站建设教程微云网盘,传媒公司网站模板,壹网目标网站#xff1a;http://bohaishibei.com/post/category/main/(一个很有趣的网站#xff0c;一段话配一个图#xff0c;老有意思了#xff5e;)网站形式如下#xff1a;目标#xff1a;把大的目标分为几个小的目标。因为第一次干这个#xff0c;所以对自己能力很清楚…目标网站http://bohaishibei.com/post/category/main/(一个很有趣的网站一段话配一个图老有意思了)网站形式如下目标把大的目标分为几个小的目标。因为第一次干这个所以对自己能力很清楚所以完成顺序由简单到复杂。1.爬取一期的内容包括标题和图片的url2.把数据存在本地的txt文件中3.想爬多少就爬就爬少4.写一个网站展示一下。(纯用于学习)Let‘s 搞定它!第一步我用的是google浏览器进入开发者模式使用’页面内的元素选择器‘先看一下内页中的结构找到我们要的数据所在’标签‘。这里我们需要的博海拾贝一期的内容全部在第一条红线是页面内的元素选择器第二条是内容所在标签第三条是title经过分析得出我只要这个标签的内容所以写了下面的方法这里需要说一下在写这个爬虫之前我就打算只用字符串的内置函数来处理匹配问题所以我就上http://www.w3cschool.cc/python/进入到字符串页面大致看了一遍字符串的内建函数有哪些。partition() 方法用来根据指定的分隔符将字符串进行分割。如果字符串包含指定的分隔符则返回一个3元的元组第一个为分隔符左边的子串第二个为分隔符本身第三个为分隔符右边的子串。partition() 方法是在2.5版中新增的。参考http://www.w3cschool.cc/python/att-string-partition.html这样我就得到只有内容的字符串了干净第二步得到title的内容。title的格式如下我只要’【2】‘后面的文字后面的img暂时不考虑一步步的来。【2】这是我最近的状态请告诉我不是我一个人http://ww4.sinaimg.cn/mw690/005CfBldtw1etay8ifthnj30an0aot8w.jpg /我写了下面的方法这里用try....except是因为我不知道怎么跳出循环。。。。求大神有更好的方法告诉我。我这里跳出循环用的是当抛出VlaueError异常就说明找不到了那就返回列表。就跳出循环了。num1是】的位置num2是的位置然后用序列的切片咔嚓咔嚓一下就是我想要的数据了。这里需要注意的是切片’要头不要尾‘所以我们的得到的数据就是这个样子的哎呀这个是什么鬼要头不要尾就是这个意思然后我就想那就把num1加1不就完了吗我真是太天真了。。。。请3我觉得原理是这样的这个是个中文字符(求大神指点)第三步交代清楚我昨天晚上做的事情了记录下时间——10:01下面我要爬图片的url了。这里要说一下如果要把图片下下来最重要的一步就是得到url然后下载下来保存到本地(用文本的IO)。我先获得url实现原理同获取title我在想既然一样卸载获取title的方法里好还是在写一个方法好。我单独写了一个方法但是其实就是复制了一下title的方法改了下匹配的字符串代码如下结果图如下这里发现有的时候一个title会有很多个图片。我思考之后有如下思路1.需要写一个方法当一个title出现多个图片的时候捕获url。这个需要有一个判断语句当url长度大于一个url长度的时候才需要调用这个函数。2.多个图片的url怎么放使用符号隔开存放还是嵌套放入一个数组里面我这里打算用’|‘隔开这样的话加一个判语句或者先判断一下url长度都可以进行。这个问题先放在这里因为当我要下载的时候这个url才需要过滤所以先进行下一步把数据存到本地txt文中这里在解决这个问题也不晚。第四步把数据存到本地的txt中。Python文件IO参考资料http://www.w3cschool.cc/python/python-files-io.html这里需要注意的是文本写入的时候记得close还有就是注意打开文本的模式。这里我考虑了一个问题根据《编写高质量代码——改善python程序的91个建议》这本书中写道的字符串连接时用jion()效率高于’‘所以我写了如下代码这样造成了一个问题看图造成最后一个和新的一个列表写入时在同一行。同时用with....as更好。修改后代码如下下面研究title和img以什么样的格式存入txt文本title$img这里我有一个概念混淆了和join()方法的效率问题主要在连接多个字符串的时候我这个只用连接一次不需要考虑这个问题。文本中的内容如下愿你贪吃不胖愿你懒惰不丑愿你深情不被辜负。$http://ww1.sinaimg.cn/mw690/005CfBldtw1etay8dl1bsj30c50cbq4m.jpg这是我最近的状态请告诉我不是我一个人$http://ww4.sinaimg.cn/mw690/005CfBldtw1etay8ifthnj30an0aot8w.jpg引诱别人和你击拳庆祝然后偷偷把手势变成二就可以合体成为蜗牛cosplay……$http://ww2.sinaimg.cn/mw690/005CfBldtw1etay8fzm1sg30b40644qq.gif原来蜗牛是酱紫吃东西的。。。。涨姿势$http://ww4.sinaimg.cn/mw690/005CfBldtw1etay8egg8vg30bo08ax6p.gif写入文本的最后解决多个图片的问题输出如下元气少女陈意涵 by TopFashionStyle$http://ww2.sinaimg.cn/mw690/005CfBldtw1etay848iktj30bz0bcq4x.jpg|http://ww1.sinaimg.cn/mw690/005CfBldtw1etay83kv5pj30c10bkjsr.jpg|http://ww3.sinaimg.cn/mw690/005CfBldtw1etay82qdvsj30c10bkq3z.jpg|http://ww1.sinaimg.cn/mw690/005CfBldtw1etay836z8lj30c00biq40.jpg|http://ww4.sinaimg.cn/mw690/005CfBldtw1etay8279qmj30ac0a0q3p.jpg|http://ww1.sinaimg.cn/mw690/005CfBldtw1etay81ug5kj30c50bnta6.jpg|http://ww2.sinaimg.cn/mw690/005CfBldtw1etay8161ncj30c20bgmyt.jpg|http://ww2.sinaimg.cn/mw690/005CfBldtw1etay804oy7j30bs0bgt9r.jpg|暂时功能是实现了后面遇到问题需要修改在改吧。。。。新手走一步看一步到此为止已经完成了前两个简单的计划1.爬取一期的内容包括标题和图片的url2.把数据存在本地的txt文件中全部代码如下