多线程制作sitemap地图，集合到工具集

淡墨SEO3年前 (2022-09-01)SEO软件3947743

这次在我的工具集中，增加一个新功能，就是sitemap地图的制作，核心思路当然是爬取网站所有页面，并对页面进行数据清洗，包括去重、分类、url类别判断。然后再将功能集合到seo工具集中。

在代码部分，简单介绍一下,解析页面，然后通过BeautifulSoup对页面url进行提取，对url进行判断，同域名下的url都是目标url,再把目标url放入集合中。

def get_new_urls(base_url,html):
   soup = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')
   links = soup.find_all('a', href=re.compile(r".*"))
   all_url = []
   for link in links:
       new_url = link['href']
       new_url_full = urljoin(base_url,new_url)
       if new_url_full.find(base_url) < 0:continue
       if not guolve(base_url,new_url_full):continue
       all_url.append(new_url_full)
   all_url.insert(0,base_url)
   return all_url
def parse_html(url):
   if url is None:
       return
   url = quote(url, safe="?#/:=@")
   try:
       res = requests.get(url=url,timeout=5)
       if res.status_code == requests.codes.ok:
           res.encoding = res.apparent_encoding
           return res.text
   except:
       return

将返回的列表数据，带入到线程中，再进行循环请求，获取下一批url。并对下一批url进行判断和去重

最后，把返回的url几个用xml的格式，进行写入xml文件的格式就可以了。

fw = open(filename, 'w', encoding="utf-8")
           fw.write('<?xml version="1.0" encoding="UTF-8"?>')
           fw.write(
               '\n<urlset xmlns="http://video.sitemaps.org/schemas/sitemap/0.9">'
          )
           root_url = urlparse(data[0]).netloc
           if not re.compile(r"http://").findall(root_url) and not re.compile(r"https://").findall(root_url):
               root_url = "http://" + root_url
           data = list(set(data))
           for url in data:
               # url = data['url']
               fw.write('\n\t<url>')
               fw.write('\n\t\t<loc>' + url + '</loc>')
               fw.write("\n\t\t<lastmod>" +time.strftime('%Y-%m-%d', time.localtime(time.time())) +
                   "</lastmod>")
               fw.write('\n\t\t<changefreq>daily</changefreq>')
               if re.findall(root_url + "$", url) or re.findall(
                       root_url + "/$", url):
                   fw.write('\n\t\t<priority>1.0</priority>')
               elif re.findall(root_url + "[^/]*/$",
                               url) or re.findall(
                                   root_url + "/[^/]*/$", url):
                   fw.write('\n\t\t<priority>0.8</priority>')
               elif re.findall(root_url + "[^/]*/[^/]*$",
                               url) or re.findall(
                                   root_url + "/[^/]*/[^/]*$", url):
                   fw.write('\n\t\t<priority>0.6</priority>')
               else:
                   fw.write('\n\t\t<priority>0.4</priority>')
               fw.write('\n\t</url>')
           fw.write('\n</urlset>')

在工具集中，我将sitemap功能也添加进去了，这样，在工具集中，可以很方便去使用。在挖掘页面的时候，可以选择挖掘的数量，如果不指定挖掘数量，就代表挖掘网站所有的页面url。并且这些url都是不重复的。

在导出数据时候，就可以将这些页面导出位XXX.XML格式的文件了。

有需要这款工具集合，可以私信我。

扫描二维码推送手机访问

文章内容均为原创，禁止转载！

本文链接：http://danmoseo.com/news/10.html

标签: seo工具

分享给朋友：

返回列表

上一篇：逆向百度翻译做seo伪原创内容，很实在

下一篇：api内容智能伪原创并保存到mongodb中

自然语言关键词生成文章API接口请求

本次主要介绍通过自然语言将关键词生成一篇原创文章，以及制作文章生成的接口api，方便需要生产内容的用户进行调用。下面就逻辑和使用方法给做个介绍。首先是逻辑原理，原理就是人工智能深度学习，进行关键词的模型训练。从而会对目标词块也就是关键词进行相关性的输出。核心技术就不再讲解了，不是那么容易的。一时半会...

百度站长平台js逆向登录解析

在我们使用百度站长平台看看网站数据信息的时候，肯定要先登录才能获取，那么就需要在网页上进行登录，然后才能看到网站一些信息以及做一些操作比如二级域名绑定，抓取诊断、关键词查看等。那如果要代码进行这些操作的话，要解决逆向登录的问题，或者不解决登录的话，在网页上获取cookie进行复制再进行代码操作。本次...

360识别文字验证码后并进行批量提交

前面说到360点选验证码js逆向的过程，这次对js逆向的过程进行实际应用并进行url的批量提交，下面讲解一下主要难点。软件拍下自动发货地址：http://faka.danmoseo.com/buy/7视频演示问题一、网页图片尺寸是320*198，而通过请求接口获取的图片尺寸是580*410那么在代码...

百度二级域名批量ck绑定软件-多线程(更新日期:2024-6-4)

对于百度批量二级域名绑定软件，在最近几个有需要的朋友最关心的问题就是，速度如何？是否多线程？代理ip还是拨号？cookies在哪买？之类的问题，这类问题在文章中都进行了说明。二级域名绑定软件购买自动发货地址：http://faka.seoyiwu.com/product/2.html演示视频首先我们...

结合协程异步原理制作PC关键词排名查询工具

花了点时间，将百度PC关键词排名查询代码结合UI界面做了一款SEO软件，这样在查询关键词排名利用这个工具就可以了。在软件制作过程中，要解决的问题的是查询速度、验证逆向、ui导入和导出，开始和停止。解决这些问题就可以了。下面主要讲解一下软件界面一、查询速度对于提高pc查询速度，这里用到了协程异步，协程...

大家都在搜:

多线程制作sitemap地图，集合到工具集

相关文章

自然语言关键词生成文章API接口请求

百度站长平台js逆向登录解析

360识别文字验证码后并进行批量提交

百度二级域名批量ck绑定软件-多线程(更新日期:2024-6-4)

结合协程异步原理制作PC关键词排名查询工具

Copyright 京ICP备2025128392号

Powered By Z-BlogPHP. Theme by TOYEAN.