超凡魔力

君子善思,善假于物,而不物于物。

0%

删除重复的数据,目前有两种策略,一种是,分组统计,找到唯一的数据,选择保留,或在重复的范围中,取反删除不唯一的条目。另外一种思路,联同一张表,进行查找删除。

在删除重复数据中,需要注意:1、如果是删除操作,注意该表可能还在有新增的操作,注意不能影响到新插入的数据。2、能分批操作,分批。(但是分批,一般来说也不太好操作)

文章以下的内容,是需要建立在以下的认识。1、全体样本。全体样本,可能还在变化,如新增、删除、更新。(如果是这种复杂情况,建议需要三思)2、全体样本中的唯一。这个应该是要保留的数据(group by )3、重复样本全体分组,注意是分组,我们还可以对它进行运算。(group by + having count(*)>1)这个里面,包含了全部的重复数据,但是不能直接删除它们,因为要从他们中间保存1条。4、重复样本分组max/min,(max + group by + having count()> 1)

阅读全文 »

用惯了php语言的web后端,然后尝试一下python的web端。本文记录一下尝试记录。简单记录一个部署启动过程。

阅读全文 »

bs4

BS4全称是Beatiful Soup,它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为tiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编一下原始编码方式就可以了。

所以,它能处理html、xml,可以提取,也可以修改。

一种简单的常见的爬虫策略,requests + bs4,前者完成http请求下载,后者能完成html的解析。另外,用re库也能完成网页解析。

阅读全文 »

requests

python中的请求库,相当于php中的curl。是对底层库进一层封装。

阅读全文 »

sqlite3

说来惭愧,很早的时候就自学了python,由于工作的原因,很久都没有再用python,甚至是用来写脚本。前段时间,突然又对django框架,心血来潮,所以,又想再拾起来Python。近几天,我在看B站有几个up主,用python来做一些工具,有的甚至是用全中文的变量。中文编程,一直是我比较向往的。翻看自己的笔记,却发现没有一篇Python的文章。特从本文开始记录。

阅读全文 »

array

认真学习一下array系列数组。数组,是所有程序语言中,常用的数据结构,能使用系统提供的自带函数,来处理函数,我个人感觉,一个是更快(因为是内置的嘛,用c语言实现的),另外一个,更容易理解(因为代码更少,也有可能更难,毕竟不是所有人都习惯map/reduce思维。)。

阅读全文 »