博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
最近Python处理数据的一些心得(一)
阅读量:7221 次
发布时间:2019-06-29

本文共 726 字,大约阅读时间需要 2 分钟。

hot3.png

坑一:

        Python的字符编码一直是个大问题,特别是做中文的数据处理的时候经常匹配不上,为了能让编码尽量少出花样,我还特意连系统都刷了,刷成了英文版的win8,可是编码依然没有很听话。后来还是群里的一位大神轻描淡写的一句话,开头要用GB2312...

        详细的说,就是之前写习惯了,每段程序开始之前习惯了写这个东西:

# -*- coding: utf-8 -*-

        曾经一直以为UTF-8是最包罗万象的编码,没有之一,但是这次就被坑了,因为数据内容全是在网站上爬下来的数据,基本除了数字全是中文,所以,还是用GB2312好一点儿。就是说,开头这样写:

# -*- coding: gb2312 -*-

坑二:

        我也不知道怎么处理的,两行数据处理以后变成了三行数据,而且第三行数据跟第二行数据还差不太多,这个问题真是愁死我了。后来,在邱神的指导下,输出了一下三行数据,发现第三行居然是个逗号,可是为什么原来第三行只有个逗号,处理后却又数据内容呢?因为我是用循环做的,先是读入了个字符串line,然后匹配line字符串,匹配出来的字符串分别命名成其他的东西。结果虽然第三行读入的只是个逗号,但是其他字符串是有内容的,有些恰好可以匹配上,所以就出现了这种情况。因为要处理的字符串肯定很长,所以干错设定,当line长度大于10时才开始处理,后来想想不放心,万一有十个逗号呢,所以改成在处理完一次循环以后,对所有的中间变量字符串进行格式化,清理它们的内容,然后就没问题了

        这个例子告诉我们,程序员要养成及时扔垃圾的习惯,只有这样才能重视析构的作用,呵呵哒了...

坑三

转载于:https://my.oschina.net/moonrain/blog/540467

你可能感兴趣的文章
kendo grid序号显示
查看>>
Spring 教程(二) 体系结构
查看>>
Indexes
查看>>
2.Web中使用iReport 整合----------创建html格式的
查看>>
异常备忘:java.lang.UnsupportedClassVersionError: Bad version number in .class file
查看>>
最全三大框架整合(使用映射)——applicationContext.xml里面的配置
查看>>
初步理解Java的三大特性——封装、继承和多态
查看>>
知识点积累(一)
查看>>
iphone-common-codes-ccteam源代码 CCFile.m
查看>>
python:浅析python 中__name__ = '__main__' 的作用
查看>>
修改tomcat端口后不能IP访问问题
查看>>
review board
查看>>
URAL 1495 One-two, One-two 2
查看>>
牛客国庆集训派对Day3 G Stones
查看>>
虚函数简单总结
查看>>
插入排序--算法导论
查看>>
NoSQL -- Redis使用
查看>>
处理iphone的 .play() 不能播放问题
查看>>
jetty404web界面服务器信息隐藏
查看>>
22个Photoshop网页设计教程网站推荐
查看>>