博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python中的字符串编码
阅读量:6192 次
发布时间:2019-06-21

本文共 1856 字,大约阅读时间需要 6 分钟。

获取字符串的编码类型:

encodingdate = chardet.detect(str)

chardet用于实现字符串的编码类型检测

chardet的下载地址:

查看获取到的编码类型:

print encodingdate['encoding']

将字符串转为unicode:

ustr = unicode(str, encodingdate['encoding'])

将unicode转为字符串:

ustr.encode('utf-8', 'ignore')

 需要注意的是encode方法,str类型也有这个接口,

但是这个接口的作用是将unicode编码成指定编码的字符串,在str上是无效的。

 

一个相对复杂的应用:

字符串转unicode在搜索引擎 爬虫部分的应用

for name,value in attrs:                if name == 'content':                    try:                        if isinstance(value, str):                            encodingdate = chardet.detect(value)                            if encodingdate['encoding']:                                value = unicode(value, encodingdate['encoding'])                        if self.style == 'keywords':                            keywords = doclex.simplesplit(value)                            if isinstance(keywords, list):                                for key in keywords:                                    self.urlinfo['keys']['1'].append(key)                        elif self.style == 'profile':                            self.urlinfo['profile'].append(value)                            keys1 = doclex.lex(value)                            for key in keys1:                                self.urlinfo['keys']['2'].append(key)                            keys1 = doclex.vaguesplit(value)                            for key in keys1:                                self.urlinfo['keys']['3'].append(key)                            tlen = 16                            if len(value) < 16:                                tlen = len(value)                            self.urlinfo['title'].append(value[0:tlen])                    except:                        import traceback                        traceback.print_exc()

 

 

开源的搜索引擎,欢迎大家支持!

项目地址:

向我们提出意见:

对项目进行捐助:

代码托管地址如下:欢迎大家参与

转载于:https://www.cnblogs.com/qianqians/p/5321301.html

你可能感兴趣的文章
实现app上对csdn的文章查看,以及文章中图片的保存 (制作csdn app 完结篇)
查看>>
大圣归来:我们心中缺少一份英雄主义
查看>>
IIS配置错误信息输出
查看>>
excel使用技巧
查看>>
Flymeos插桩适配教程
查看>>
MySQL备份 博客---MYSQLDBA 黄杉
查看>>
Mysql 修改数据库,mysql修改表类型,Mysql增加表字段,Mysql删除表字段,Mysql修改字段名,Mysql修改字段排列顺序,Mysql修改表名...
查看>>
GuozhongCrawler系列教程 (1) 三大PageDownloader
查看>>
《JavaScript高级程序设计》笔记:引用类型(五)
查看>>
开放产品开发(OPD):OPD框架
查看>>
Ubuntu 14.04下单节点Ceph安装(by quqi99)
查看>>
java uuid第一次性能
查看>>
[Python] Handle Exceptions to prevent crashes in Python
查看>>
Linux鸟哥(总)
查看>>
centos虚拟机安装,配置静态ip可以访问网络
查看>>
Centos Crontab查看状态和开启
查看>>
WinCE平台下BMP转JPG代码备份1
查看>>
sql server 2000 修改某列的类型
查看>>
Rhino and Envjs
查看>>
ibatis - sqlMapConfig.xml配置文件详解
查看>>