搜索引擎来源关键词解析乱码解决方案

5 sec read

由于计算机无法做到类似人类一样的感知,即一眼就知道这个是乱码,但是这是不是说明乱码无法解决了?公司开发的统计工具中,涉及关键词编码解析部分,先前采用的是按规则去处理来自不同搜索引擎的编码。具体使用到的规则如下:

上述规则应该是收集的很全了,但是即使采用上述的规则去解析关键词,还是存在着一些乱码。由于涉及到的数据量比较大,且乱码的比例不能通过程序去统计,所以这是个让人非常头痛的问题。在经过几天的方案寻找中,终于获得了解决方案:

通过Python的异常机制去判断URL中关键词的编码,但是好像此方法仅是Python上支持,C#中根本不抛异常。以下为使用.NET的其他处理方案:

另外的思路(代码使用的是JAVA):

如果你有好的方法,请告诉我,谢谢!

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

北大开源分词工具pkuseg

pkuseg简介 pkuseg是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkus
1 min read

使用Python进行中文繁简转换

中文繁体、简体的差异,在NPL中类似英文中的大小写,但又比大小写更为复杂,比如同样为繁体字,大陆、香港和台湾又
1 min read

Python因子分解库:fastFM

FastFM简介 FastFM的主要特点是将是将因子分解封装成scikit-learn API接口,核心代码使
2 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注