Python生成唯一标识符

文章内容如有错误或排版问题，请提交反馈，非常感谢！

在前面的文章中，介绍了分布式全局唯一ID生成方案，本次需要分享的是使用Python来生成唯一标识符。在Python中，唯一标识符（Unique Identifiers）通常用于标识对象或数据的唯一性，以确保在特定上下文中每个实体都是可区分的。

在选择生成唯一标识符的库时，考虑以下因素：

长度和格式：如果需要短小且易于人类阅读的ID，考虑使用nanoid或shortuuid。
排序需求：如果需要在时间上排序的ID，ulid是一个不错的选择。
分布式系统：在分布式环境中，需要高效生成唯一ID时，snowflake及其变体是理想的选择。
安全性：确保生成的ID在安全性上满足你的需求，特别是在公开场合使用时。

自定义唯一标识符

在某些情况下，您可能需要根据特定的业务逻辑生成唯一标识符。可以通过结合时间戳、随机数或其他特定属性来实现。

示例：

import time
import random

def generate_custom_id():
    timestamp = int(time.time())
    random_number = random.randint(1000, 9999)
    return f"{timestamp}-{random_number}"

custom_id = generate_custom_id()
print(f"Custom ID: {custom_id}")

ULID

ULID（Universally Unique Lexicographically Sortable Identifier）是一种用于生成全局唯一标识符的格式，旨在克服传统UUID的一些缺点。ULID不仅提供了唯一性，还在字母表上是可排序的，这使其在某些应用场景中非常有用。

特性

唯一性：ULID生成的标识符是全局唯一的，适合用作分布式系统中的唯一ID。
字母表排序：ULID是按字母表顺序排序的，基于时间的排序特性使其在某些情况下更易于管理和检索。
可读性：ULID由26个字符组成，使用Crockford’s Base32编码，易于人类阅读。
时间戳：包含一个48位的时间戳，精确到毫秒级别。
高性能：生成速度快，适合高并发环境。

ULID结构

ULID由以下两部分组成：

时间戳（48位）：表示自Unix纪元以来的毫秒数，提供了排序功能。
随机部分（80位）：由随机数生成，确保唯一性。

安装

在Python中，可以使用ulid-py库来生成ULID。可以通过pip进行安装：pip install ulid-py基本用法

以下是使用ulid-py库生成ULID的基本示例：

import ulid

# 生成一个新的ULID
unique_id = ulid.new()
print(f"Generated ULID: {unique_id}")

# 获取ULID的时间戳部分
timestamp = unique_id.timestamp()
print(f"Timestamp: {timestamp}")

# 获取ULID的随机部分
randomness = unique_id.randomness()
print(f"Randomness: {randomness}")

时间戳排序

由于ULID包含时间戳部分，因此它在字母表上是排序的。这使得它在数据库索引和日志排序等场景中非常有用。

序列化与反序列化

ULID可以方便地序列化为字符串，也可以从字符串反序列化回ULID对象：

import ulid

# 序列化
unique_id = ulid.new()
ulid_str = str(unique_id)
print(f"ULID as String: {ulid_str}")

# 反序列化
parsed_ulid = ulid.from_str(ulid_str)
print(f"Parsed ULID: {parsed_ulid}")

使用场景

数据库索引：ULID的排序特性使其非常适合用作数据库索引。
日志记录：由于其时间排序特性，ULID可用于日志记录，以便更容易地跟踪事件顺序。
分布式系统：适合在分布式系统中用作唯一标识符。

注意事项

时钟同步：由于ULID依赖于时间戳，因此在分布式环境中需要确保机器的时钟同步。
随机性：ULID的随机部分确保了其唯一性，但在极端高并发情况下，仍需注意可能的碰撞。

ULID是一个强大且灵活的标识符生成方案，特别适合需要时间排序和全局唯一性的应用场景。其简单的结构和易于使用的特性使其成为许多系统中的理想选择。

FUID

FUID（Fixed Unique Identifier）是一种用于生成固定长度的唯一标识符的方案。FUID的设计目标是提供一种易于阅读、比较和使用的标识符，与传统的UUID相比，它通常更短，并且在某些实现中可以提供时间排序的功能。

特性

固定长度：FUID生成的标识符具有固定的长度，这使得它们在存储和传输中更为一致。
唯一性：FUID确保在其生成范围内的唯一性，适合用于需要全局唯一标识的场景。
易于阅读：生成的ID通常使用字母和数字的组合，易于人类阅读和识别。
高性能：由于其设计简单，FUID的生成速度通常较快，适合高并发环境。
可排序性（视实现而定）：在某些实现中，FUID可以基于时间进行排序，这使得它们在日志和数据库索引中非常有用。

安装

FUID的具体实现可能会因语言和库的不同而有所差异。在Python中，可以使用一个名为fuid的库来生成FUID。可以通过pip进行安装：pip install fuid基本用法

以下是使用fuid库生成FUID的基本示例：

from fuid import FUID

# 生成一个新的FUID
unique_id = FUID()
print(f"Generated FUID: {unique_id}")

# 如果需要，可以将FUID转换为字符串
fuid_str = str(unique_id)
print(f"FUID as String: {fuid_str}")

使用场景

数据库主键：FUID的固定长度和唯一性使其适合用作数据库表的主键。
文件命名：可以用于生成文件名，确保文件名的唯一性和一致性。
API令牌：适用于生成API访问令牌，确保每个请求的唯一性。

注意事项

实现差异：不同的FUID实现可能在长度、字符集和排序特性上有所不同，因此在使用时需要查看具体库的文档。
唯一性范围：确保FUID的生成范围满足你的应用需求，特别是在分布式系统中。
安全性：如果用于安全相关的场景，确保FUID的生成机制具有足够的随机性和不可预测性。

FUID提供了一种简洁、高效的标识符生成方案，特别适合需要固定长度和易于比较的应用场景。根据具体需求，开发者可以选择合适的实现和配置，以充分利用FUID的特性。

UUID及其变种

UUID模块

Python标准库中的 uuid模块用于生成通用唯一标识符（UUIDs）。UUID是一种标准的标识符，用于在分布式系统中唯一地标识信息。uuid模块提供了几种生成UUID的方法，每种方法使用不同的算法和标准来确保生成的UUID是唯一的。

UUID的标准

UUID的标准分为几个版本，每个版本都有不同的生成方式：

uuid1(): 基于时间和节点（通常是网络地址）。它结合了时间戳、节点信息（通常是计算机的MAC地址）和一个序列号来生成UUID。
uuid2(): 基于POSIX UID/GID（目前不常用）。类似于UUID1，但在某些方面使用不同的结构。
uuid3(namespace, name): 基于命名空间和名称的MD5哈希生成UUID。
uuid4(): 基于随机数。它生成一个完全随机的UUID。
uuid5(namespace, name): 基于命名空间和名称的SHA-1哈希生成UUID。

uuid模块的用例

唯一标识符：UUID常用于生成唯一标识符，用于数据库主键、事务标识符或其他需要确保唯一性的场景。
分布式系统：在分布式系统中，UUID可以用于唯一标识来自不同源的对象或数据。
标识资源：UUID可以用来标识和跟踪资源，如文件、用户会话或任务。

示例：

import uuid

# 生成UUID1
uuid1 = uuid.uuid1()
print(uuid1) # 例如: 6ba7b810-9dad-11d1-80b4-00c04fd430c8

# 生成基于名字的UUID3
namespace = uuid.NAMESPACE_DNS
name = 'example.com'
uuid3 = uuid.uuid3(namespace, name)
print(uuid3) # 例如: 6ba7b810-9dad-11d1-80b4-00c04fd430c8

# 生成UUID4
uuid4 = uuid.uuid4()
print(uuid4) # 例如: 2d53bfcf-8d6f-4a5d-94d1-78d0e1f9138f

# 生成基于名字的UUID5
namespace = uuid.NAMESPACE_DNS
name = 'example.com'
uuid5 = uuid.uuid5(namespace, name)
print(uuid5) # 例如: 6ba7b810-9dad-11d1-80b4-00c04fd430c8

uuid对象的属性和方法

生成的UUID对象具有以下属性和方法：

hex：返回UUID的十六进制表示（32个字符的字符串）。
bytes：返回UUID的原始字节表示（16字节的字节串）。
int：返回UUID的整数表示。
urn：返回UUID的URN（统一资源名称）表示。

示例：

import uuid

uuid1 = uuid.uuid1()
print(uuid1.hex) # 例如: 6ba7b8109dad11d180b400c04fd430c8
print(uuid1.bytes) # 例如: b'k\xa7\xb8\x10\x9d\xad\x11\xd1\x80\xb4\x00\xc0O\xd4'
print(uuid1.int) # 例如: 138449168640680145009304710479203306248
print(uuid1.urn) # 例如: urn:uuid:6ba7b810-9dad-11d1-80b4-00c04fd430c8

shortuuid

shortuuid是一个用于生成简短、唯一、URL安全的UUID字符串的Python库。它基于Python的标准uuid模块，但生成的UUID更短且更易于人类阅读和使用。

特性

简短的UUID：shortuuid生成的UUID比标准的UUID短，这使得它在需要短标识符的场景中非常有用。
URL安全：生成的UUID字符串是URL安全的，这意味着它们可以直接用于URL中而无需进行编码。
可定制的字母表：用户可以自定义用于生成UUID的字符集，以适应特定需求。
基于uuid模块：shortuuid是对标准uuid模块的一个封装，因此可以与标准UUID互操作。

安装

要使用shortuuid库，首先需要安装它。可以使用pip进行安装：pip install shortuuid基本用法

以下是shortuuid的基本用法示例：

import shortuuid

# 生成一个简短的UUID
short_id = shortuuid.uuid()
print(f"Short UUID: {short_id}")

自定义字母表

shortuuid允许用户自定义字母表，这样可以控制生成的UUID中使用的字符。

import shortuuid

# 使用自定义字母表
custom_alphabet = "0123456789abcdef"
shortuuid.set_alphabet(custom_alphabet)

# 生成一个UUID
short_id = shortuuid.uuid()
print(f"Custom Alphabet Short UUID: {short_id}")

解码标准UUID

shortuuid可以将标准的UUID编码为短UUID，并且可以将其解码回标准UUID。

import shortuuid
import uuid

# 使用标准UUID
standard_uuid = uuid.uuid4()

# 编码为短UUID
short_id = shortuuid.encode(standard_uuid)
print(f"Encoded Short UUID: {short_id}")

# 解码回标准UUID
decoded_uuid = shortuuid.decode(short_id)
print(f"Decoded UUID: {decoded_uuid}")

生成自定义长度的UUID

可以指定生成UUID的长度，尽管这可能会影响UUID的唯一性。

import shortuuid

# 生成指定长度的UUID
short_id = shortuuid.ShortUUID().random(length=10)
print(f"Custom Length Short UUID: {short_id}")

使用场景

URL标识符：由于生成的UUID是URL安全的，shortuuid特别适合用于生成URL标识符。
数据库主键：可以用于生成数据库表的主键，尤其是在需要短且唯一的标识符时。
文件名：生成短UUID用于文件命名，确保文件名的唯一性。

注意事项

唯一性与长度：尽管shortuuid生成的UUID较短，但缩短UUID会增加碰撞的可能性。在需要极高唯一性的场景中，应谨慎使用自定义长度。
字母表的安全性：自定义字母表时，确保其字符集的安全性和适用性，以避免潜在的安全问题。

shortuuid 是一个强大且灵活的工具，适合需要生成简短且唯一标识符的各种应用场景。通过自定义字母表和长度，它提供了对生成 UUID 的精细控制。

NanoID

NanoID 是一个用于生成简短、唯一且 URL 安全的标识符的库。它是 UUID 和 shortuuid 的轻量级替代品，提供了高性能和灵活性。NanoID 以其较短的长度和高效的生成速度而闻名，非常适合需要生成大量唯一 ID 的应用场景。

特性

短小：NanoID 生成的 ID 比传统的 UUID 短，默认长度为 21 个字符。
高性能：由于其轻量级的设计，NanoID 在性能上非常高效，适合高并发环境。
URL 安全：生成的 ID 是 URL 安全的，默认使用字母表包括大小写字母和数字。
高随机性：使用加密安全的随机生成器来确保 ID 的随机性和唯一性。
可定制性：用户可以自定义生成 ID 的字符集和长度，以满足特定需求。

安装

可以通过 pip 安装 NanoID：pip install nanoid基本用法

以下是 NanoID 的基本用法示例：

from nanoid import generate

# 生成一个默认长度的 NanoID
unique_id = generate()
print(f"Generated NanoID: {unique_id}")

# 生成一个自定义长度的 NanoID
custom_id = generate(size=10)
print(f"Generated Custom Length NanoID: {custom_id}")

自定义字母表

用户可以自定义用于生成 ID 的字母表，以适应特定的需求：

from nanoid import generate

# 使用自定义字母表生成 NanoID
custom_alphabet = 'abcdef123456'
unique_id = generate(custom_alphabet, 10)
print(f"Generated Custom Alphabet NanoID: {unique_id}")

性能与安全性

加密安全：NanoID 使用 Python 的 secrets 模块生成随机数，这提供了加密安全的随机性。
性能测试：NanoID 在性能上优于传统的 UUID 生成方法，尤其是在需要生成大量 ID 的场景中。

使用场景

URL 标识符：由于生成的 ID 是 URL 安全的，NanoID 非常适合用于生成 URL 标识符。
数据库主键：可以用于生成数据库表的主键，特别是在需要短且唯一的标识符时。
会话标识：适用于生成会话标识或令牌。

注意事项

唯一性：尽管 NanoID 生成的 ID 高度随机和唯一，但在极端高并发的环境中，建议适当增加 ID 的长度以减少碰撞的可能性。
字母表选择：使用自定义字母表时，确保字母表的字符集安全且适合应用场景。

总的来说，NanoID 是一个强大而灵活的工具，适合需要生成短小、唯一标识符的各种应用场景。通过自定义字母表和长度，它提供了对生成 ID 的精细控制，同时保持了高性能和安全性。

哈希函数

可以使用哈希函数（如 hash()、hashlib 模块）生成数据的唯一标识。注意，hash() 在不同的 Python 会话中可能会产生不同的结果，因此在需要持久化存储时应使用 hashlib。

示例：

import hashlib

def generate_hash_id(input_string):
    return hashlib.sha256(input_string.encode()).hexdigest()

hash_id = generate_hash_id("example")
print(f"Hash ID: {hash_id}")

hashids

hashids 是一个用于生成短而唯一的、非连续的 ID 字符串的 Python 库。它最初是为了在 URL 中隐藏数据库 ID 而设计的，因此非常适合需要将整数 ID 转换为更安全、用户友好的字符串的场景。以下是关于 hashids 包的详细介绍：

特性

非连续性：hashids 生成的字符串是非连续的，这意味着相邻的数字不会生成相似的字符串。这对于需要隐藏实际 ID 的应用程序非常有用。
可配置性：可以通过提供自定义的盐值（salt）、最小长度和自定义字符集来配置生成的字符串。
可逆性：hashids 生成的字符串是可逆的，意味着可以将字符串解码回原始的整数 ID。

安装

要使用 hashids 库，首先需要安装它。可以使用 pip 进行安装：pip install hashids基本用法

以下是 hashids 的基本用法示例：

from hashids import Hashids

# 初始化 Hashids 对象
hashids = Hashids(salt="this is my salt", min_length=8)

# 编码整数
encoded = hashids.encode(12345)
print(f"Encoded: {encoded}") # 例如输出："NkK9"

# 解码字符串
decoded = hashids.decode(encoded)
print(f"Decoded: {decoded}") # 输出：[12345]

参数

salt：用于生成哈希的盐值。使用不同的盐会产生不同的结果，因此确保使用一个唯一的盐以增加安全性。
min_length：生成字符串的最小长度。如果生成的字符串长度小于这个值，会用填充字符补足。
alphabet：用于生成字符串的字符集。默认是 “abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890″，可以根据需要进行自定义。

编码多个整数

hashids 可以同时编码多个整数，这在需要组合多个 ID 时非常有用。

from hashids import Hashids

hashids = Hashids(salt="this is my salt")

# 编码多个整数
encoded = hashids.encode(1, 2, 3)
print(f"Encoded: {encoded}") # 例如输出："eGtrS"

# 解码字符串
decoded = hashids.decode(encoded)
print(f"Decoded: {decoded}") # 输出：[1, 2, 3]

自定义字符集

可以通过设置 alphabet 参数来自定义字符集：

from hashids import Hashids

# 使用自定义字符集
hashids = Hashids(alphabet="abcdef1234567890")

encoded = hashids.encode(12345)
print(f"Encoded with custom alphabet: {encoded}")

注意事项

hashids 生成的字符串长度可能会大于设置的最小长度，具体取决于输入的整数和字符集。
在使用 hashids 时，确保盐值的安全性，以防止生成的 ID 被预测或反向工程。

hashids 库为需要生成用户友好的唯一标识符的应用程序提供了一个简单而强大的工具，尤其是在需要隐藏或混淆实际整数 ID 的情况下。Snowflake及其变种

Snowflake算法的基本原理

Snowflake算法生成的ID由以下几个部分组成：

时间戳：高位部分通常是以毫秒为单位的时间戳，这确保了ID的时间顺序。
数据中心ID：用于标识生成ID的逻辑数据中心。
机器ID：用于标识生成ID的机器。
序列号：在同一毫秒内生成多个ID时，使用序列号来确保唯一性。

这些部分组合在一起形成一个64位的整数，确保在分布式系统中生成的ID是唯一且有序的。

snowflake

一个轻量级的Python库，用于生成Twitter风格的Snowflake ID。安装：pip install snowflake

使用示例：

from snowflake import generator

# 初始化生成器，传入机器ID（0-1023）
snowflake_generator = generator.SnowflakeGenerator(1)

# 生成ID
unique_id = snowflake_generator.generate()
print(f"Generated Snowflake ID: {unique_id}")

pysnowflake

另一个用于生成Snowflake ID的库。安装：pip install pysnowflake

使用示例：

from pysnowflake.client import Client

# 初始化客户端，指定服务地址和端口
client = Client('localhost', 8910)

# 生成ID
unique_id = client.get_guid()
print(f"Generated Snowflake ID: {unique_id}")

snowflake-id

这是一个纯Python实现的Snowflake ID生成器，支持自定义epoch、数据中心ID和机器ID。安装：pip install snowflake-id

使用示例：

from snowflake_id import SnowflakeID

# 初始化生成器
snowflake = SnowflakeID(datacenter_id=1, worker_id=1)

# 生成ID
unique_id = snowflake.generate()
print(f"Generated Snowflake ID: {unique_id}")

sonyflake

Sonyflake是一种分布式唯一ID生成算法，由日本的索尼公司开发。它类似于Twitter的Snowflake算法，但进行了优化，以适应某些特定的使用场景。Sonyflake专注于在不需要数据中心ID的情况下生成更简单的唯一标识符。

Sonyflake的特性

时间排序：Sonyflake生成的ID是基于时间戳的，这使得它们在时间上是排序的。
64位唯一ID：Sonyflake生成的ID是64位的整数，通常比UUID更短。
高性能：设计用于高性能的分布式环境，可以在每毫秒生成多个唯一ID。
简单的结构：结构设计简单，易于理解和实现。

Sonyflake ID结构

Sonyflake的64位ID通常由以下几部分组成：

时间戳（39位）：表示自定义纪元（epoch）以来的毫秒数。默认纪元通常是固定的起始时间。
序列号（8位）：在同一毫秒内生成的多个ID通过序列号来区分。
机器ID（16位）：用于标识生成ID的机器，确保在不同机器上生成的ID不会冲突。

Python中的Sonyflake实现

虽然Sonyflake最初是为Go语言实现的，但也有一些Python库提供了Sonyflake的功能。以下是一个Python实现的示例：

import time
import random

class Sonyflake:
    def __init__(self, machine_id):
        self.machine_id = machine_id
        self.last_timestamp = -1
        self.sequence = 0

    def _current_time(self):
        return int(time.time() * 1000)

    def generate(self):
        timestamp = self._current_time()

        if timestamp == self.last_timestamp:
            self.sequence = (self.sequence + 1) & 0xFF
            if self.sequence == 0:
                while timestamp<= self.last_timestamp:
                    timestamp = self._current_time()
        else:
            self.sequence = 0

        self.last_timestamp = timestamp

        id = ((timestamp<< 24) | (self.machine_id<< 8) | self.sequence)
        return id

# 使用示例
sonyflake = Sonyflake(machine_id=random.randint(0, 65535))
unique_id = sonyflake.generate()
print(f"Generated Sonyflake ID: {unique_id}")

使用场景

分布式系统：在需要生成全局唯一ID的分布式系统中非常有用。
高并发环境：在需要快速生成大量ID的高并发环境中，Sonyflake的性能优势明显。
简化的设置：与Snowflake不同，Sonyflake不需要配置数据中心ID，这使得其设置更加简单。

注意事项

时间依赖：Sonyflake依赖于系统时间，因此需要确保所有参与生成ID的机器的时间同步。
机器ID：需要确保每台机器的机器ID是唯一的，以避免生成重复的ID。

总的来说，Sonyflake是一种简单而高效的分布式ID生成方案，适用于需要高性能和高可用性的系统环境。

Python生成唯一标识符

自定义唯一标识符

ULID

FUID

UUID及其变种

UUID模块

shortuuid

NanoID

哈希函数

hashids

snowflake

pysnowflake

snowflake-id

sonyflake

正例-无标记学习PU Learning

相似人群扩展Lookalike技术

产品经理需要掌握的核心技能

发表回复取消回复

Python生成唯一标识符

自定义唯一标识符

ULID

FUID

UUID及其变种

UUID模块

shortuuid

NanoID

哈希函数

hashids

snowflake

pysnowflake

snowflake-id

sonyflake

正例-无标记学习PU Learning

相似人群扩展Lookalike技术

产品经理需要掌握的核心技能

发表回复 取消回复

发表回复取消回复