Python虚假数据生成工具Faker

文章内容如有错误或排版问题，请提交反馈，非常感谢！

在软件需求、开发、测试过程中，有时候需要使用一些测试数据，针对这种情况，我们一般要么使用已有的系统数据，要么需要手动制造一些数据。在手动制造数据的过程中，可能需要花费大量精力和工作量，而使用Faker生成虚拟数据可以为我们减少这部分的工作量。

Faker简介

Faker是Python中一个开源的假数据生成包，可以用于生成各种类型的假数据，如人名、地址、电话号码、电子邮件地址、随机文本等等。Faker模块生成的假数据看起来非常真实，可以用于各种测试、演示和样例数据等场景。

使用Faker包生成假数据非常简单。只需安装Faker包并导入Faker模块，就可以开始生成各种类型的假数据。以下是一个使用Faker包生成假数据的简单示例：

from faker import Faker

fake = Faker()

print(fake.name())
print(fake.address())
print(fake.phone_number())
print(fake.email())

# 输出：
# Kelly Kemp
# 1466 Prince Lane
# Dickersonbury, LA 50800
# 4965430839
# qherman@example.org

在上面的示例中，我们导入了Faker模块，并创建了一个Faker对象。然后我们使用name()方法、address()方法、phone_number()方法和email()方法生成不同类型的假数据，并打印输出。

除了这些常见的方法之外，Faker还提供了许多其他方法来生成不同类型的假数据。Faker还支持多种语言，可以生成不同语言的假数据。

Faker的国际化支持

创建Faker对象是输入不同地区的国际化代码，可根据指定区域生成特定的伪数据，例如en_US代表美国地区，zh_CN代表中国大陆地区。以下是国际化区域代码：

ar_EG - Arabic（埃及)
ar_PS - Arabic（巴勒斯坦)
ar_SA - Arabic（沙特阿拉伯)
bg_BG - Bulgarian（保加利亚）
bs_BA - Bosnian（波黑）
cs_CZ - Czech（捷克）
de_DE - German（德国）
dk_DK - Danish（丹麦）
el_GR - Greek（希腊）
en_AU - English（澳大利亚)
en_CA - English（加拿大)
en_GB - English（大不列颠)
en_NZ - English（新西兰)
en_US - English（美国)
es_ES - Spanish（西班牙)
es_MX - Spanish（墨西哥)
et_EE - Estonian（爱沙尼亚）
fa_IR - Persian（伊朗)
fi_FI - Finnish（芬兰）
fr_FR - French（法国）
hi_IN - Hindi（印度）
hr_HR - Croatian（克罗地亚）
hu_HU - Hungarian（匈牙利）
hy_AM - Armenian（亚美尼亚）
it_IT - Italian（意大利）
ja_JP - Japanese（日本）
ka_GE - Georgian（格鲁吉亚)
ko_KR - Korean（韩国）
lt_LT - Lithuanian（立陶宛）
lv_LV - Latvian（拉脱维亚）
ne_NP - Nepali（尼泊尔）
nl_NL - Dutch（荷兰)
no_NO - Norwegian（挪威）
pl_PL - Polish（波兰）
pt_BR - Portuguese（巴西)
pt_PT - Portuguese（葡萄牙)
ro_RO - Romanian（罗马尼亚）
ru_RU - Russian（俄罗斯）
sl_SI - Slovene（斯洛文尼亚）
sv_SE - Swedish（瑞典）
tr_TR - Turkish（土耳其）
uk_UA - Ukrainian（乌克兰）
zh_CN - Chinese（中国大陆-简体字)
zh_TW - Chinese（中国台湾-繁体字)

使用示例：

from faker import Faker

fake = Faker(locale='zh_CN')

print(fake.name())
print(fake.address())
print(fake.phone_number())
print(fake.email())

# 输出：
# 孙玉珍
# 西藏自治区齐齐哈尔县合川闻街W座 928940
# 13130781068
# yinna@example.com

Faker常用方法

除了上述介绍的fake.name和fake.address生成姓名和地址两个方法外，常用的faker函数按类别划分有如下一些常用方法。

地理信息类

city_suffix()：市，县
country()：国家
country_code()：国家编码
district()：区
geo_coordinate()：地理坐标
latitude()：地理坐标(纬度)
longitude()：地理坐标(经度)
postcode()：邮编
province()：省份
address()：详细地址
street_address()：街道地址
street_name()：街道名
street_suffix()：街、路

基础信息类

ssn()：生成身份证号
bs()：随机公司服务名
company()：随机公司名（长）
company_prefix()：随机公司名（短）
company_suffix()：公司性质
credit_card_expire()：随机信用卡到期日
credit_card_full()：生成完整信用卡信息
credit_card_number()：信用卡号
credit_card_provider()：信用卡类型
credit_card_security_code()：信用卡安全码
job()：随机职位
first_name_female()：女性名
first_name_male()：男性名
last_name_female()：女姓
last_name_male()：男姓
name()：随机生成全名
name_female()：男性全名
name_male()：女性全名
phone_number()：随机生成手机号
phonenumber_prefix()：随机生成手机号段

计算机基础、Internet信息类

ascii_company_email()：随机ASCII公司邮箱名
ascii_email()：随机ASCII邮箱：
company_email()：
email()：
safe_email()：安全邮箱

网络基础信息类

domain_name()：生成域名
domain_word()：域词(即，不包含后缀)
ipv4()：随机IP4地址
ipv6()：随机IP6地址
mac_address()：随机MAC地址
tld()：网址域名后缀(.com,.net.cn,等等，不包括.)
uri()：随机URI地址

uri_extension()：网址文件后缀

uri_page()：网址文件（不包含后缀）
uri_path()：网址文件路径（不包含文件名）
url()：随机URL地址
user_name()：随机用户名
image_url()：随机URL地

浏览器信息类

chrome()：随机生成Chrome的浏览器user_agent信息
firefox()：随机生成FireFox的浏览器user_agent信息
internet_explorer()：随机生成IE的浏览器user_agent信息
opera()：随机生成Opera的浏览器user_agent信息
safari()：随机生成Safari的浏览器user_agent信息
linux_platform_token()：随机Linux信息
user_agent()：随机user_agent信息

数字类

numerify()：三位随机数字
random_digit()：0~9随机数
random_digit_not_null()：1~9的随机数
random_int()：随机数字，默认0~9999，可以通过设置min,max来设置
random_number()：随机数字，参数digits设置生成的数字位数
pyfloat()：left_digits=5 #生成5的整数位数, right_digits=2 #生成2的小数位数, positive=True #是否只有正数
pyint()：随机Int数字（参考random_int()参数）
pydecimal()：随机Decimal数字（参考pyfloat参数）

文本、加密类

pystr()：随机字符串
random_element()：随机字母
random_letter()：随机字母
paragraph()：随机生成一个段落
paragraphs()：随机生成多个段落
sentence()：随机生成一句话
sentences()：随机生成多句话，与段落类似
text()：随机生成一篇文章
word()：随机生成词语
words()：随机生成多个词语，用法与段落，句子，类似
binary()：随机生成二进制编码
boolean()：True/False
language_code()：随机生成两位语言编码
locale()：随机生成语言/国际信息
md5()：随机生成MD5
null_boolean()：NULL/True/False
password()：随机生成密码,可选参数：length：密码长度；special_chars：是否能使用特殊字符；digits：是否包含数字；upper_case：是否包含大写字母；lower_case：是否包含小写字母
sha1()：随机SHA1
sha256()：随机SHA256
uuid4()：随机UUID

时间信息类

date()：随机日期
date_between()：随机生成指定范围内日期，参数：start_date，end_date
date_between_dates()：随机生成指定范围内日期，用法同上
date_object()：随机生产从1970-1-1到指定日期的随机日期。
date_time()：随机生成指定时间（1970年1月1日至今）
date_time_ad()：生成公元1年到现在的随机时间
date_time_between()：用法同dates
future_date()：未来日期
future_datetime()：未来时间
month()：随机月份
month_name()：随机月份（英文）
past_date()：随机生成已经过去的日期
past_datetime()：随机生成已经过去的时间
time()：随机24小时时间
timedelta()：随机获取时间差
time_object()：随机24小时时间，time对象
time_series()：随机TimeSeries对象
timezone()：随机时区
unix_time()：随机Unix时间
year()：随机年份

Python相关方法

profile()：随机生成档案信息
simple_profile()：随机生成简单档案信息
pyiterable()：迭代器
pylist()：列表
pyset()：集合
pystruct()：结构体
pytuple()：元组
pydict()：字典
pybool()：布尔类型
pydecimal()：数字
pyint()：整型
pystr()：字符串

Faker实战

```python
import psycopg2
from faker import Faker
from datetime import datetime, timedelta
import random

# 创建Faker实例
fake = Faker()

# 连接PostgreSQL数据库
conn = psycopg2.connect(
    host="localhost",
    database="testdb",
    user="postgres",
    password="postgres"
)
cur = conn.cursor()

# 创建表
cur.execute('''
CREATE TABLE IF NOT EXISTS testdb.trans_log(
    account_no VARCHAR(19),
    trans_account VARCHAR(19),
    trans_date VARCHAR(8)
)
''')
conn.commit()

# 生成数据并插入
start_date = datetime(2024, 6, 1)
end_date = datetime(2024, 10, 18)

def random_date(start, end):
    """生成随机日期字符串，格式为YYYYMMDD"""
    delta = end - start
    random_days = random.randint(0, delta.days)
    random_date = start + timedelta(days=random_days)
    return random_date.strftime('%Y%m%d')

batch_size = 10000
for _ in range(100):  # 100万条记录，分批插入
    data = [
        (
            fake.credit_card_number(),
            fake.credit_card_number(),
            random_date(start_date, end_date)
        )
        for _ in range(batch_size)
    ]
    cur.executemany('''
    INSERT INTO testdb.trans_log(account_no, trans_account, trans_date)
    VALUES (%s, %s, %s)
    ''', data)
    conn.commit()
    print(f"Inserted {_ * batch_size + batch_size} records")

# 关闭连接
cur.close()
conn.close()

其他包推荐：

参考链接：

“`

Python虚假数据生成工具Faker

Faker简介

Faker的国际化支持

Faker常用方法

Faker实战

Node.Js 版本管理工具nvm-windows

Win 11安装部署OpenClaw教程

移动端自动化测试工具Appium

发表回复取消回复

Python虚假数据生成工具Faker

Faker简介

Faker的国际化支持

Faker常用方法

Faker实战

Node.Js 版本管理工具nvm-windows

Win 11安装部署OpenClaw教程

移动端自动化测试工具Appium

发表回复 取消回复

发表回复取消回复