On this page

Python 文件I/O

Python 文件I/O 全面指南

文件输入输出(I/O)是Python编程中与文件系统交互的基础操作。以下是Python文件处理的详细说明:

1. 文件操作基础

打开文件

# 基本语法
file = open('filename', 'mode', encoding='utf-8')

文件打开模式

模式描述
'r'只读(默认)
'w'写入(会覆盖现有文件)
'a'追加(在文件末尾写入)
'x'创建新文件(如果已存在则失败)
'b'二进制模式(与上述模式结合使用)
't'文本模式(默认)
'+'读写模式(与上述模式结合使用)

2. 文件读写操作

读取文件内容

# 读取整个文件
with open('example.txt', 'r', encoding='utf-8') as file:
    content = file.read()
    print(content)

# 逐行读取
with open('example.txt', 'r', encoding='utf-8') as file:
    for line in file:
        print(line.strip())  # strip()去除换行符

# 读取所有行到列表
with open('example.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()
    print(lines)  # 每行作为列表元素

写入文件内容

# 写入文件(覆盖)
with open('output.txt', 'w', encoding='utf-8') as file:
    file.write("第一行内容\n")
    file.write("第二行内容\n")

# 追加内容
with open('output.txt', 'a', encoding='utf-8') as file:
    file.write("追加的内容\n")

# 写入多行
lines = ["第一行\n", "第二行\n", "第三行\n"]
with open('output.txt', 'w', encoding='utf-8') as file:
    file.writelines(lines)

3. 上下文管理器(with语句)

使用with语句可以自动管理文件资源,确保文件正确关闭:

with open('file.txt', 'r') as file:
    data = file.read()
# 文件在这里自动关闭

4. 二进制文件操作

读写二进制文件

# 读取二进制文件(如图片)
with open('image.jpg', 'rb') as file:
    binary_data = file.read()

# 写入二进制文件
with open('copy.jpg', 'wb') as file:
    file.write(binary_data)

5. 文件指针操作

文件定位

with open('example.txt', 'r+') as file:
    # 获取当前位置
    position = file.tell()
    print(f"当前位置: {position}")
    
    # 读取前5个字符
    print(file.read(5))
    
    # 移动到文件开头
    file.seek(0)
    
    # 移动到第10个字节
    file.seek(10)
    
    # 从文件末尾向前移动5个字节
    file.seek(-5, 2)

6. 文件与目录操作(os和os.path模块)

检查文件/目录

import os

print(os.path.exists('file.txt'))  # 检查路径是否存在
print(os.path.isfile('file.txt'))  # 是否是文件
print(os.path.isdir('folder'))     # 是否是目录
print(os.path.getsize('file.txt')) # 文件大小(字节)

目录操作

# 列出目录内容
print(os.listdir('.'))  # 当前目录内容

# 创建目录
os.mkdir('new_dir')
os.makedirs('path/to/new/dir')  # 创建多级目录

# 删除文件或目录
os.remove('file.txt')      # 删除文件
os.rmdir('empty_dir')      # 删除空目录
os.removedirs('a/b/c')     # 递归删除空目录

路径操作

import os.path

# 路径拼接
full_path = os.path.join('folder', 'subfolder', 'file.txt')

# 获取绝对路径
abs_path = os.path.abspath('file.txt')

# 获取文件名和扩展名
filename = os.path.basename('/path/to/file.txt')  # 'file.txt'
dirname = os.path.dirname('/path/to/file.txt')    # '/path/to'
name, ext = os.path.splitext('file.txt')         # ('file', '.txt')

7. 高级文件操作

临时文件

import tempfile

# 创建临时文件
with tempfile.NamedTemporaryFile(delete=False) as tmp:
    print(f"临时文件路径: {tmp.name}")
    tmp.write(b"临时内容")

# 创建临时目录
with tempfile.TemporaryDirectory() as tmpdir:
    print(f"临时目录路径: {tmpdir}")

文件压缩

import zipfile

# 创建ZIP文件
with zipfile.ZipFile('archive.zip', 'w') as zipf:
    zipf.write('file1.txt')
    zipf.write('file2.txt')

# 解压ZIP文件
with zipfile.ZipFile('archive.zip', 'r') as zipf:
    zipf.extractall('extracted_files')

CSV文件处理

import csv

# 写入CSV文件
with open('data.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['Name', 'Age', 'City'])
    writer.writerow(['Alice', 25, 'New York'])
    writer.writerow(['Bob', 30, 'London'])

# 读取CSV文件
with open('data.csv', 'r') as csvfile:
    reader = csv.reader(csvfile)
    for row in reader:
        print(row)

8. 文件编码处理

处理不同编码的文件

# 尝试自动检测编码(需要chardet库)
try:
    import chardet
    with open('unknown.txt', 'rb') as f:
        result = chardet.detect(f.read())
        encoding = result['encoding']
    
    with open('unknown.txt', 'r', encoding=encoding) as f:
        content = f.read()
except ImportError:
    print("chardet库未安装,使用默认编码")
    # 尝试常见编码
    encodings = ['utf-8', 'gbk', 'latin-1']
    for enc in encodings:
        try:
            with open('unknown.txt', 'r', encoding=enc) as f:
                content = f.read()
            break
        except UnicodeDecodeError:
            continue

9. 内存文件操作(StringIO/BytesIO)

from io import StringIO, BytesIO

# 内存文本文件
text_stream = StringIO()
text_stream.write("Hello ")
text_stream.write("World!")
print(text_stream.getvalue())  # "Hello World!"

# 内存二进制文件
bytes_stream = BytesIO()
bytes_stream.write(b'binary data')
print(bytes_stream.getvalue())  # b'binary data'

10. 实际应用示例

日志文件处理

def log_message(message, logfile='app.log'):
    from datetime import datetime
    timestamp = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
    with open(logfile, 'a') as f:
        f.write(f"[{timestamp}] {message}\n")

log_message("程序启动")
log_message("发生了一个事件")

配置文件读取

def read_config(config_file='config.ini'):
    config = {}
    with open(config_file, 'r') as f:
        for line in f:
            if '=' in line and not line.startswith('#'):
                key, value = line.strip().split('=', 1)
                config[key] = value
    return config

config = read_config()
print(config)

大文件处理

def process_large_file(input_file, output_file, chunk_size=1024*1024):
    """处理大文件,分块读取"""
    with open(input_file, 'rb') as fin, open(output_file, 'wb') as fout:
        while True:
            chunk = fin.read(chunk_size)
            if not chunk:
                break
            # 处理chunk(这里只是简单写入)
            fout.write(chunk)

11. 最佳实践与常见错误

最佳实践

  1. 总是使用with语句:确保文件正确关闭
  2. 明确指定编码:特别是处理文本文件时
  3. 处理文件路径使用os.path:保证跨平台兼容性
  4. 检查文件是否存在:在读取前检查os.path.exists()
  5. 处理大文件时分块读取:避免内存不足

常见错误

  1. 忘记关闭文件

    # 错误
    file = open('file.txt')
    content = file.read()
    # 忘记file.close()
       
    # 正确
    with open('file.txt') as file:
        content = file.read()
    
  2. 文件不存在未处理

    # 错误
    with open('nonexistent.txt') as f:
        content = f.read()
       
    # 正确
    import os
    if os.path.exists('nonexistent.txt'):
        with open('nonexistent.txt') as f:
            content = f.read()
    else:
        print("文件不存在")
    
  3. 编码问题

    # 错误(可能抛出UnicodeDecodeError)
    with open('file.txt') as f:
        content = f.read()
       
    # 正确
    try:
        with open('file.txt', encoding='utf-8') as f:
            content = f.read()
    except UnicodeDecodeError:
        # 尝试其他编码
        pass
    

12. 第三方库推荐

  1. pathlib:面向对象的路径操作(Python 3.4+)

    from pathlib import Path
       
    # 读取文件
    content = Path('file.txt').read_text(encoding='utf-8')
       
    # 写入文件
    Path('output.txt').write_text('Hello', encoding='utf-8')
    
  2. shutil:高级文件操作

    import shutil
       
    shutil.copy('src.txt', 'dst.txt')  # 复制文件
    shutil.move('src.txt', 'newdir/')  # 移动文件
    shutil.rmtree('directory')         # 递归删除目录
    
  3. glob:文件模式匹配

    import glob
       
    # 查找所有.txt文件
    for file in glob.glob('*.txt'):
        print(file)
    

总结

Python文件I/O操作提供了丰富的功能:

操作类型主要方法/模块
基本文件操作open(), with语句
目录操作os, os.path
路径处理os.path, pathlib
特殊文件格式csv, zipfile
高级操作tempfile, shutil

掌握这些文件操作技术,能够高效地处理各种文件读写需求,从简单的文本文件到复杂的目录结构和特殊文件格式。