导入本地文件

openclaw openclaw官方 2026-04-09 1

我来介绍几种使用 openclaw 库进行文件导入的方法：

导入本地文件-第1张图片-OpenClaw开源下载|官方OpenClaw下载

基本安装和使用

首先安装 openclaw 库：

pip install openclaw

导入不同类型的文件

文本文件导入

import openclaw
claw = openclaw.Claw()
# 从本地文件导入
doc = claw.from_file("document.txt")
# 或者
doc = claw.from_file("document.pdf")
doc = claw.from_file("document.docx")

导入

# 从URL导入
doc = claw.from_url("https://example.com/document")

直接文本导入

# 从字符串直接导入
doc = claw.from_text("这是要处理的文本内容...")

批量文件导入

from openclaw import Claw
claw = Claw()
# 批量导入多个文件
documents = []
file_paths = ["doc1.txt", "doc2.pdf", "doc3.docx"]
for file_path in file_paths:
    doc = claw.from_file(file_path)
    documents.append(doc)
# 或者使用列表推导式
documents = [claw.from_file(fp) for fp in file_paths]

处理不同类型的内容

openclaw 可以处理多种格式：

claw = Claw()
# 自动检测文件类型
doc = claw.from_file("document.pdf")  # PDF文件
doc = claw.from_file("document.docx")  # Word文档
doc = claw.from_file("data.json")     # JSON文件
doc = claw.from_file("data.csv")      # CSV文件

带配置的导入

from openclaw import Claw
claw = Claw(
    model="gpt-4",  # 指定模型
    temperature=0.7,
    max_tokens=2000
)
# 导入文件并进行处理
doc = claw.from_file(
    "document.txt",
    chunk_size=500,  # 设置分块大小
    overlap=50       # 设置块重叠
)
# 获取处理后的内容
content = doc.get_content()
metadata = doc.get_metadata()

实际应用示例

from openclaw import Claw
def process_documents(folder_path):
    """处理文件夹中的所有文档"""
    import os
    import glob
    claw = Claw()
    processed_docs = []
    # 获取所有支持的文件
    extensions = ['*.txt', '*.pdf', '*.docx', '*.md']
    files = []
    for ext in extensions:
        files.extend(glob.glob(os.path.join(folder_path, ext)))
    # 处理每个文件
    for file_path in files:
        try:
            print(f"处理文件: {file_path}")
            doc = claw.from_file(file_path)
            processed_docs.append({
                'file': file_path,
                'content': doc.get_content(),
                'metadata': doc.get_metadata()
            })
        except Exception as e:
            print(f"处理失败 {file_path}: {e}")
    return processed_docs
# 使用示例
docs = process_documents("./documents")

高级特性

from openclaw import Claw
claw = Claw()
# 带自定义处理器的导入
doc = claw.from_file(
    "document.txt",
    preprocess_func=lambda text: text.strip(),  # 预处理函数
    postprocess_func=lambda chunks: [c for c in chunks if len(c) > 10]  # 后处理函数
)
# 导入并立即执行查询
doc = claw.from_file("report.pdf")
answer = doc.query("总结这份报告的主要内容是什么？")
print(answer)