跳到主要内容

AssemblyAI

AssemblyAI组件允许您在应用程序中使用强大的语音AI模型来完成以下任务:

  • 转录音频和视频文件
  • 格式化转录文本
  • 生成字幕
  • 将LLMs应用于音频文件

更多关于AssemblyAI的信息:

前提条件

您需要一个AssemblyAI API密钥。创建免费账户后,您可以在仪表板中找到API密钥。在此获取免费API密钥

在所有需要密钥的组件中,请在AssemblyAI API Key字段中输入密钥。

(可选):要使用LeMUR,您需要升级您的AssemblyAI账户,因为这不包含在免费账户中。

组件

AssemblyAI组件

AssemblyAI开始转录

此组件允许您提交音频或视频文件进行转录。

提示:您可以冻结此组件的路径,以仅提交一次文件。

  • 输入

    • AssemblyAI API Key:您的API密钥。
    • Audio File:要转录的音频或视频文件。
    • Speech Model(可选):选择模型类别。默认为Best。更多信息请参见语音模型
    • Automatic Language Detection(可选):启用自动语言检测。
    • Language(可选):音频文件的语言。如果禁用自动语言检测,可以手动设置。 有关支持的语言代码列表,请参见支持的语言
    • Enable Speaker Labels(可选):检测音频文件中的说话者及其说话内容。
    • Expected Number of Speakers(可选):如果启用了说话者标签,设置预期的说话者数量。
    • Audio File URL(可选):音频或视频文件的URL。可以代替Audio File使用。
    • Punctuate(可选):应用标点符号。默认为true。
    • Format Text(可选):应用大小写和文本格式化。默认为true。
  • 输出

    • Transcript ID:转录的ID

AssemblyAI轮询转录

此组件允许您轮询转录。它每隔几秒钟检查一次转录状态,直到转录完成。

  • 输入

    • AssemblyAI API Key:您的API密钥。
    • Polling Interval(可选):轮询间隔(秒)。默认为3。
  • 输出

    • Transcription Result:已完成转录的AssemblyAI JSON响应。包含文本和其他信息。

AssemblyAI获取字幕

此组件允许您以SRT或VTT格式生成字幕。

  • 输入

    • AssemblyAI API Key:您的API密钥。
    • Transcription Result:Poll Transcript组件的输出。
    • Subtitle Format:字幕格式(SRT或VTT)。
    • Character per Caption(可选):每个字幕的最大字符数(0表示无限制)。
  • 输出

    • Subtitles:包含SRT或VTT格式字幕的JSON响应。

AssemblyAI LeMUR

此组件允许您使用AssemblyAI LeMUR框架将大型语言模型应用于语音数据。

LeMUR自动将转录作为额外上下文摄入,使得将LLMs应用于音频数据变得容易。您可以使用它来执行音频摘要、提取见解或提问等任务。

  • 输入

    • AssemblyAI API Key:您的API密钥。
    • Transcription Result:Poll Transcript组件的输出。
    • Input Prompt:提示模型的文本。您可以在此字段中输入提示或将其连接到Prompt组件。
    • Final Model:在执行压缩后用于最终提示的模型。默认为Claude 3.5 Sonnet。
    • Temperature(可选):用于模型的温度值。默认为0.0。
    • Max Output Size(可选):最大输出大小(令牌),最多4000。默认为2000。
    • Endpoint(可选):要使用的LeMUR端点。默认为"task"。对于"summary"和"question-answer",不需要提示输入。更多信息请参见LeMUR API文档
    • Questions(可选):您的问题的逗号分隔列表。仅当Endpoint为"question-answer"时使用。
    • Transcript IDs(可选):转录ID的逗号分隔列表。LeMUR可以对多个转录执行操作。如果提供,则忽略Transcription Result
  • 输出

    • LeMUR Response:生成的LLM响应。

AssemblyAI列出转录

此组件可以作为独立组件使用,用于列出所有先前生成的转录。

  • 输入

    • AssemblyAI API Key:您的API密钥。
    • Limit(可选):要检索的最大转录数。默认为20,使用0表示全部。
    • Filter(可选):按转录状态过滤。
    • Created On(可选):仅获取在此日期创建的转录(YYYY-MM-DD)。
    • Throttled Only(可选):仅获取被限制的转录,覆盖状态过滤器。
  • 输出

    • Transcript List:包含所有转录信息的列表,如转录ID、状态和数据。

流程过程

  1. 用户输入音频或视频文件。
  2. 用户还可以输入LLM提示。在此示例中,我们想要生成转录的摘要。
  3. 流程提交音频文件进行转录。
  4. 流程每隔几秒钟检查一次转录状态,直到转录完成。
  5. 流程解析转录结果并输出转录文本。
  6. 流程还生成字幕。
  7. 流程应用LLM提示来生成摘要。
  8. 作为独立组件,可以列出所有转录。

运行转录和语音AI流程

要运行转录和语音AI流程:

  1. 打开NebulaAIFlow并创建新项目。
  2. 将上述组件添加到您的流程画布,或下载AssemblyAI转录和语音AI流程(下载链接)并将JSON文件导入到NebulaAIFlow中。
  3. 按照流程图所示连接组件。提示:冻结Start Transcript组件的路径,以仅提交一次文件。
  4. 在所有需要密钥的组件(Start Transcript、Poll Transcript、Get Subtitles、LeMUR、List Transcripts)中输入AssemblyAI API密钥。
  5. Start Transcript组件中选择音频或视频文件。
  6. 通过点击Parse Data组件上的Play运行流程。确保指定的模板为{text}
  7. 要生成字幕,点击Get Subtitles组件上的Play
  8. 要将LLM应用于您的音频文件,点击LeMUR组件上的Play。请注意,您需要升级的AssemblyAI账户才能使用LeMUR。
  9. 要列出所有转录,点击List Transcript组件上的Play

自定义

可以通过以下方式自定义流程:

  1. 修改Start Transcript组件中的参数。
  2. 修改Get Subtitles组件中的字幕格式。
  3. 修改LeMUR组件的LLM提示输入。
  4. 修改LeMUR组件中的LLM参数(如温度)。

故障排除

如果遇到问题:

  1. 确保在所有需要密钥的组件中正确设置了API密钥。
  2. 要使用LeMUR,您需要升级您的AssemblyAI账户,因为这不包含在免费账户中。
  3. 验证流程中的所有组件是否正确连接。
  4. 查看NebulaAIFlow日志中的任何错误消息。

有关更高级的用法,请参阅AssemblyAI API文档。如果您需要更多帮助,可以联系AssemblyAI支持