关于qwen_vl_utils中fetch_video和fetch_image函数实现可能出现错误的疑问

在vision_process.py的第405行，fetch_video函数的开头，会计算单个block的宽度 image_factor = image_patch_size * SPATIAL_MERGE_SIZE

随后在425-426行，处理视频中的每一帧时，会将image_factor传入fetch_image函数中，
```
executor.submit(fetch_image, {"image": video_element, **process_info}, image_factor)
for video_element in ele["video"]
```
但是在第100行，fetch_image函数中，会再次方法image_factor
```
image_obj = None
patch_factor = int(image_patch_size * SPATIAL_MERGE_SIZE)
if isinstance(image, Image.Image):
image_obj = image
```
倘若，image_patch_size=14，SPATIAL_MERGE_SIZE=2， 则fetch_video会按照patch_factor=14*2*2=56来进行resize，这样是不是有问题呀？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

关于qwen_vl_utils中fetch_video和fetch_image函数实现可能出现错误的疑问 #1815

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

关于qwen_vl_utils中fetch_video和fetch_image函数实现可能出现错误的疑问 #1815

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions