导读 在深度学习中,处理文本数据时常常需要将序列(如句子中的单词索引)统一长度,这时 `pad_sequences` 就派上了用场!它可以帮助我们将不
在深度学习中,处理文本数据时常常需要将序列(如句子中的单词索引)统一长度,这时 `pad_sequences` 就派上了用场!它可以帮助我们将不同长度的序列填充或截断到相同长度,从而方便模型输入。👀
例如,假设我们有以下两个句子的单词索引列表:
`[[1, 2, 3], [4, 5]]`
默认情况下,`pad_sequences` 会将它们都填充到最长序列的长度(即3),并默认在前面补零:
`[[0, 1, 2, 3], [0, 0, 4, 5]]`
你可以通过参数调整填充方式,比如选择在后面补零,或者自定义填充值:
```python
from tensorflow.keras.preprocessing.sequence import pad_sequences
sequences = [[1, 2, 3], [4, 5]]
padded = pad_sequences(sequences, padding='post', truncating='post', maxlen=4, value=-1)
print(padded) 输出: [[-1, 1, 2, 3], [4, 5, -1, -1]]
```
简单又实用!✨无论是自然语言处理还是时间序列任务,`pad_sequences` 都是必备工具之一。快试试吧!🚀