Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Bug] 千歳市に挟まれた日付表現で正しいraw_textraw_spanが得られない #95

Open
nayopu opened this issue Feb 1, 2024 · 0 comments
Labels
bug Something isn't working

Comments

@nayopu
Copy link

nayopu commented Feb 1, 2024

🐛 Bug

説明

"千歳市...4月...千歳市" のような文字列をパースをして得られるtimexが持つraw_textが空文字列となり、raw_spanの開始インデックスが終了インデックスより大きくなる。

現状挙動

下記コードを実行すると

timexes = TimexParser().parse('千歳市では4月、千歳市の')
print(f'raw_span={timexes[0].raw_span}, raw_text={timexes[0].raw_text}, raw_span={timexes[0].text}, raw_text={timexes[0].span}')

次の出力が得られるが、

raw_span=(5, 4), raw_text=, raw_span=4月, raw_text=(8, 10)

raw_textが空文字, raw_span[0] > raw_span[1]となる。

理想の挙動

同入力の出力が以下の通りであり、

raw_span=(5, 7), raw_text=4月, raw_span=4月, raw_text=(8, 10)

raw_textが日付表現、 raw_span[0] < raw_span[1]となるべき。

再現方法やエラー内容

timexes = TimexParser().parse('千歳市では4月、千歳市の')
print(timexes[0].raw_span, timexes[0].raw_text)

実行環境

  • ja-timexのバージョン : 0.2.8
  • Pythonのバージョン : 3.8.10
  • OSの情報: Ubuntu 18.04

追加/補足情報

「千歳市が日付表現の前にのみ登場する」or「日付表現の後にのみ出現する」場合は上記挙動は見られない。

千歳市に挟まれる必要があるようです。

timexes = TimexParser().parse('千歳市では4月')
print(f'raw_span={timexes[0].raw_span}, raw_text={timexes[0].raw_text}, raw_span={timexes[0].text}, raw_text={timexes[0].span}')
# raw_span=(5, 7), raw_text=4月, raw_span=4月, raw_text=(8, 10)
timexes = TimexParser().parse('4月、千歳市の')
print(f'raw_span={timexes[0].raw_span}, raw_text={timexes[0].raw_text}, raw_span={timexes[0].text}, raw_text={timexes[0].span}')
# raw_span=(0, 2), raw_text=4月, raw_span=4月, raw_text=(0, 2)
@nayopu nayopu added the bug Something isn't working label Feb 1, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

1 participant