back to the source - 原点回帰😎

自然言語処理 初心者

終わらない小道具1

小道具作りが終わらない(´・ω・`) あと, データの入力フォーマット考えてそれに整形してあげるのだけれどどういう風にすれば良いかわからなくて悩んでる..

最近の語にも対応してくれているのでこれを使用した
github.com

def split_word(text,NE=False):
    import MeCab
    setting = '-Owakati -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd' if NE else '-Owakati'
    tagger = MeCab.Tagger(setting)

    return tagger.parse(text)
split_word("涼宮ハルヒの憂鬱と魔法少女リリカルなのはは名作である",True)
#'涼宮ハルヒの憂鬱 と 魔法少女リリカルなのは は 名作 で ある \n'

まだまだ小道具作りは続く… URL,非テキスト, 謎のUnicode文字,対象言語以外 他…データクリーニングしないと(´・ω・`)

qiita.com