in Programowanie

Jak za pomocą DocxToText pobrać tekst z pliku DOCX

Programista, który potrzebuje indeksować i przeszukiwać dokumenty Microsoft Word *.docx a nie ma zainstalowanego Microsoft Office 2007 ma mały problem. Może go rozwiązać na trzy sposoby:

  • zainstalować MS Office 2007 i użyć jego bibliotek DLL,
  • użyć bibliotek innych dostawców, na przykład „Office Open XML C# Library”,
  • napisać własny kod.

Pisząc własny kod trzeba pamiętać, że Microsoft DOCX przechowuje treść dokumentów w formacie bazującym na XML. Eugene Pankov opisuje szczegółowo, jak napisać własną klasę DocxToText do pobierania treści dokumentów DOCX. Artykuł zawiera przykładowy projekt programu oraz kod źródłowy klasy DocxToText.

Using DocxToText to Extract Text from DOCX Files