Documentation
¶
Index ¶
- func ParseDocxToString(docxFilePath string) string
- func ParsePdfToString(pdfFilePath string) string
- func ParsePptxToString(pptxFilePath string) string
- func ParseTextToString(textFilePath string) (string, error)
- type BaseParser
- type DOCXParser
- type DocumentParser
- type DocumentParserFactory
- func (f *DocumentParserFactory) GetParser(extension string) (DocumentParser, error)
- func (f *DocumentParserFactory) ParseFromBytes(ext string, data []byte) (string, error)
- func (f *DocumentParserFactory) ParseFromBytesWithPages(ext string, data []byte) (map[string]string, error)
- func (f *DocumentParserFactory) ParseFromFile(filePath string) (string, error)
- func (f *DocumentParserFactory) ParseFromFileWithPages(filePath string) (map[string]string, error)
- func (f *DocumentParserFactory) ParseFromReader(ext string, reader io.ReaderAt, size int64) (string, error)
- func (f *DocumentParserFactory) ParseFromReaderWithPages(ext string, reader io.ReaderAt, size int64) (map[string]string, error)
- func (f *DocumentParserFactory) RegisterParser(parser DocumentParser)
- func (f *DocumentParserFactory) SupportedExtensions() []string
- type DocxParagraph
- type DocxRun
- type DocxTable
- type DocxTableCell
- type DocxTableRow
- type DocxText
- type ExcelParser
- func (p *ExcelParser) ParseFromBytes(data []byte) (string, error)
- func (p *ExcelParser) ParseFromFile(filePath string) (string, error)
- func (p *ExcelParser) ParseFromReader(reader io.ReaderAt, size int64) (string, error)
- func (p *ExcelParser) ParseWithPages(reader io.ReaderAt, size int64) (map[string]string, error)
- func (p *ExcelParser) SupportedExtensions() []string
- type PDFParser
- type PPTXParser
- type PageSeparatedParser
- type Paragraph
- type Shape
- type Slide
- type SlideData
- type TextBody
- type TextParser
- type TextRun
Constants ¶
This section is empty.
Variables ¶
This section is empty.
Functions ¶
func ParseDocxToString ¶
ParseDocxToString は後方互換性のための既存メソッド
func ParsePdfToString ¶
ParsePdfToString は後方互換性のための既存メソッド
func ParsePptxToString ¶
ParsePptxToString は後方互換性のための既存メソッド
func ParseTextToString ¶
ParseTextToString は後方互換性のための既存メソッド
Types ¶
type BaseParser ¶
type BaseParser struct{}
BaseParser は共通処理を提供する基底構造体
func (*BaseParser) ParseFromBytes ¶
func (p *BaseParser) ParseFromBytes(data []byte) (string, error)
ParseFromBytes のデフォルト実装(ReaderAtを使う実装にフォールバック)
func (*BaseParser) ParseFromFile ¶
func (p *BaseParser) ParseFromFile(filePath string) (string, error)
ParseFromFile のデフォルト実装
func (*BaseParser) ParseFromReader ¶
ParseFromReader は各パーサーで実装が必要
type DOCXParser ¶
type DOCXParser struct {
BaseParser
}
DOCXParser はWordファイルのパーサー
func (*DOCXParser) ParseFromReader ¶
ParseFromReader はio.ReaderAtからDOCXをパース
func (*DOCXParser) SupportedExtensions ¶
func (p *DOCXParser) SupportedExtensions() []string
SupportedExtensions はサポートする拡張子を返す
type DocumentParser ¶
type DocumentParser interface {
// ParseFromReader はio.ReaderAtからドキュメントをパース
ParseFromReader(reader io.ReaderAt, size int64) (string, error)
// ParseFromBytes はバイト配列からドキュメントをパース
ParseFromBytes(data []byte) (string, error)
// ParseFromFile はファイルパスからドキュメントをパース(後方互換性)
ParseFromFile(filePath string) (string, error)
// SupportedExtensions はサポートする拡張子を返す
SupportedExtensions() []string
}
DocumentParser はドキュメントをパースするインターフェース
type DocumentParserFactory ¶
type DocumentParserFactory struct {
// contains filtered or unexported fields
}
DocumentParserFactory はファイル拡張子に基づいてパーサーを返す
func NewDocumentParserFactory ¶
func NewDocumentParserFactory() *DocumentParserFactory
NewDocumentParserFactory はファクトリーを初期化
func (*DocumentParserFactory) GetParser ¶
func (f *DocumentParserFactory) GetParser(extension string) (DocumentParser, error)
GetParser は拡張子に対応するパーサーを返す
func (*DocumentParserFactory) ParseFromBytes ¶ added in v0.3.0
func (f *DocumentParserFactory) ParseFromBytes(ext string, data []byte) (string, error)
ParseFromBytes はバイト配列からドキュメントをパースする
func (*DocumentParserFactory) ParseFromBytesWithPages ¶ added in v0.6.0
func (f *DocumentParserFactory) ParseFromBytesWithPages(ext string, data []byte) (map[string]string, error)
ParseFromBytesWithPages はバイト配列からドキュメントをパースし、可能な場合はページ/シートごとに分割して返す
func (*DocumentParserFactory) ParseFromFile ¶ added in v0.3.0
func (f *DocumentParserFactory) ParseFromFile(filePath string) (string, error)
ParseFromFile はファイルパスからドキュメントをパースする ファイルの拡張子を自動的に検出し、適切なパーサーを使用する
func (*DocumentParserFactory) ParseFromFileWithPages ¶ added in v0.6.0
func (f *DocumentParserFactory) ParseFromFileWithPages(filePath string) (map[string]string, error)
ParseFromFileWithPages はファイルパスからドキュメントをパースし、可能な場合はページ/シートごとに分割して返す
func (*DocumentParserFactory) ParseFromReader ¶ added in v0.3.0
func (f *DocumentParserFactory) ParseFromReader(ext string, reader io.ReaderAt, size int64) (string, error)
ParseFromReader はio.ReaderAtからドキュメントをパースする
func (*DocumentParserFactory) ParseFromReaderWithPages ¶ added in v0.6.0
func (f *DocumentParserFactory) ParseFromReaderWithPages(ext string, reader io.ReaderAt, size int64) (map[string]string, error)
ParseFromReaderWithPages はio.ReaderAtからドキュメントをパースし、可能な場合はページ/シートごとに分割して返す
func (*DocumentParserFactory) RegisterParser ¶
func (f *DocumentParserFactory) RegisterParser(parser DocumentParser)
RegisterParser はカスタムパーサーを登録
func (*DocumentParserFactory) SupportedExtensions ¶
func (f *DocumentParserFactory) SupportedExtensions() []string
SupportedExtensions はファクトリでサポートされる全ての拡張子を返す
type DocxParagraph ¶
type DocxParagraph struct {
Runs []DocxRun `xml:"r"`
}
type DocxTableCell ¶ added in v0.5.0
type DocxTableCell struct {
Paragraphs []DocxParagraph `xml:"p"`
}
type DocxTableRow ¶ added in v0.5.0
type DocxTableRow struct {
Cells []DocxTableCell `xml:"tc"`
}
type ExcelParser ¶ added in v0.4.0
type ExcelParser struct {
BaseParser
}
func (*ExcelParser) ParseFromBytes ¶ added in v0.4.0
func (p *ExcelParser) ParseFromBytes(data []byte) (string, error)
func (*ExcelParser) ParseFromFile ¶ added in v0.4.0
func (p *ExcelParser) ParseFromFile(filePath string) (string, error)
func (*ExcelParser) ParseFromReader ¶ added in v0.4.0
func (*ExcelParser) ParseWithPages ¶ added in v0.6.0
ParseWithPages はシートごとに内容を分けてマップ形式で返す
func (*ExcelParser) SupportedExtensions ¶ added in v0.4.0
func (p *ExcelParser) SupportedExtensions() []string
type PDFParser ¶
type PDFParser struct {
BaseParser
}
PDFParser はPDFファイルのパーサー
func (*PDFParser) ParseFromBytes ¶
ParseFromBytes はバイト配列からPDFをパース
func (*PDFParser) ParseFromFile ¶
ParseFromFile はファイルパスからPDFをパース
func (*PDFParser) ParseFromReader ¶
ParseFromReader はio.ReaderAtからPDFをパース
func (*PDFParser) SupportedExtensions ¶
SupportedExtensions はサポートする拡張子を返す
type PPTXParser ¶
type PPTXParser struct {
BaseParser
}
PPTXParser はPowerPointファイルのパーサー
func (*PPTXParser) ParseFromBytes ¶
func (p *PPTXParser) ParseFromBytes(data []byte) (string, error)
ParseFromBytes はバイト配列からPPTXをパース
func (*PPTXParser) ParseFromFile ¶
func (p *PPTXParser) ParseFromFile(filePath string) (string, error)
ParseFromFile はファイルパスからPPTXをパース
func (*PPTXParser) ParseFromReader ¶
ParseFromReader はio.ReaderAtからPPTXをパース
func (*PPTXParser) SupportedExtensions ¶
func (p *PPTXParser) SupportedExtensions() []string
SupportedExtensions はサポートする拡張子を返す
type PageSeparatedParser ¶ added in v0.6.0
type PageSeparatedParser interface {
DocumentParser
// ParseWithPages はio.ReaderAtからドキュメントをパースし、ページ/シートごとのマップを返す
ParseWithPages(reader io.ReaderAt, size int64) (map[string]string, error)
}
PageSeparatedParser はページやシートごとに分割してパースするインターフェース
type TextParser ¶
type TextParser struct {
BaseParser
}
TextParser はプレーンテキストファイルのパーサー
func (*TextParser) ParseFromBytes ¶
func (p *TextParser) ParseFromBytes(data []byte) (string, error)
ParseFromBytes はバイト配列をそのまま文字列として返す
func (*TextParser) ParseFromReader ¶
ParseFromReader はio.ReaderAtからテキストを読み込んでそのまま返す
func (*TextParser) SupportedExtensions ¶
func (p *TextParser) SupportedExtensions() []string
SupportedExtensions はサポートする拡張子を返す